第二届中国数据大会丨西交利物浦大学智能工程学院副教授武芳宇:让AI读懂敦煌壁画
更新时间:2025-12-15 13:25 浏览量:1
中华五千年文明积淀了海量弥足珍贵的文化遗产,涵盖宋韵文化、敦煌文化、良渚文化等诸多细分领域,蕴含着独特珍贵的文化价值。但目前这些文化资源面临价值挖掘转化难度大、利用不充分的问题,没能很好地将资源优势转化为发展优势。
“文化数据作为文化资源价值的数字载体,正是人工智能赋能人文经济产业的核心要素,能实现文化价值多维度、多模态、多粒度的数字化表征,让计算机可理解、可认知、可传承。”在第二届CCF中国数据大会“人文智能数据集构建与利用”论坛上,西交利物浦大学智能工程学院副教授武芳宇表示。
武芳宇说,基于这样的背景,其研究团队聚焦文化遗产的数字化保护与利用,开展了一系列数据集构建与技术研发工作,取得了多项成果。
构建首个中国文化遗产跨模态检索数据集CulTi。数据集包含来自古代丝绸和敦煌壁画的5726个图像文本对,填补该领域空白。资料来源于《中国古代丝绸设计素材图系》和《敦煌壁画全集》,每个条目都包含ID、标题、图像、文字描述,专为跨模态检索任务(图像到文本、文本到图像)而设计。
构建敦煌壁画问答数据集。敦煌艺术作为高难度文化遗产图像的典型代表,具有视觉结构复杂、信息密集、语义鸿沟大等特点。该数据集含486张高清壁画图片、22970个问答对,内容深度覆盖历史背景、宗教图像学、叙事情节及审美艺术等多个维度。研究团队在23个多模态模型上进行了系统评测,旨在全面观察模型对敦煌艺术的理解能力,为相关领域模型优化提供参考。
构建中国博物馆大规模检索与问答数据集。该数据集包含29352个独立文物实体,覆盖48个文物类别,时空跨度纵贯新石器时代至近现代,包含文物的全景、局部细节及多角度拍摄图像,能够还原真实视觉体验。
贵州日报天眼新闻记者 李姗
编辑 朱登芳
二审 江婷婷
三审 岳振
