您所在的位置:

简牍文字数据集DeepJiandu正式公开使用

发布时间:2025-03-28


在纸张普及之前,简牍是中国古代最主要的书写载体之一,广泛用于记录国家政令、司法审判、日常事务、医药方术等内容,是早期国家制度、社会运作和文化传播的重要载体。随着简牍的大量出土,其数字化、结构化处理逐渐成为推动中国古代文献整理与研究的重要方向。


image.png 

图1 DeepJiandu数据集图像示例


然而,由于简牍材质本身的脆弱性,加之长期的埋藏与风化,许多文献在出土时墨迹已模糊、字符残缺、版式混乱,给人工释读带来了极大的困难。传统的文献整理方式效率低、成本高,难以应对当前简牍研究与共享的需求。同时,尽管人工智能、计算机视觉等技术在甲骨文识别等方向取得了显著进展,但由于缺乏高质量的基础数据集,简牍领域的智能化应用依然滞后。

为破解这一数据基础薄弱的难题,我们自2023年起启动了简牍文字数据集建设专项工作,依托西北师范大学在简牍学、古文字、人工智能等方向的交叉研究积累,联合甘肃简牍博物馆、西南大学与相关技术团队,展开跨学科、跨单位的系统协作。


 image.png

2 简牍学术资源数据共享平台


项目初期,我们首先完成了对已有红外扫描图像资源的全面筛查与图像质量评估,建立了规范的图像管理机制和元数据结构。在此基础上,我们与简牍释文专家合作开展释文标准化与字符切分讨论,确立了字符标注规则和类别定义体系。为保证标注的准确性,我们组建了专门的标注小组,邀请简牍学、古文字学、计算机科学三方面的研究人员通力协作,分批次完成字符框选、分类和复核。

在整个过程中,我们同步推进数据预处理、标注流程规范化、数据结构设计与深度学习实验验证工作,确保数据不仅具有高学术价值,也具备良好的算法适配性。所有任务经过了至少两轮专家审核,标注质量可控可溯。最终形成了具有国际领先水平的简牍字符检测与识别数据集——DeepJiandu,并于2025年3月发表于国际知名开放数据期刊Scientific Data


 image.png

3 相关论文发表在Scientific Data期刊上


DeepJiandu是目前国内外首个专为深度学习模型设计的简牍字符识别数据集,涵盖广泛字符类型、复杂文献布局和真实残缺场景,具备极强的挑战性和研究价值。数据集共包含7416张高质量红外图像,标注字符数量达99,852个,覆盖2242类字符,既包括常用字,也涵盖大量异体字、残损字和不可释字符,充分展现简牍文本的真实复杂性。

所有标注均由我们团队与简牍学专家合作完成,采用主流目标检测标注格式(VOC),每一张图像都包含字符位置信息与分类信息,结构标准化,直接适配于当前主流的OCR和目标检测算法,广泛适用于字符检测、识别、图文定位等任务。


image.png 

图4 DeepJiandu数据集的字符标注示例,标注框标明了字符的位置和类别


在数据处理方面,我们对原始图像进行了清理、去噪、增强等预处理操作,并按照8:1:1的比例划分为训练集、验证集与测试集,以支持模型训练的科学性与稳定性。数据集中存在明显的长尾分布特征,这也为小样本学习、不平衡分类、多尺度建模等研究方向提供了真实而有价值的实验场景。

我们已在该数据集上完成了多种主流字符检测与识别模型的测试实验。结果显示,尽管当前模型在清晰字符上的检测和识别精度较高,但在应对残损、模糊和低频字符类别时仍存在较大改进空间。DeepJiandu因此不仅是一个数据资源,更是推动相关模型优化、激发交叉创新的“试验田”。


image.png 

5 文字检测实验结果示例


DeepJiandu的发布,不仅为古文献OCR、字符检测、语义分析等研究提供了重要基础,也有望推动深度学习方法在文化遗产智能保护中的广泛应用。当前,我们已在该数据集上开展了多种检测与识别模型实验,未来还将进一步探索图像增强、文献缀合、书写风格分析、古文字大模型训练等多项前沿方向,打造面向简牍智能化研究的技术生态体系。

目前,DeepJiandu数据集已正式上线,面向全球学术与技术社群开放共享,欢迎各领域研究者下载使用,也欢迎加入我们的合作网络,共同推动简牍智能化研究的发展。

论文链接:https://www.nature.com/articles/s41597-025-04716-3

数据集下载:https://www.scidb.cn/en/detail?dataSetId=7f627b99d06e4430a5e5d21b20614b46