標籤:漢字  文字學  古文字  數據庫  數字人文  甲骨文  

數字資源活化甲骨文研究


2023年8月16日

轉載自数字资源活化甲骨文研究

高峰 宋镇豪

安阳师范学院甲骨文信息处理教育部重点实验室

中国社会科学院古代史研究所

郑州大学汉字文明研究中心

(本文原载《中国社会科学报》2023年7月20日6版)

甲骨文蕴含着厚重的中华文化基因和源远流长的文化根脉,是据以探索中华文明的不可再生资源。甲骨文多层面聚焦3500年至3000多年前的中国古代社会发展史,为中华文明探源与中国上古史体系的构建提供了第一手的真实性史料。习近平总书记指出,中华文明探源工程“要加强统筹规划和科学布局,坚持多学科、多角度、多层次、全方位,密切考古学和历史学、人文科学和自然科学的联合攻关,拓宽研究时空范围和覆盖领域,进一步回答好中华文明起源、形成、发展的基本图景、内在机制以及各区域文明演进路径等重大问题”。作为新时代甲骨文的研究者,应该崇文鉴史、经世致用,服务国家重大战略、对标国家文化发展需求,静下心来守住学术的良知、底线和科学精神,为建设中华文明研究学科体系、学术体系和话语体系而有所作为。

甲骨文全面整理有序传承

2017年10月30日,联合国教科文组织公布甲骨文入选“世界记忆名录”。这是一项期盼已久的入选,长期以来,甲骨文持续受到国家、政府、社会和个人的重视及保护。甲骨文自1899年被发现后,124年来先后出土的甲骨已流散至世界各地并被近百处藏家收藏。作为独特可贵的史料,从王懿荣、刘鹗、孙诒让,到罗振玉、王国维、董作宾、郭沫若(“甲骨四堂”),再到唐兰、容庚、柯昌济、商承祚(“甲骨四少”)以及王襄、于省吾、陈梦家、胡厚宣等数代前贤学者前赴后继不懈努力,甲骨文引起了国内外学术界的极大关注与深入探索,成为国际性显学。对于散落在世界各地的甲骨文,全面专业的整理工作最为关键。早在1984年,胡厚宣就曾指出甲骨文出土总数约计15万片,我们后来统计已超过16万片。20世纪中晚期,具有里程碑意义的《甲骨文合集》与《甲骨文合集补编》等集大成著录集出版,为推动甲骨文和甲骨学研究创造了良好的条件。胡厚宣在40多年前曾提到,甲骨文章汗牛充栋,散落在各种刊物上,寻找资料非常不容易,能不能编出一部有关甲骨研究文献的书。可惜的是,这一愿望直到他去世也没有实现。继承胡厚宣遗愿,21世纪初,在中国社会科学院古代史研究所宋镇豪研究员的带领下,终于编成40册的《甲骨文献集成》,被誉为13册《甲骨文合集》的姊妹篇,前者结集研究成果,后者总汇研究材料,为甲骨学研究提供了基本齐整的学术资料。

以中国社会科学院古代史研究所为例,正在编著《甲骨文合集三编》,辑集《甲骨文合集》与《甲骨文合集补编》漏收以及后出散见各处的甲骨,补收补拓部分公私诸家所藏甲骨,总计著录甲骨3万多片,将为学术界提供一部新的集大成性的甲骨著录集;近年又编著了旅博、津博、山东博、重庆三峡博、俄罗斯冬宫、民间收藏等15批两万多片甲骨藏品的著录集。据统计,全国公家单位收藏甲骨文1700片以上的有11家,200—900片的有13家,60—199片的有12家。这36家中,已整理著录或正在整理著录的有12家,占33.3%;整理不到位的有5家,占13.9%;有待整理著录的有19家,占52.8%。因此,我们深感有必要从国家层面全面启动甲骨文的全息性整理研究与著录,落实甲骨文遗产抢救性保护措施,全面推动甲骨文的科学研究、文化传播、历史教育,促进中华文明根脉的深入探索。

“殷契文渊”推进甲骨文数字化

甲骨质地脆弱,表面疏松粉化与残损较为普遍,保存、展示、利用均为不易。因近16万片甲骨分别收藏于国内外博物馆、图书馆、科研机构、高校等至少174家机构,无法从“物理形式”中把甲骨重新集中起来研究,而甲骨文数字化服务资源建设,尤其是以大数据、人工智能为技术基础的甲骨文数字化工程,可最大程度地保存甲骨及其承载文字的原始信息。

甲骨文数字化服务资源建设的首要任务是将甲骨文的材料、工具书、研究文献数字化,核心工作是数据库的建设,能够对甲骨文拓片或图片进行去噪处理,并能满足各种检索需求。国内外已建成多个甲骨文数据库,如香港中文大学开发的香港汉达古籍数据库检索系统,收录《甲骨文合集释文》及《英国所藏甲骨集》等海内外7种主要大型甲骨图书。中国国家图书馆研制的“甲骨世界”数据库收集甲骨照片5932幅、拓片3177幅。此外,中国台湾“中研院”、华东师范大学、日本东京大学东洋文化研究所等机构也相继研制出几种甲骨文数据库,国学大师网站等个人开发的数据库也有部分可公开使用。

尽管目前甲骨文数字化服务资源建设取得了不少成绩,很大程度上也方便了甲骨文的研究,但整体上甲骨文数据的完整性、规范性和关联性程度不高,尤其是存在用户多粒度检索效率差的问题。

甲骨文的故乡在河南安阳殷墟。20世纪80年代有学者说过,甲骨文分布在世界各地,希望有一天那些流落异国他乡的甲骨文能够回归故土。让所有流落在外的甲骨文物回归故土恐怕不现实,但通过大数据,将数字化的甲骨文全部集中到安阳,还是有可能实现的。出于这样一个愿景,安阳师范学院甲骨文信息处理教育部重点实验室与中国社会科学院甲骨文殷商史研究中心一起,在2019年10月推出了“殷契文渊”,利用大数据、云计算将甲骨文数字化、智能化,协力构建甲骨文大数据平台。这一平台包括“三库一平台”,即著录库、字形库和文献库,以及甲骨文知识服务平台,现已有甲骨著录153种、图像239289幅、甲骨文4000多字头、学术论著34234种,并且还在不断更新。通过研发多维度的信息标注,实现字形与字形、字形与相关工具书、著录、文献等多功能关联,解决了由于甲骨文输入困难与信息标注繁琐而导致甲骨文著录、文献资源大规模共享与推广的难题。同时,平台不仅免费向全球开放,还提供了各类人工智能技术研究所用的专用公开数据集及各类信息资源整合服务,目前正在进行第四期的研发建设。

数智赋能甲骨文保护与传承

随着甲骨学研究不断推进,产生了大量的甲骨学知识数据,如著录方面的拓片、照片、摹本,尤其是近年来出现的三维甲骨数据,甲骨字形方面的部首、单字、异体字形,以及大量的甲骨研究文献,这些多维度、多模态的数据是甲骨文研究的重要资料,也是新时代甲骨文信息处理研究的数据之本。在此主要就甲骨著录图像、甲骨字形、甲骨研究文献等方面的数字化、智能化应用进行梳理,以期达到推动甲骨文创新整理并有助于甲骨文研究实现新突破的目的。

甲骨著录中的文字检测与识别。对已有的甲骨著录进行数字化工作,首先要解决的是甲骨文字的检测与识别,它是计算机自动处理甲骨图像数据的基础。一方面,通过对已有甲骨著录的数字化可以提高甲骨学专家的研究效率,尤其是合适的检索技术(包括以字搜图、以字搜字、以图搜图)可成倍提高学者查询文献的效率;另一方面,利用计算机视觉分析技术,对甲骨著录图像中的甲骨文字进行检测和识别,不仅可加速甲骨文献数字化的进程,也可对其他古文字的研究、甲骨文化推广和传播提供帮助。

传统的甲骨文字识别方法,一般分为特征提取和特征分类。特征提取的目的是获取甲骨文字图像的独有特征,特征分类则依据提取的特征判断该特征属于哪一个甲骨字。常见的特征提取方法有:尺度不变特征变换、方向梯度直方图、Gabor、局部二值模式等。最常见的特征分类器是支持向量机。从传统的甲骨文字检测方法可以看出,特征检测和特征识别器的设计对算法设计人员具有很强的依赖性,选择不同的特征和识别器,识别效果相差极大。这也是传统的图像识别存在的问题。

近年来,基于深度神经网络的识别技术取得了长足的发展。这种技术不需要人工选择特征,能够实现端到端的识别结果。比较有代表性的成果是微软亚洲研究院王长虎等提出的一种基于层次化表示的甲骨文字符识别方法。

安阳师范学院甲骨文信息处理教育部重点实验室联合华南理工大学发布的甲骨文拓片数据集OBC306,针对不同卷积神经网络(CNN)提升了识别率;中国科学院自动化研究所刘成林团队提出的基于深度度量学习的最近邻分类方法,使用摹本字形辅助拓片字形的识别方法;华东师范大学杨争峰等通过改进VGG模型,在自建数据集OBI100得到最高99.5%的识别准确率;西交利物浦大学王秋峰等提出面向甲骨文字识别的混合增广策略;复旦大学付彦伟等人提出面向甲骨文少量学习的数据增广方法;日本立命馆大学孟林等提出动态数据增广方法在自建数据集OBI125中有较好效果。相比传统的甲骨文字识别技术,这些方法都取得了非常明显的进步。

尽管各类识别方法效果看似不错,但大多只是选取了字形频率较高的100—300个字形类别,且识别对象为样本数量相对比较多的拓片甲骨字。所以还要重点考虑,针对甲骨文数据分布的极度不均衡现象造成的甲骨文识别模型在低字频类别识别性能欠佳的问题。为此,我们联合腾讯公司,在“殷契文渊”甲骨文数据标注和处理基础上,通过定制化算法,不断丰富完善甲骨文模型库,截至目前已建立覆盖143万字的全球最大甲骨文单字量数据库,提升甲骨文识别与考释、甲骨论著内容提取等的效率。

甲骨字编码与输入法应用。甲骨文虽已是一个相对成熟的文字系统,但因其没有规范的笔画、异体字多、大量未释字和读音无从知晓,实现甲骨文的计算机输入面临很大的挑战。甲骨文字的编码与字形问题一直是甲骨文研究的焦点,也是甲骨文数字化工程的关键问题之一。从甲骨文字的编码实现方案来看,无论是采用现代汉字的对应编码,还是使用Unicode空间的Private Use Area区间进行重新编码,都无法完全解决甲骨文中异体字和随着研究深入甲骨字形动态增加、变化的问题。所以,目前亟待解决的问题是确定甲骨字的基本字形标准,并落实甲骨文进入国际Unicode编码工作,通过国际标准审核后,固定其在Unicode编码空间的位置,为甲骨文字形库建设、输入法和数字化出版等工作奠定基础。

甲骨文输入法是甲骨文数字化编辑的基础。就目前的使用来讲,已经不局限于个人电脑端使用,更多体现在基于Web页面的文字显示和基于出版编辑的数字化出版业务上。甲骨文字和现代汉字有很大区别,甲骨文的输入法研究面临很大挑战。目前可行的方案是编制简明易用编码表,以目前专家学者比较常用的拼音、编码、手写、可视化等多个维度的甲骨文输入法来分析,各有特点。不过我们相信随着甲骨文数字化工作不断深入,甲骨文的统一编码标准一旦建立,能用、好用、够用的甲骨文输入法一定会完善起来,也更能让甲骨文真正“活”起来。

甲骨研究文献的碎片化与异构化。甲骨文文献是所有文献中最复杂的文献,在版式、文字、图像等方面极具挑战性。目前,“殷契文渊”课题组已经收录120多年来的甲骨文相关研究文献34234篇,并在数字平台上实现了根据题名、摘要、作者、关键词等题录信息对文献进行检索与相应PDF格式文档下载等功能,但还不能做到全文检索和图像检索。

随着甲骨文研究的深入,仅通过文章题目、作者或关键词在数据库中查找孤立文章的检索方式已不能满足日益深化的甲骨学研究需求。以知识图谱技术为主导的智能检索、关联推送等知识服务是目前更多甲骨学者的诉求,但现有的甲骨文数据库一般无法直接从以扫描图片为主的文献中提取文献内容信息,需要对这些扫描图片进行深层次加工。具体来讲,是将文献扫描图片转化为由文字、图片、图表等异构数据构成的非结构化数据,并按照内容拆分成以字词为单位的细颗粒度信息单元,最终形成异构数据构成的XML文档。

与现代文档不同的是,出版于新中国成立前的甲骨文献受落后印刷技术限制与新文化运动对书写规则的冲击,通常没有统一的排版方式、用字规范以及标点符号使用规则,这就导致常规的碎片化工具无法直接适用于甲骨文文献。此外,与现代文档的异构化数据中通常仅有文章插图的图片数据不同,甲骨文献中经常出现生僻字、隶定字以及古文字等现有字符识别技术还不能有效识别的字形,这些字形也需要以图片数据的形式保存。因此,甲骨文献的异构数据结构中,图片数据占比远高于现代文献。高比例的图片数据整理需求也导致人工整理甲骨文献的难度成倍增加。目前,甲骨文献的异构化加工基本采取人工手动录入,在部分不涉及甲骨文的文章内容中使用OCR工具进行辅助识别,但文献整理整体进度缓慢,仅有小部分文章实现了异构化。

甲骨文献数字化技术为计算机提供了可供检索、关联与分析的数字化素材,为实现甲骨学研究的便捷化、智能化奠定了基础,而利用人工智能技术进行甲骨文献整理也成为未来的发展趋势。此外,文献数字化技术也可以为甲骨学研究者与甲骨文爱好者提供一系列智能化服务,如图片手写甲骨字识别、拓片字符关联信息检索等,不断拓展甲骨学研究的广度与深度。

以甲骨文献自动异构化加工为目标,利用人工智能技术对文献图片进行文档分析与字符识别,根据整理需求,识别图片文献各部分内容的异构数据类型,将其提取为文字或图片等异构数据,并以XML格式存放于数据库。该整理方法不仅适用于甲骨文献的整理,还可推广至所有涉及古文字文献的深度加工任务。在文献异构化、知识化加工的基础上,将结合甲骨文字形库与著录库,实现三库之间的关联,并根据抽取的内容语义信息提供基于知识推理的智能检索服务。

甲骨文全信息数据模型与甲骨数字焕活。经过对甲骨文收藏机构和研究机构的系统性调研,我们发现甲骨文数字化面临两大问题:一是如何实现甲骨文“实物”的高保真数字还原;二是如何实现甲骨“文字”的高效率数字查找。2022年4月起,我们联合腾讯公司组建共创团队探索融合人工智能技术,用“微痕分析”进行实物三维建模,用“字形匹配”进行甲骨文的“以字搜字、以字搜图”,实现甲骨文的实物高保真展示、文字高效率查询、实物与文字的高质量关联。

为打破甲骨文数据分散难以串联的局面,共创团队形成“甲骨文全信息数据模型”,实现三维建模、文字关联等高质量数据与摹本拓片等传统数据的分层按坐标对齐。在协同机制的运作下,我们提出融合人工智能,通过“微痕提取”技术突破拓片、摄影、摹本技术,高保真展示还原甲骨实物细节,同时进行甲骨文数据多维度融合,形成扩展、多层信息坐标对齐的跨媒体格式的“甲骨文全信息数据模型”,真正实现甲骨文的“实物”焕活,其中部分成果已经在2023年4月20日发布的“了不起的甲骨文”微信小程序上进行了展示,受到业界关注和好评。另外,我们通过权威、专业、实用、有趣、共创的甲骨文数字网络载体,让更多普通大众了解甲骨文、感知甲骨文、研究甲骨文、利用甲骨文,让甲骨文传承与传播的道路通畅起来。

基于“殷契文渊2.0”的甲骨文辅助考释。随着信息时代人工智能技术的进步,基于大数据技术助推甲骨文考释必定是一条新的思路和方法,如将甲骨文相关数据进行扩充,建立更多数据支撑,利用较为成熟的人工智能技术尤其是深度学习进行甲骨文辅助考释研究。目前,在“殷契文渊”的四期建设中,我们主要进行甲骨文数据的底层清洗,更新著录库、字形库、文献库、缀合库,建设“殷契文渊2.0甲骨文传文”模型库,基于字形匹配系列算法提供“以字搜字、以字搜图”的数据工具箱,构建甲骨文知识图谱,用“字形匹配”的AI算法和“人机协同”的模式助力甲骨文“破译”。

甲骨文数字化服务建设极大推动了甲骨文的深入研究,尤其是近年来以深度学习技术为主的人工智能新科技的发展和国家层面的高度重视,预示着甲骨文研究在数智赋能下有着光明的前景。虽然还面临着更多的技术难题及其他挑战,但我们相信,结合新技术、新手段,开展更多的跨学科深入研究,一定会让甲骨文化在现代社会焕发生机,深入推动甲骨文等古文字的创造性转化和创新性发展。

注释

本文系古文字与中华文明传承发展工程规划项目“殷契文渊——甲骨文数据化平台”(G2812)、“甲骨文献中异构数据的识别与提取技术”(G1806)、中国高校产学研创新基金项目“面向甲骨文传承与创新的个性化教学服务平台研究”(2021RYA05002)阶段性成果