甲骨文因年代久遠、字形變化多樣、無傳世文獻可供對照等因素,對其識別一直是考古學面臨的難題。南方科技大學6位本科生運用圖像和文本處理、深度學習算法、創新的神經網絡算法和生成對抗算法,結合甲骨文的形態、語義、上下文關聯等知識,實現甲骨文文字的自動識別、生成和檢索目標。
甲骨文,指中國商朝晚期王室用于占卜記事而在龜甲或獸骨上契刻的文字,最早出土于距今3000多年的河南省安陽市殷墟遺址。識別甲骨文一直是困擾學術界的難題,為了解決這一問題,南方科技大學2018級本科生曾鳴、楊睦圳、魯昊天、汪煒、席睿翎和2017級張舒煜等6名同學,在人文社科唐際根老師、計算機系劉江老師以及研究團隊章曉慶、胡玙璠、鐘雯的指導下,以CS330《多媒體信息處理》課程學到的知識和技能為基礎,嘗試用AI解讀甲骨文。
據介紹,他們首先建立了甲骨文數據庫,將已識別的甲骨文圖像及其對應漢字收入庫中,目前已完成558個單字、1.8萬多張圖像的錄入。接著,采用經典的深度殘差神經網絡(ResNet)模型實現手寫甲骨文圖像識別的任務;然后,選擇pix2pix生成對抗網絡(GAN)作為生成甲骨文的自動方法,用于增加樣本多樣性和生成一些未知甲骨文,其中基本網絡采用U-Net結構;最后,利用檢索算法將未知甲骨文圖像與已有的甲骨文對比,從數據庫檢索出未知甲骨文圖像。
本項目創新地開發多媒體信息處理和人工智能技術應用于甲骨文的識別和生成,以考古學研究需求為導向,以多媒體信息處理和人工智能創新算法為核心,充分融合南方科技大學考古研究與多媒體人工智能算法創新的科研實力,體現了跨學科交叉融合的魅力與力量,實現了跨越學科邊界的思維碰撞與技術共享。目前,合作團隊已經著手開發可用于展示和互動的微信小程序,希望將甲骨文的識讀面向大眾,提升大眾對甲骨文的理解。
項目小組組長曾鳴說:“在甲骨文識別項目中,小組學習了甲骨文相關歷史和研究現狀,并把人工智能技術應用到甲骨文。這次人文研究和計算機技術的結合,讓我們體會到交叉學科研究的魅力!”(記者 吳吉)