AI研究甲骨文:五年的工作一天就做完了
4月20日,是聯(lián)合國定下的“中文日”。每年的這一天,聯(lián)合國都會舉辦各種中文推廣活動,讓世界各地的人都能體驗中文的魅力。
而中文的故事,還要從甲骨文說起。
甲骨文是現(xiàn)存最早的文字,最早的甲骨文可以追溯到春秋時代(約公元前1200年),它的發(fā)現(xiàn)將中國信史向上推進(jìn)了約1000年,可以解讀出大量珍貴信息。
(資料圖片)
然而,甲骨文研究是一項極度消耗人力的工作。
全世界目前已發(fā)現(xiàn)的殷商甲骨文不到5000字,真正被釋讀出來的字?jǐn)?shù)僅在1500-2000字之間。在“先秦史研究室”網(wǎng)站上,學(xué)者們會公布最新的甲骨文較重、綴合結(jié)果,依靠人力,一年只能更新幾十組。甲骨文的整體研究工作往往被基礎(chǔ)資料整理所困,推進(jìn)困難。
首都師范大學(xué)甲骨文研究中心的莫伯峰教授團(tuán)隊,聯(lián)合微軟亞洲研究院武智融研究員,希望用人工智能找到甲骨文難題的另一個解法。
“較重”難題
1899年,金石學(xué)家王懿榮用龍骨熬藥時,發(fā)現(xiàn)龍骨上刻著一些“符文”。因為對古文字頗有研究,他辨認(rèn)這不是單純的劃痕,而是一種遠(yuǎn)古時期的文字,隨即把它們收藏了起來。在殷墟甲骨被科學(xué)挖掘以前,經(jīng)歷了多年的私人挖掘、倒賣,因此流散到了很多地方。
從甲骨文首次被發(fā)現(xiàn)至今,出土的甲骨實物約有15萬片。這些甲骨在不同的人手中流轉(zhuǎn),留下了多張拓本圖像,這些對同一片甲骨的不同拓本被稱為“重片”,是解讀甲骨文的重要材料。
不同時期的拓片,外觀差距很大|微軟亞研院
甲骨重片數(shù)量繁多,質(zhì)量參差不齊,整理和校對重片成了一項重要的基礎(chǔ)工作,被稱作“校重”。多年來,校重依靠學(xué)者靠肉眼和經(jīng)驗一一對照,費時費力。正如《甲骨文合集補編》前言中所述:“這種對重、選片的工作,其繁瑣、費工是局外人難以想象的?!?/p>
到了今天,大多數(shù)拓本圖像已經(jīng)數(shù)字化,一個新想法應(yīng)運而生:人工智能是不是可以為校重工作加速?
難題的另一種解法
微軟亞洲研究院的武智融一直在尋找一個好課題。畢業(yè)后,他專注于研究視覺方面的自監(jiān)督模型,了解到甲骨文研究的困境后,他感到豁然開朗:“甲骨文既是文字,又是圖像,比一般的多模態(tài)研究更有趣?!?/p>
一開始,他想研究甲骨文釋讀,但之后武智融發(fā)現(xiàn),想要釋讀甲骨文,就得先把較重工作做好。
在武智融看來,較重工作天然就適合機(jī)器來做。判斷一張拓片是不是重復(fù)的,理論上需要把它和現(xiàn)存的重片都比對一遍。隨著時間流逝,甲骨不僅會模糊,還會破裂成小塊,一些不完整的拓片讓較重工作更難。
B(局部)和 A(整片)是重片,C(局部)和A(整片)是重片,不能斷定B和C就一定是重片。這種情況下,基于全局特征來計算兩張拓片相似度的辦法就不奏效了。
于是武智融決定從局部下手:如果兩張拓片的多個“點與點”之間能夠精準(zhǔn)地對應(yīng)上,便能斷定它們很大程度上為重片。
盡管字跡模糊,但每個字的關(guān)鍵點仍然可以對應(yīng)|微軟亞研院
武智融訓(xùn)練了一套自監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)算法——甲骨文校重助手 Diviner。
自監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)的區(qū)別,在于模型在訓(xùn)練時是否需要人工標(biāo)注的標(biāo)簽信息。所謂監(jiān)督學(xué)習(xí),是利用大量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型,使模型基于標(biāo)記的輸入和輸出數(shù)據(jù)進(jìn)行推理,而自監(jiān)督學(xué)習(xí)是讓模型自己來尋找規(guī)律進(jìn)行分類。
武智融先嘗試用監(jiān)督學(xué)習(xí)的方式訓(xùn)練,但發(fā)現(xiàn)這種方式并不適用甲骨文校重。首先,重片的形狀差異大,模型很快就被搞迷糊了,其次,監(jiān)督學(xué)習(xí)需要人工標(biāo)注大量的數(shù)據(jù),而甲骨文的數(shù)據(jù)沒有那么多。
于是武智融決定把這個工作交給模型自己去解決:人類更擅長給出基于整體的、甚至主觀“微妙”的判斷,如果是循著規(guī)律的密集排查,機(jī)器的效率遠(yuǎn)在人之上。
因為歲月的侵蝕和多次流轉(zhuǎn),甲骨的不同拓本可能會有粗細(xì)之差,為了讓模型學(xué)會自己尋找重片,武智融先人工模擬出一些甲骨文可能發(fā)生的變化,例如變粗、變細(xì)、變模糊,為其加隨機(jī)噪音和旋轉(zhuǎn)。通過這種方式讓模型明白,不管是粗是細(xì),只要關(guān)鍵點位能一一對應(yīng),就是同一個字,這樣一來,模型的識別能力就不受拓片的清晰度、對比度、噪音、旋轉(zhuǎn)等外界因素的影響。
變粗變細(xì)變模糊,都是同一個字,對人類來說很簡單的道理,機(jī)器卻不一定學(xué)得會|微軟亞研院
當(dāng)然,基于局部匹配的方法能行得通還有很重要的一個原因:來自于同一塊甲骨的重片,文字大小是不會變動的。武智融將每張拓片分割成能承載足夠信息,又盡可能小的方格,哪怕重片是破碎的,也可以對應(yīng)得上。
新模型的比對效率甚至高于他的預(yù)期。
將18萬幅數(shù)字化拓本輸入Diviner之后,模型發(fā)現(xiàn)了大量甲骨重片,不僅復(fù)現(xiàn)了專家過去所發(fā)現(xiàn)的數(shù)萬組重片,而且經(jīng)過初步整理,已發(fā)現(xiàn)了三百多組未被前人發(fā)現(xiàn)的校重新成果。
給人類專家做助手
Diviner成果已經(jīng)在對專家工作產(chǎn)生實質(zhì)性的幫助。
Diviner新發(fā)現(xiàn)的重片,補齊了一些沒有拓全的拓本,一些時間久遠(yuǎn)字跡模糊的拓本也被清晰的重片替代。過去的很多疑惑都被解決了,專家們?nèi)绔@至寶。
Diviner還可以直接幫助“綴合”。綴合的目的是將一些支離破碎的甲骨,拼接成一個更完整的甲骨,復(fù)原整片甲骨的信息,有助于完整性地解讀史料。
人工對Diviner的結(jié)果再次驗證,從反饋來看,Diviner的“查重”準(zhǔn)確率能接近97%。這將鼓勵更多機(jī)構(gòu)甚至個人將其私藏的甲骨文拓本拿出比對,供學(xué)術(shù)界討論研究。
很多團(tuán)隊在嘗試用人工智能技術(shù)幫助甲骨文的研究、傳播,他們有人做甲骨文翻譯,也有人做“認(rèn)識甲骨文”小程序,但還是那個老生常談的問題,人機(jī)協(xié)作中,機(jī)器如何輔助好人類專家。
武智融舉了個例子。
甲骨文最初的目的是記錄占卜。占卜者將龜甲炙烤后,通過出現(xiàn)的裂紋的長短、粗細(xì)、隱現(xiàn)來判斷吉兇、成敗,并將占卜的內(nèi)容和結(jié)果刻在卜兆的近處,即為卜辭。
武智融和莫伯峰教授交流時才知道,卜兆在拓片上是模糊不清的,判斷卜兆信息的位置高度依賴專家經(jīng)驗。
人工智能能幫人類專家做數(shù)據(jù)、資料的恢復(fù)工作,但只有專家學(xué)者才知道“一是一橫,二是兩橫,三是三橫,四是四橫,一橫之差,看似相似度非常高,闡釋出來的意義卻全然不同”。
人工智能技術(shù)如何才能對甲骨文研究產(chǎn)生直接且具體的推動作用?隨著Diviner項目的進(jìn)程,他開始更好地理解這個議題。
Diviner還能有其他延伸用途嗎?
“有一次,同事開玩笑說,也許未來這套算法可能用于指紋識別,對刑偵有幫助也不錯?!蔽渲侨谛α诵φf。
注:文章中用到的拓本來自四本甲骨著錄書。①《甲骨文合集》②《甲骨文合集補編》③《上海博物館所藏甲骨文字》④《殷虛書契續(xù)編》
作者:沈知涵
編輯:翻翻
封面圖來源:東方ic
相關(guān)新聞
- AI研究甲骨文:五年的工作一天就做完了
- 正式上任,乒協(xié)宣布新職務(wù),馬琳暫離國乒亮相,不負(fù)劉國梁期待_環(huán)球新動態(tài)
- 視頻|戴封閉頭盔騎假牌摩托,撞人后逃逸,交警就找不到你了?
- 一字肩碎花上衣搭配緊身牛仔褲,最具風(fēng)格的穿搭,時髦又大氣
- 準(zhǔn)備橫掃!約基奇談G4:要有同樣的心態(tài)和專注度 我們要保持鎮(zhèn)定
- 昆明二本院校實力排名-昆明10所好大學(xué)排名(2023年昆明市最好的二本大學(xué)分?jǐn)?shù)線及位次) 全球熱點
- 新動態(tài):仿生種子機(jī)器人可監(jiān)測土壤環(huán)境,能改變形狀以響應(yīng)濕度
- 熱消息:美劇【律師本色】迷魅的勸說力、博弈
- 環(huán)球快報:次氯酸有效溫度范圍?
- 怎樣進(jìn)行合同糾紛處理_世界速訊
- 倍輕松:4月21日融券賣出3999股,融資融券余額4885.78萬元 世界播報
- 滿紙荒唐言,一把辛酸淚。
- 2023中國網(wǎng)絡(luò)媒體論壇“技術(shù)賦能·拓展融合發(fā)展新空間”平行論壇在南京舉行
- 韓國擬將日本列入出口白名單,日解除對韓出口管制強化措施 世界最新
- 要聞:3月轎車銷量排名 前三全是中國品牌 軒逸排第五
- 第一惡漢場外瘋:出軌變性人 家暴+不給女兒撫養(yǎng)費
- 天天看點:大西洋帝國第一季劇情詳解(大西洋帝國第三季每集劇情介紹)
- 海鮮來“趕集” 商戶忙囤貨……寧波這里的夜市好鬧猛
- 搶抓機(jī)遇 乘勢而上 加快推動山東民營經(jīng)濟(jì)高質(zhì)量發(fā)展【強信心 穩(wěn)經(jīng)濟(jì) 促發(fā)展】
- 全球觀點:吃小龍蝦喝什么飲料最好