蜜臀av无码一二三_欧美大屁股xxxx_AV中文无码乱人伦在线观看_国产高清毛卡片_色欲日日拍夜夜嗷嗷叫手机版

AI研究甲骨文:五年的工作一天就做完了

2023-04-22 16:12:30來源:果殼

4月20日,是聯(lián)合國定下的“中文日”。每年的這一天,聯(lián)合國都會舉辦各種中文推廣活動,讓世界各地的人都能體驗中文的魅力。

而中文的故事,還要從甲骨文說起。

甲骨文是現(xiàn)存最早的文字,最早的甲骨文可以追溯到春秋時代(約公元前1200年),它的發(fā)現(xiàn)將中國信史向上推進(jìn)了約1000年,可以解讀出大量珍貴信息。


(資料圖片)

然而,甲骨文研究是一項極度消耗人力的工作。

全世界目前已發(fā)現(xiàn)的殷商甲骨文不到5000字,真正被釋讀出來的字?jǐn)?shù)僅在1500-2000字之間。在“先秦史研究室”網(wǎng)站上,學(xué)者們會公布最新的甲骨文較重、綴合結(jié)果,依靠人力,一年只能更新幾十組。甲骨文的整體研究工作往往被基礎(chǔ)資料整理所困,推進(jìn)困難。

首都師范大學(xué)甲骨文研究中心的莫伯峰教授團(tuán)隊,聯(lián)合微軟亞洲研究院武智融研究員,希望用人工智能找到甲骨文難題的另一個解法。

“較重”難題

1899年,金石學(xué)家王懿榮用龍骨熬藥時,發(fā)現(xiàn)龍骨上刻著一些“符文”。因為對古文字頗有研究,他辨認(rèn)這不是單純的劃痕,而是一種遠(yuǎn)古時期的文字,隨即把它們收藏了起來。在殷墟甲骨被科學(xué)挖掘以前,經(jīng)歷了多年的私人挖掘、倒賣,因此流散到了很多地方。

從甲骨文首次被發(fā)現(xiàn)至今,出土的甲骨實物約有15萬片。這些甲骨在不同的人手中流轉(zhuǎn),留下了多張拓本圖像,這些對同一片甲骨的不同拓本被稱為“重片”,是解讀甲骨文的重要材料。

不同時期的拓片,外觀差距很大|微軟亞研院

甲骨重片數(shù)量繁多,質(zhì)量參差不齊,整理和校對重片成了一項重要的基礎(chǔ)工作,被稱作“校重”。多年來,校重依靠學(xué)者靠肉眼和經(jīng)驗一一對照,費時費力。正如《甲骨文合集補編》前言中所述:“這種對重、選片的工作,其繁瑣、費工是局外人難以想象的?!?/p>

到了今天,大多數(shù)拓本圖像已經(jīng)數(shù)字化,一個新想法應(yīng)運而生:人工智能是不是可以為校重工作加速?

難題的另一種解法

微軟亞洲研究院的武智融一直在尋找一個好課題。畢業(yè)后,他專注于研究視覺方面的自監(jiān)督模型,了解到甲骨文研究的困境后,他感到豁然開朗:“甲骨文既是文字,又是圖像,比一般的多模態(tài)研究更有趣?!?/p>

一開始,他想研究甲骨文釋讀,但之后武智融發(fā)現(xiàn),想要釋讀甲骨文,就得先把較重工作做好。

在武智融看來,較重工作天然就適合機(jī)器來做。判斷一張拓片是不是重復(fù)的,理論上需要把它和現(xiàn)存的重片都比對一遍。隨著時間流逝,甲骨不僅會模糊,還會破裂成小塊,一些不完整的拓片讓較重工作更難。

B(局部)和 A(整片)是重片,C(局部)和A(整片)是重片,不能斷定B和C就一定是重片。這種情況下,基于全局特征來計算兩張拓片相似度的辦法就不奏效了。

于是武智融決定從局部下手:如果兩張拓片的多個“點與點”之間能夠精準(zhǔn)地對應(yīng)上,便能斷定它們很大程度上為重片。

盡管字跡模糊,但每個字的關(guān)鍵點仍然可以對應(yīng)|微軟亞研院

武智融訓(xùn)練了一套自監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)算法——甲骨文校重助手 Diviner。

自監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)的區(qū)別,在于模型在訓(xùn)練時是否需要人工標(biāo)注的標(biāo)簽信息。所謂監(jiān)督學(xué)習(xí),是利用大量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型,使模型基于標(biāo)記的輸入和輸出數(shù)據(jù)進(jìn)行推理,而自監(jiān)督學(xué)習(xí)是讓模型自己來尋找規(guī)律進(jìn)行分類。

武智融先嘗試用監(jiān)督學(xué)習(xí)的方式訓(xùn)練,但發(fā)現(xiàn)這種方式并不適用甲骨文校重。首先,重片的形狀差異大,模型很快就被搞迷糊了,其次,監(jiān)督學(xué)習(xí)需要人工標(biāo)注大量的數(shù)據(jù),而甲骨文的數(shù)據(jù)沒有那么多。

于是武智融決定把這個工作交給模型自己去解決:人類更擅長給出基于整體的、甚至主觀“微妙”的判斷,如果是循著規(guī)律的密集排查,機(jī)器的效率遠(yuǎn)在人之上。

因為歲月的侵蝕和多次流轉(zhuǎn),甲骨的不同拓本可能會有粗細(xì)之差,為了讓模型學(xué)會自己尋找重片,武智融先人工模擬出一些甲骨文可能發(fā)生的變化,例如變粗、變細(xì)、變模糊,為其加隨機(jī)噪音和旋轉(zhuǎn)。通過這種方式讓模型明白,不管是粗是細(xì),只要關(guān)鍵點位能一一對應(yīng),就是同一個字,這樣一來,模型的識別能力就不受拓片的清晰度、對比度、噪音、旋轉(zhuǎn)等外界因素的影響。

變粗變細(xì)變模糊,都是同一個字,對人類來說很簡單的道理,機(jī)器卻不一定學(xué)得會|微軟亞研院

當(dāng)然,基于局部匹配的方法能行得通還有很重要的一個原因:來自于同一塊甲骨的重片,文字大小是不會變動的。武智融將每張拓片分割成能承載足夠信息,又盡可能小的方格,哪怕重片是破碎的,也可以對應(yīng)得上。

新模型的比對效率甚至高于他的預(yù)期。

將18萬幅數(shù)字化拓本輸入Diviner之后,模型發(fā)現(xiàn)了大量甲骨重片,不僅復(fù)現(xiàn)了專家過去所發(fā)現(xiàn)的數(shù)萬組重片,而且經(jīng)過初步整理,已發(fā)現(xiàn)了三百多組未被前人發(fā)現(xiàn)的校重新成果

給人類專家做助手

Diviner成果已經(jīng)在對專家工作產(chǎn)生實質(zhì)性的幫助。

Diviner新發(fā)現(xiàn)的重片,補齊了一些沒有拓全的拓本,一些時間久遠(yuǎn)字跡模糊的拓本也被清晰的重片替代。過去的很多疑惑都被解決了,專家們?nèi)绔@至寶。

Diviner還可以直接幫助“綴合”。綴合的目的是將一些支離破碎的甲骨,拼接成一個更完整的甲骨,復(fù)原整片甲骨的信息,有助于完整性地解讀史料。

人工對Diviner的結(jié)果再次驗證,從反饋來看,Diviner的“查重”準(zhǔn)確率能接近97%。這將鼓勵更多機(jī)構(gòu)甚至個人將其私藏的甲骨文拓本拿出比對,供學(xué)術(shù)界討論研究。

很多團(tuán)隊在嘗試用人工智能技術(shù)幫助甲骨文的研究、傳播,他們有人做甲骨文翻譯,也有人做“認(rèn)識甲骨文”小程序,但還是那個老生常談的問題,人機(jī)協(xié)作中,機(jī)器如何輔助好人類專家。

武智融舉了個例子。

甲骨文最初的目的是記錄占卜。占卜者將龜甲炙烤后,通過出現(xiàn)的裂紋的長短、粗細(xì)、隱現(xiàn)來判斷吉兇、成敗,并將占卜的內(nèi)容和結(jié)果刻在卜兆的近處,即為卜辭。

武智融和莫伯峰教授交流時才知道,卜兆在拓片上是模糊不清的,判斷卜兆信息的位置高度依賴專家經(jīng)驗。

人工智能能幫人類專家做數(shù)據(jù)、資料的恢復(fù)工作,但只有專家學(xué)者才知道“一是一橫,二是兩橫,三是三橫,四是四橫,一橫之差,看似相似度非常高,闡釋出來的意義卻全然不同”。

人工智能技術(shù)如何才能對甲骨文研究產(chǎn)生直接且具體的推動作用?隨著Diviner項目的進(jìn)程,他開始更好地理解這個議題。

Diviner還能有其他延伸用途嗎?

“有一次,同事開玩笑說,也許未來這套算法可能用于指紋識別,對刑偵有幫助也不錯?!蔽渲侨谛α诵φf。

注:文章中用到的拓本來自四本甲骨著錄書。①《甲骨文合集》②《甲骨文合集補編》③《上海博物館所藏甲骨文字》④《殷虛書契續(xù)編》

作者:沈知涵

編輯:翻翻

封面圖來源:東方ic

關(guān)鍵詞:

上一篇:
下一篇:

相關(guān)新聞