欧美性大战久久久久XXX,国产精品亚洲专区无码导航

AI研究甲骨文：五年的工作一天就做完了

2023-04-22 16:12:30來源：果殼

4月20日，是聯(lián)合國定下的“中文日”。每年的這一天，聯(lián)合國都會舉辦各種中文推廣活動，讓世界各地的人都能體驗中文的魅力。

而中文的故事，還要從甲骨文說起。

甲骨文是現(xiàn)存最早的文字，最早的甲骨文可以追溯到春秋時代（約公元前1200年），它的發(fā)現(xiàn)將中國信史向上推進(jìn)了約1000年，可以解讀出大量珍貴信息。

(資料圖片)

然而，甲骨文研究是一項極度消耗人力的工作。

全世界目前已發(fā)現(xiàn)的殷商甲骨文不到5000字，真正被釋讀出來的字?jǐn)?shù)僅在1500-2000字之間。在“先秦史研究室”網(wǎng)站上，學(xué)者們會公布最新的甲骨文較重、綴合結(jié)果，依靠人力，一年只能更新幾十組。甲骨文的整體研究工作往往被基礎(chǔ)資料整理所困，推進(jìn)困難。

首都師范大學(xué)甲骨文研究中心的莫伯峰教授團(tuán)隊，聯(lián)合微軟亞洲研究院武智融研究員，希望用人工智能找到甲骨文難題的另一個解法。

“較重”難題

1899年，金石學(xué)家王懿榮用龍骨熬藥時，發(fā)現(xiàn)龍骨上刻著一些“符文”。因為對古文字頗有研究，他辨認(rèn)這不是單純的劃痕，而是一種遠(yuǎn)古時期的文字，隨即把它們收藏了起來。在殷墟甲骨被科學(xué)挖掘以前，經(jīng)歷了多年的私人挖掘、倒賣，因此流散到了很多地方。

從甲骨文首次被發(fā)現(xiàn)至今，出土的甲骨實物約有15萬片。這些甲骨在不同的人手中流轉(zhuǎn)，留下了多張拓本圖像，這些對同一片甲骨的不同拓本被稱為“重片”，是解讀甲骨文的重要材料。

不同時期的拓片，外觀差距很大｜微軟亞研院

甲骨重片數(shù)量繁多，質(zhì)量參差不齊，整理和校對重片成了一項重要的基礎(chǔ)工作，被稱作“校重”。多年來，校重依靠學(xué)者靠肉眼和經(jīng)驗一一對照，費時費力。正如《甲骨文合集補編》前言中所述：“這種對重、選片的工作，其繁瑣、費工是局外人難以想象的?！?/p>

到了今天，大多數(shù)拓本圖像已經(jīng)數(shù)字化，一個新想法應(yīng)運而生：人工智能是不是可以為校重工作加速？

難題的另一種解法

微軟亞洲研究院的武智融一直在尋找一個好課題。畢業(yè)后，他專注于研究視覺方面的自監(jiān)督模型，了解到甲骨文研究的困境后，他感到豁然開朗：“甲骨文既是文字，又是圖像，比一般的多模態(tài)研究更有趣?！?/p>

一開始，他想研究甲骨文釋讀，但之后武智融發(fā)現(xiàn)，想要釋讀甲骨文，就得先把較重工作做好。

在武智融看來，較重工作天然就適合機(jī)器來做。判斷一張拓片是不是重復(fù)的，理論上需要把它和現(xiàn)存的重片都比對一遍。隨著時間流逝，甲骨不僅會模糊，還會破裂成小塊，一些不完整的拓片讓較重工作更難。

B（局部）和 A（整片）是重片，C（局部）和A（整片）是重片，不能斷定B和C就一定是重片。這種情況下，基于全局特征來計算兩張拓片相似度的辦法就不奏效了。

于是武智融決定從局部下手：如果兩張拓片的多個“點與點”之間能夠精準(zhǔn)地對應(yīng)上，便能斷定它們很大程度上為重片。

盡管字跡模糊，但每個字的關(guān)鍵點仍然可以對應(yīng)｜微軟亞研院

武智融訓(xùn)練了一套自監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)算法——甲骨文校重助手 Diviner。

自監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)的區(qū)別，在于模型在訓(xùn)練時是否需要人工標(biāo)注的標(biāo)簽信息。所謂監(jiān)督學(xué)習(xí)，是利用大量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型，使模型基于標(biāo)記的輸入和輸出數(shù)據(jù)進(jìn)行推理，而自監(jiān)督學(xué)習(xí)是讓模型自己來尋找規(guī)律進(jìn)行分類。

武智融先嘗試用監(jiān)督學(xué)習(xí)的方式訓(xùn)練，但發(fā)現(xiàn)這種方式并不適用甲骨文校重。首先，重片的形狀差異大，模型很快就被搞迷糊了，其次，監(jiān)督學(xué)習(xí)需要人工標(biāo)注大量的數(shù)據(jù)，而甲骨文的數(shù)據(jù)沒有那么多。

于是武智融決定把這個工作交給模型自己去解決：人類更擅長給出基于整體的、甚至主觀“微妙”的判斷，如果是循著規(guī)律的密集排查，機(jī)器的效率遠(yuǎn)在人之上。

因為歲月的侵蝕和多次流轉(zhuǎn)，甲骨的不同拓本可能會有粗細(xì)之差，為了讓模型學(xué)會自己尋找重片，武智融先人工模擬出一些甲骨文可能發(fā)生的變化，例如變粗、變細(xì)、變模糊，為其加隨機(jī)噪音和旋轉(zhuǎn)。通過這種方式讓模型明白，不管是粗是細(xì)，只要關(guān)鍵點位能一一對應(yīng)，就是同一個字，這樣一來，模型的識別能力就不受拓片的清晰度、對比度、噪音、旋轉(zhuǎn)等外界因素的影響。

變粗變細(xì)變模糊，都是同一個字，對人類來說很簡單的道理，機(jī)器卻不一定學(xué)得會｜微軟亞研院

當(dāng)然，基于局部匹配的方法能行得通還有很重要的一個原因：來自于同一塊甲骨的重片，文字大小是不會變動的。武智融將每張拓片分割成能承載足夠信息，又盡可能小的方格，哪怕重片是破碎的，也可以對應(yīng)得上。

新模型的比對效率甚至高于他的預(yù)期。

將18萬幅數(shù)字化拓本輸入Diviner之后，模型發(fā)現(xiàn)了大量甲骨重片，不僅復(fù)現(xiàn)了專家過去所發(fā)現(xiàn)的數(shù)萬組重片，而且經(jīng)過初步整理，已發(fā)現(xiàn)了三百多組未被前人發(fā)現(xiàn)的校重新成果。

給人類專家做助手

Diviner成果已經(jīng)在對專家工作產(chǎn)生實質(zhì)性的幫助。

Diviner新發(fā)現(xiàn)的重片，補齊了一些沒有拓全的拓本，一些時間久遠(yuǎn)字跡模糊的拓本也被清晰的重片替代。過去的很多疑惑都被解決了，專家們?nèi)绔@至寶。

Diviner還可以直接幫助“綴合”。綴合的目的是將一些支離破碎的甲骨，拼接成一個更完整的甲骨，復(fù)原整片甲骨的信息，有助于完整性地解讀史料。

人工對Diviner的結(jié)果再次驗證，從反饋來看，Diviner的“查重”準(zhǔn)確率能接近97%。這將鼓勵更多機(jī)構(gòu)甚至個人將其私藏的甲骨文拓本拿出比對，供學(xué)術(shù)界討論研究。

很多團(tuán)隊在嘗試用人工智能技術(shù)幫助甲骨文的研究、傳播，他們有人做甲骨文翻譯，也有人做“認(rèn)識甲骨文”小程序，但還是那個老生常談的問題，人機(jī)協(xié)作中，機(jī)器如何輔助好人類專家。

武智融舉了個例子。

甲骨文最初的目的是記錄占卜。占卜者將龜甲炙烤后，通過出現(xiàn)的裂紋的長短、粗細(xì)、隱現(xiàn)來判斷吉兇、成敗，并將占卜的內(nèi)容和結(jié)果刻在卜兆的近處，即為卜辭。

武智融和莫伯峰教授交流時才知道，卜兆在拓片上是模糊不清的，判斷卜兆信息的位置高度依賴專家經(jīng)驗。

人工智能能幫人類專家做數(shù)據(jù)、資料的恢復(fù)工作，但只有專家學(xué)者才知道“一是一橫，二是兩橫，三是三橫，四是四橫，一橫之差，看似相似度非常高，闡釋出來的意義卻全然不同”。

人工智能技術(shù)如何才能對甲骨文研究產(chǎn)生直接且具體的推動作用？隨著Diviner項目的進(jìn)程，他開始更好地理解這個議題。

Diviner還能有其他延伸用途嗎？

“有一次，同事開玩笑說，也許未來這套算法可能用于指紋識別，對刑偵有幫助也不錯?！蔽渲侨谛α诵φf。

注：文章中用到的拓本來自四本甲骨著錄書。①《甲骨文合集》②《甲骨文合集補編》③《上海博物館所藏甲骨文字》④《殷虛書契續(xù)編》

作者：沈知涵

編輯：翻翻

封面圖來源：東方ic

關(guān)鍵詞：

蜜臀av无码一二三_欧美大屁股xxxx_AV中文无码乱人伦在线观看_国产高清毛卡片_色欲日日拍夜夜嗷嗷叫手机版

AI研究甲骨文：五年的工作一天就做完了

相關(guān)新聞

藝術(shù)

以色列兄妹冬奧首秀：非常開心來北京參賽

遇地磁暴，美國“星鏈”損失多達(dá)40顆衛(wèi)星

市場

綠色辦奧，鋪就北京冬奧會底色（為冬奧喝彩）

快訊

AI研究甲骨文：五年的工作一天就做完了