上海順源印務(wù)有限公司是上海印刷廠(chǎng)、印刷公司行業(yè)知名企業(yè),專(zhuān)注于宣傳冊(cè)印刷丨畫(huà)冊(cè)印刷丨彩色印刷丨單頁(yè)印刷丨樣本印刷等印刷業(yè)務(wù),為客戶(hù)提供設(shè)計(jì)印刷一條龍服務(wù)!
時(shí)間:2016-12-05 來(lái)源:新華網(wǎng)
我國(guó)傳統(tǒng)蒙古文印刷體文字識(shí)別軟件(OCR)研究取得重大進(jìn)展。據(jù)其研發(fā)者烏日力嘎博士向新華網(wǎng)內(nèi)蒙古頻道獨(dú)家披露,目前OCR軟件對(duì)蒙古文白體的識(shí)別率已達(dá)到99%以上,對(duì)鉛印版的識(shí)別率也達(dá)到95%以上。
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們共享信息的一個(gè)大平臺(tái)。“在信息共享的大平臺(tái)之中,蒙古文信息的傳播因?yàn)閿?shù)字化處理的識(shí)別限制,變得極為繁瑣和無(wú)奈?!碑厴I(yè)于內(nèi)蒙古大學(xué)的烏日力嘎博士直言不諱。
“傳統(tǒng)蒙古文有大量的圖書(shū)、報(bào)刊,但其中很多都沒(méi)有實(shí)現(xiàn)數(shù)字化,”烏日力嘎博士介紹說(shuō),高效數(shù)字化需要OCR(Optical Character Recognition)軟件自動(dòng)識(shí)別掃描或拍照的圖片,將圖片中的文字轉(zhuǎn)換成文本。
據(jù)了解,本世紀(jì)初伊始,就陸續(xù)有科研機(jī)構(gòu)、相關(guān)公司嘗試開(kāi)發(fā)傳統(tǒng)蒙古文自動(dòng)識(shí)別軟件,但因?yàn)樽R(shí)別準(zhǔn)確率不高、操作繁瑣等諸多原因,使用者至今未能等到可廣泛使用和可信賴(lài)的產(chǎn)品。烏日力嘎博士卻憑借自己的執(zhí)著追求和一己之力,用不到兩年時(shí)間完成了這一傳統(tǒng)蒙古文印刷體OCR。
“讀博士期間研究機(jī)器翻譯,機(jī)器翻譯需要大量的語(yǔ)言資源,但是蒙古文的資源特別少,我們?cè)诮⒄Z(yǔ)言數(shù)據(jù)庫(kù)時(shí)需要大量的人力、時(shí)間和經(jīng)費(fèi),”烏日力嘎博士說(shuō):“從那個(gè)時(shí)候起,我就萌發(fā)一個(gè)念頭,自己是否也試著研發(fā)一款高精度的蒙古文自動(dòng)識(shí)別系統(tǒng)?!?/span>
2015年夏天博士畢業(yè)之后,烏日力嘎開(kāi)始全身心地投入到傳統(tǒng)蒙古文OCR軟件的開(kāi)發(fā)之中,她參考了國(guó)內(nèi)外大量學(xué)術(shù)文獻(xiàn),并使用深度學(xué)習(xí)和語(yǔ)言模型等高新技術(shù),在短時(shí)間內(nèi)成功研發(fā)出了蒙古文高精度自動(dòng)識(shí)別軟件。據(jù)介紹,這一軟件的優(yōu)勢(shì)是既能識(shí)別掃描圖片,又能識(shí)別拍照的圖片,并且將打字和校對(duì)的功能融為一體。
“上世紀(jì)90年代以前的書(shū)本都是鉛印版本,但目前還沒(méi)有其他可以把鉛印版轉(zhuǎn)換成文本的軟件,而烏日力嘎博士研究的軟件優(yōu)勢(shì)是能識(shí)別鉛印版,并且有承前啟后的作用,”內(nèi)蒙古大學(xué)教授那順烏日?qǐng)D認(rèn)為,烏日力嘎研究的軟件理論上有創(chuàng)新,這一軟件結(jié)合語(yǔ)言規(guī)則和統(tǒng)計(jì)方法,再利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等新技術(shù)來(lái)完成的。因?yàn)橐郧暗腛CR軟件是基于規(guī)則或者是基于統(tǒng)計(jì)的方法來(lái)實(shí)現(xiàn)的,他們最終效果都不理想。
烏日力嘎最后表示,希望她所開(kāi)發(fā)的這款軟件能為廣大的蒙古語(yǔ)言文字工作者帶來(lái)更多的工作上的便利。
電話(huà):021-64696976 021-64684606 021-64697746
傳真:021-64683812
郵箱:shunyuanprint@126.com
網(wǎng)址:http://www.ycliduzxyy.com/
全國(guó)客戶(hù)熱線(xiàn): 400-188-1388