近年來,金慧軟件憑借自身的品牌影響力,積極保持著與多所知名高校的良好合作關(guān)系,旨在借助雙方資源,本著互相協(xié)作、各施所長、雙向支持的精神,為雙方搭建創(chuàng)新實(shí)踐的平臺(tái),實(shí)現(xiàn)優(yōu)勢互補(bǔ)、共同成長。
最近,上海交大聯(lián)合金慧軟件合作完成了機(jī)械與動(dòng)力工程學(xué)院畢業(yè)生團(tuán)隊(duì)創(chuàng)新課題項(xiàng)目,于今年6月底成果項(xiàng)目在云端實(shí)現(xiàn)成功展示。
此項(xiàng)目主要圍繞《關(guān)于機(jī)器學(xué)習(xí)的電子文件結(jié)構(gòu)化數(shù)據(jù)提取及問題檢測》課題進(jìn)行項(xiàng)目設(shè)計(jì)。由于在當(dāng)前大數(shù)據(jù)背景下,許多傳統(tǒng)工程企業(yè)面臨著工程文件的管理問題,因此此次項(xiàng)目主要開發(fā)一套程序,用于對合同文件的數(shù)據(jù)提取和工程圖紙的錯(cuò)誤檢測,從而準(zhǔn)確地識(shí)別和提取PDF電子合同文件中的信息,監(jiān)測工程圖紙中亂碼、錯(cuò)位、空缺等常見錯(cuò)誤信息,優(yōu)化算法,提高識(shí)別率等等。
此項(xiàng)目合同文件的處理分為PDF向TXT和TXT向JSON的兩步轉(zhuǎn)化。第一步利用OCR技術(shù)提取合同文檔掃描件中的文字內(nèi)容,再進(jìn)行消除非自然換行等處理,得到規(guī)范化的純文本;第二部利用詞嵌入技術(shù)和機(jī)器學(xué)習(xí)將文本以句子為單位轉(zhuǎn)化成向量并進(jìn)行分類、標(biāo)記、輸出。
通過6個(gè)月項(xiàng)目組齊心的努力,最終獲得豐碩的項(xiàng)目成果:
? 此款程序滿足了 OCR單頁轉(zhuǎn)化時(shí)長控制1.5s內(nèi),實(shí)現(xiàn)圖片內(nèi)容向文字內(nèi)容的準(zhǔn)確轉(zhuǎn)化,合同文件信息提取準(zhǔn)確率達(dá)到95%以上。
? 此款程序?qū)崿F(xiàn)對工程圖紙各個(gè)基本錯(cuò)誤信息的監(jiān)測,并且在查全率和準(zhǔn)確率上面均達(dá)到了目標(biāo)要求。
……