首頁 > 行業(yè)資訊

大模型+圖文識別:遠(yuǎn)光軟件打造數(shù)據(jù)價值化神器

來源:中國能源網(wǎng)
時間:2024-09-10 17:00:16
熱度:

在數(shù)字經(jīng)濟(jì)浪潮中,數(shù)據(jù)就像“工業(yè)血液”的石油一樣,其記錄、存儲、分析和應(yīng)用的范圍及規(guī)模前所未有,成為企業(yè)生存發(fā)展的核心驅(qū)動力。作為“五大生產(chǎn)要素”之一,數(shù)據(jù)不僅是推動經(jīng)濟(jì)增長的新引擎,更是促進(jìn)

在數(shù)字經(jīng)濟(jì)浪潮中,數(shù)據(jù)就像“工業(yè)血液”的石油一樣,其記錄、存儲、分析和應(yīng)用的范圍及規(guī)模前所未有,成為企業(yè)生存發(fā)展的核心驅(qū)動力。作為“五大生產(chǎn)要素”之一,數(shù)據(jù)不僅是推動經(jīng)濟(jì)增長的新引擎,更是促進(jìn)企業(yè)提升競爭力的關(guān)鍵資源。然而隨著企業(yè)數(shù)據(jù)量的爆發(fā)式增長,尤其是非結(jié)構(gòu)化數(shù)據(jù)的激增,如何高效訪問、精準(zhǔn)查詢、智能管理這些數(shù)據(jù),成為釋放數(shù)據(jù)價值、加速數(shù)據(jù)要素化、市場化進(jìn)程的重大挑戰(zhàn)。

遠(yuǎn)光軟件憑借其在光學(xué)字符識別(OCR)與深度學(xué)習(xí)算法領(lǐng)域的深厚積累,自主研發(fā)了融合NLP和大模型技術(shù)的圖文識別智能底座。這一智能底座具有自學(xué)習(xí)、精準(zhǔn)識別、智能數(shù)據(jù)提取的能力,能以標(biāo)準(zhǔn)類及定制類服務(wù)全方位滿足各類業(yè)務(wù)場景下的文件處理、分類與信息提取等需求,顯著提升業(yè)務(wù)處理的自動化、智能化水平。

遠(yuǎn)光軟件在長期服務(wù)央國企的過程中,沉淀了豐富的票據(jù)、卡證、表格等識別模型,如數(shù)電票、增值稅發(fā)票、定額發(fā)票、機(jī)打發(fā)票、財政票據(jù)、營業(yè)執(zhí)照、完稅證明等超過36種。這些識別模型支持多種文件格式(JPG、PNG、PDF、OFD等)的識別、分類、關(guān)鍵字抽取等場景。可在業(yè)務(wù)現(xiàn)場通過公有云、私有云、一體機(jī)、邊緣設(shè)備等快速部署,開箱即用,快速滿足財務(wù)、營銷、物資、設(shè)備、運行等多個領(lǐng)域業(yè)務(wù)場景對通用票證結(jié)構(gòu)化數(shù)據(jù)提取需求。

定制場景:內(nèi)置自研識別模型,識別更高效

遠(yuǎn)光圖文識別智能底座集數(shù)據(jù)管理、流程化標(biāo)注、自動模型訓(xùn)練、模型評估、應(yīng)用發(fā)布為一體,內(nèi)置自主研發(fā)的表格、圖像等識別模型,融入先進(jìn)的模板學(xué)習(xí)和文本分析提取技術(shù),支持版式文件類、文檔流類、界面截圖類文件的分析和識別,提供非固定版式票據(jù)信息提取、表格信息識別檢索、附件快速分類分揀、附件材料完整性檢查、文檔信息定位抽取、文檔內(nèi)容基礎(chǔ)推理計算、簽字蓋章快速檢測定位等能力,打造從附件分類、材料完整性檢查到文檔內(nèi)容推理計算的一站式解決方案。同時,通過服務(wù)接口方式,輕松賦能其他應(yīng)用,加速業(yè)務(wù)創(chuàng)新。

大模型加持:泛化及擴(kuò)展能力更強(qiáng)勁

區(qū)別于傳統(tǒng)OCR的“硬編碼”方式,遠(yuǎn)光圖文識別智能底座創(chuàng)新性地融入大語言模型?;诙嗄瓿恋淼脑獢?shù)據(jù)集對大語言模型進(jìn)行微調(diào),增強(qiáng)大語言模型對單據(jù)、卡證、表單等業(yè)務(wù)理解和推理能力,并通過合理設(shè)計提示詞工程優(yōu)化識別提取結(jié)果,實現(xiàn)信息提取的高效與精準(zhǔn),從而有效克服傳統(tǒng)OCR泛化能力差、實現(xiàn)成本高的問題,提升系統(tǒng)的靈活性與擴(kuò)展性。

延伸場景:軟硬一體,信息采集更智能

遠(yuǎn)光軟件圖文識別智能底座將訓(xùn)練達(dá)標(biāo)后的識別模型以服務(wù)包的方式封裝于遠(yuǎn)光靈識設(shè)備,通過即插即用模式為業(yè)務(wù)前端智能設(shè)備提供通用票據(jù)、定制表單、合同、卡證等電子文件的結(jié)構(gòu)化信息提取,實現(xiàn)信息智能化采集,支撐業(yè)務(wù)處理和決策,充分發(fā)揮數(shù)據(jù)價值。