文檔圖片仍然給翻譯項目經理帶來麻煩,但OCR正在改善

語言行業的項目經理都非常熟悉這種情況:客戶希望以不可編輯的文件格式翻譯文檔。但是,在進行任何操作之前,PM必須先對文檔進行一輪光學字符識別(OCR),以便確定字數。如果文檔是手寫的或包含未知語言的文本(或兩者-真讓人頭疼),則任務可能會變得更加復雜。
許多公司已經找到解決OCR問題的方法。對于小型企業,Adobe?Acrobat可能會完成工作。但是隨著公司的成長,它可能會探索其他選擇,例如OpenText的Capture引擎系列。ABBYY?FineReader Engine還提供了一套識別產品,其中包括被宣傳為支持200種語言的OCR技術。
Google自2006年以來就一直贊助開源OCR引擎Tesseract的進一步開發,該引擎最初是由惠普在1980年代開發的。在谷歌云平臺還提供了一個教程使用的計費云產品的集合進行OCR。同時,亞馬遜以Textract在保持原始格式的同時從表格和圖表中提取數據的能力而自豪。
理想破壞者
每個OCR領域的新手都將其算法和技術吹捧為OCR挑戰的最終答案。語言服務提供商Tarjama位于阿聯酋迪拜,已建立了基于神經網絡的專有OCR技術。
新加坡的初創公司Staple專門處理布局很重要的文檔,例如發票,稅單和銀行對帳單;用戶可以通過微信,Google云端硬盤和Dropbox輸入100種語言的文檔。
Cullable的創建者兼CTO?(域名ocrsucks.com的所有者)Sid Newby擁抱OCR的不良聲譽。他基于在eDiscovery方面的商業訴訟方面的多年經驗(即,篩選數千頁的文檔以查找任何可能的相關信息),于2015年創立了Cullable。律師可能會在大量無法搜索的文本中錯過大量關鍵證據,這可能會對他們的案件造成災難性的影響。
Newby認為,Cullable系統背后的AI使其優于競爭對手的產品。Newby告訴Slator:“從本質上講,我們處理的每個頁面都會有所改善?!?關于完成和識別文本中的部分單詞,他說:“我們正在努力理解思想。然后,AI通過引入新的數據集來改善該知識庫?!?/span>
自2019年以來向消費者開放,Cullable的客戶主要來自美國,其中一些在英國和南非。紐比說:“過去有數家翻譯公司向我們提供項目?!?“他們向我們發送他們遇到的問題:圖像質量差,圖像歪斜,部分經過修飾的單詞,手寫體?!?/span>
除了Cullable的核心OCR服務之外,機器翻譯(MT)集成到了應用程序中?!罢嬲玫腛CR機器翻譯會唱歌和跳舞,” Newby說?!拔覀兪褂?/span>Google Translate?API是因為它是Google堆棧中的本機?!?當然,具有自己專有的MT引擎的語言服務提供商將改用它。
在地平線上改進了OCR?
展望未來,OCR仍將從研究中受益。2020年9月的一篇論文詳細介紹了阿根廷的兩名研究人員如何從日本漫畫中創建帶注釋圖像的數據集。目標:在像素級別啟用漫畫中的OCR。
作者寫道,現有的帶注釋的像素級數據集通常由真實世界的圖像組成,這些圖像缺少語音氣球。大部分文字通常是英語,很少像漫畫一樣以藝術風格手工繪制。盡管此特定數據集是圍繞漫畫設計的,但其背后的原理仍可應用于其他領域的日語文本的OCR。
2020年7月發表的最新文獻綜述闡明了迄今為止OCR研究的局限性。首先,大多數研究涉及地球上使用最廣泛的語言,部分原因是說話者較少的語言通常無法獲得數據集。系統也可能難以識別由許多不同的人手寫的字符,每個人都有自己獨特的筆跡。
對“野外文字”(即屏幕上的字符和不同設置中的文字)的OCR的興趣持續增長,這最終可能與在流媒體中處理文字的翻譯有關。但這可能取決于潛在的收益。
作者得出結論,研究的商業化需要改進,以幫助建立“低成本,現實的OCR系統,該系統可以將大量寶貴的信息轉化為可搜索/數字數據?!?/span>