避免機器翻譯中的AI偏見

?
人工智能正在改變我們工作方式的未來。盡管全世界的企業將實現AI的希望,但他們也必須進行調整以應對該技術帶來的獨特而復雜的挑戰。
工人使用常規軟件作為提高生產率的工具時,人工智能卻與人類并駕齊驅。盡管我們只是在經歷這種新型工作關系的初期,但到2020年,我們的AI技術已經開始感覺像是工作同事,而不是軟件工具。
隨著我們的前進,很難想象協作團隊將以人類和人工智能為中心使用混合認知模型。
這個新同事有很多好處和技能。對于定制的NMT解決方案,我們已經看到專業語言學家接受高達70%的機器翻譯輸出,而最終用戶則高達97%。但是也有一些新的風險。
人工智能與公司文化
我們每個人都希望在一個熱情,多樣化和包容的環境中工作;我們都知道,這種環境對于公司的成功至關重要。
但是我們如何確保我們的AI同事避免有害偏見?如果僅團隊的一部分使他們的價值觀與公司文化保持一致,我們就不可能實現我們的業務目標。我們必須確保我們的機器翻譯正在朝著更加積極和高效的全球工作環境努力,而不是與之抗衡。您團隊的每個部分都必須滿足最佳標準,甚至您的AI。
機器翻譯必須朝著更加積極和高效的全球工作環境努力,而不是與之相反
如果您的國際同事通過機器翻譯閱讀的文本讀成性別歧視怎么辦?
如果您的消息翻譯成公司的使者后使用不正確的語音音調怎么辦?
我們在此要重點關注的是一家全球公司在應用機器翻譯以促進與其客戶群之間進行國際,多語言溝通或公司員工之間的內部溝通時所遇到的特定挑戰。由于翻譯有偏見,兩者都容易受到干擾。
性別偏見
有關機器翻譯可能存在性別偏見的最新研究(請參見WinoMT挑戰)使用的句子在語言上暗示著傳統陽剛詞(通常是專業)的女性化形式。機器翻譯完成后,他們會分析足夠強大的偏見以克服語言依賴性。
在對所有常用的NMT引擎的31個客戶支持對話部分(即英語到法語)的測試中,有90–95%的翻譯默認為男性
我們發現,在實際的日常翻譯中,性別偏見的另一種形式實際上更為嚴重。缺少內容以正確定義性別的簡短短語,例如“您能幫我嗎?”?機器翻譯后,根據機器翻譯的偏見,此類短語可能會變成女性或男性。
為了對此進行進一步調查,我們在所有常用的NMT引擎上測試了31個客戶支持對話部分(例如,英語到法語),發現90-95%的翻譯默認為男性。
您可以嘗試以幾種方式解決性別偏見。
一種是將文本復制并粘貼到Google Translate Web App中,該應用程序支持某些語言的性別選擇。對于我們的實驗,可悲的是,法語不是這種情況。此外,此選項不適用于商業Google Translate API,因此必須將文本復制并粘貼到不安全的免費Web應用程序中。不理想。
可以使用可用的元數據將上下文注入要翻譯的文本中,然后進行自動后期編輯
另一種選擇是指示操作員構建具有足夠性別內容的長短語,以確保正確的翻譯。但是,您幾乎不能要求員工和用戶執行此操作。
我們在Intento MT Hub中實現了第三個選項。在這里,由于變形和語言復雜性,各種簡單的編輯可能無法正常工作。但是,可以使用可用的元數據將上下文注入要翻譯的文本中,然后進行自動后期編輯。這樣,您可能會要求獲得男性或女性翻譯。它適用于大多數MT引擎,但我們仍在努力使其精度接近100%。
語音偏見
如果您是講英語的母語人士,那么您可能不會花太多時間思考敬稱感—大多數講英語的人士最近500多年都沒有。對于其他人,正式和非正式語言的雙重使用是常態。
對于大多數MT引擎而言,這又帶來了進一步的問題,當涉及到正式/非正式劃分時,這是不一致的。翻譯對話時,這可能會造成災難性的后果。
與性別偏見一樣,語調功能通常會與變形同時使用,從而使任何搜索和替換技術都變得無用
為了調查音調偏差,我們再次從客戶支持對話中測試了細分,這次在所有流行的NMT引擎上使用了210個細分(英語到德語)。在這里,我們觀察到60%至70%的短語中存在嚴重偏向默認音調的情況。
解決音調偏差的一種方法是使用DeepL,它具有本機音調控制功能。它非常準確,導致約99.5%的翻譯是非正式的。但是,如果您需要自定義模型和術語,或者其他MT系統更適合您的內容,該怎么辦?
與性別偏見一樣,語調功能通常會與變形同時使用,從而使任何搜索和替換技術都變得毫無用處。我們在工具中添加了一些與MT無關的NLP,從而可以進行音調控制,并為此類情況提供了更多的MT引擎選擇。
偏向翻譯可能會阻礙您為公司建立積極而高效的工作環境的努力
隨著企業的全球化程度越來越高,機器翻譯正成為公司文化中無處不在的一部分。偏向翻譯可能會阻礙為您的公司建立積極而高效的工作環境的努力。為了取得成功,您的AI同伴需要積極應對偏見,并且我們需要使AI保持與任何人類同事相同的標準。
Covid大流行激增了新興的數字趨勢。我們將精力集中在解決偏差問題上,因為隨著越來越多的業務流程進入在線狀態,充分,個性化和包容性機器翻譯的重要性從未如此高。