innerpage Project Funding
項目及資助計劃
項目資料庫
應用於專業領域機密文件的神經機器翻譯引擎

打印

項目簡介

許多商業和法律背景下的文件翻譯都要求保密和準確。雖然神經機器翻譯有了突破性進展,但是如果翻譯的文件不想被其他方看到話,公共翻譯服務如谷歌翻譯和微軟翻譯仍然無法被使用。 此外,大多數公共翻譯服務的目標是一般文件,達不到商業和法律目的所要求的準確性。在這個項目中,我們提出開發一個可由組織獨立擁有的神經機器翻譯引擎,可以保持要翻譯的文件完全保密。該引擎還針對專業領域的翻譯問題,旨在提高翻譯的準確性。 我們的研發工作包括:(1)構建機器學習開發環境,包括GPU場和存儲系統,為機器學習開發週期提供服務和工具; (2)開發自動將數據(文本)分類到不同域的工具,以豐富培訓數據的上下文; (3)開發在並行文本語料庫中提取和配對句子的工具,以提高培訓效果;(4)擴展Transformer架構,利用域自適應技術處理專業領域的翻譯; (5)基於擴展的 Transformer架構構建翻譯引擎,改進專業領域翻譯。

更多資訊

項目編號 ITP/047/19LP
研發單位 LSCM研發中心
項目統籌員 岑松德博士
資助金額 港幣一仟六百四十萬
項目週期 2020年01月02日至2021年12月31日