许多商业和法律背景下的文件翻译都要求保密和准确。虽然神经机器翻译有了突破性进展,但是如果翻译的文件不想被其他方看到话,公共翻译服务如谷歌翻译和微软翻译仍然无法被使用。 此外,大多数公共翻译服务的目标是一般文件,达不到商业和法律目的所要求的准确性。在这个项目中,我们提出开发一个可由组织独立拥有的神经机器翻译引擎,可以保持要翻译的文件完全保密。该引擎还针对专业领域的翻译问题,旨在提高翻译的准确性。 我们的研发工作包括:(1)构建机器学习开发环境,包括GPU场和存储系统,为机器学习开发周期提供服务和工具; (2)开发自动将数据(文本)分类到不同域的工具,以丰富培训数据的上下文; (3)开发在并行文本语料库中提取和配对句子的工具,以提高培训效果;(4)扩展Transformer架构,利用域自适应技术处理专业领域的翻译; (5)基于扩展的 Transformer架构构建翻译引擎,改进专业领域翻译。