应用于专业领域机密文件的神经机器翻译引擎 | 项目资料库 | Logistics and Supply Chain MultiTech R&D Centre


项目简介	许多商业和法律背景下的文件翻译都要求保密和准确。虽然神经机器翻译有了突破性进展，但是如果翻译的文件不想被其他方看到话，公共翻译服务如谷歌翻译和微软翻译仍然无法被使用。此外，大多数公共翻译服务的目标是一般文件，达不到商业和法律目的所要求的准确性。在这个项目中，我们提出开发一个可由组织独立拥有的神经机器翻译引擎，可以保持要翻译的文件完全保密。该引擎还针对专业领域的翻译问题，旨在提高翻译的准确性。我们的研发工作包括：（1）构建机器学习开发环境，包括GPU场和存储系统，为机器学习开发周期提供服务和工具; （2）开发自动将数据（文本）分类到不同域的工具，以丰富培训数据的上下文; （3）开发在并行文本语料库中提取和配对句子的工具，以提高培训效果;（4）扩展Transformer架构，利用域自适应技术处理专业领域的翻译; （5）基于扩展的 Transformer架构构建翻译引擎，改进专业领域翻译。

项目简介

许多商业和法律背景下的文件翻译都要求保密和准确。虽然神经机器翻译有了突破性进展，但是如果翻译的文件不想被其他方看到话，公共翻译服务如谷歌翻译和微软翻译仍然无法被使用。此外，大多数公共翻译服务的目标是一般文件，达不到商业和法律目的所要求的准确性。在这个项目中，我们提出开发一个可由组织独立拥有的神经机器翻译引擎，可以保持要翻译的文件完全保密。该引擎还针对专业领域的翻译问题，旨在提高翻译的准确性。我们的研发工作包括：（1）构建机器学习开发环境，包括GPU场和存储系统，为机器学习开发周期提供服务和工具; （2）开发自动将数据（文本）分类到不同域的工具，以丰富培训数据的上下文; （3）开发在并行文本语料库中提取和配对句子的工具，以提高培训效果;（4）扩展Transformer架构，利用域自适应技术处理专业领域的翻译; （5）基于扩展的 Transformer架构构建翻译引擎，改进专业领域翻译。


项目编号	ITP/047/19LP
研发单位	LSCM 研发中心
项目统筹员	岑松德博士
资助金额	港币一仟六百四十万
项目週期	2020年01月02日至2021年12月31日

项目编号

ITP/047/19LP

研发单位

LSCM 研发中心

项目统筹员

岑松德博士

资助金额

港币一仟六百四十万

项目週期

2020年01月02日至2021年12月31日