攻下号称最难的WMT2019中英翻译任务!百度机器翻译团队登顶

  • 日期:08-26
  • 点击:(643)


8月1日,WMT2019国际机器翻译大赛研讨会在意大利佛罗伦萨举行。在本次比赛中,百度机器翻译团队在汉英翻译任务中获得冠军。

图1手动评估结果

WMT的全称是机器翻译研讨会,被认为是世界顶级机器翻译竞赛之一。汉英翻译任务是过去几年中最具竞争力和最具竞争力的机器翻译任务之一。今年的中英文团队包括来自微软,Bytes,金山,爱丁堡大学,东北大学,日本信息与通信研究所等知名机器翻译团队。在本次大赛中,百度翻译团队凭借其在数据处理,模型架构,数据增强和模型集成方面的创新突破,终于获得了第一名。

本次会议的评审专家高度评价了百度评估系统,“这是一篇非常可靠的系统论文,描述了共享评估中的强大系统”,“所采用的技术是前沿的”。本文介绍了主要技术。

图2百度翻译录入系统架构图

如上图所示,数据处理模块通过数据过滤,噪声消除,数据增强等生成训练数据;对于翻译模型,它从预训练和网络结构上进行了改进,使模型学习更多维度和更深层次的信息。在培训和模型集成阶段,借助百度强大的机器学习平台和庞大的计算资源,从数百种模型中选择不同的模型组合和集成。最后,结合统计特征和深度学习模型的特征,通过重新排序算法从多个翻译候选中选择最佳翻译结果。

接下来,将从数据预处理,翻译模型改进,培训数据增强,模型集成和重新排序等方面介绍百度翻译团队的入门系统。

一,数据处理

神经网络转换模型对训练数据特别敏感,不仅需要大数据量级,还需要高数据质量。因此,数据处理对提高翻译质量至关重要。对于组委会提供的双语数据,数据清理由fast_align执行。 Fast_align可以测量两个句子相互转换的概率,从而根据翻译概率去除低质量数据。根据翻译自动评估指标BLEU,清理数据训练模型增加了1.1个百分点。

组织者提供了比双语数据更多的单语数据。反向翻译技术用于通过使用英语单语数据来提高模型的翻译质量。具体方法是先用汉英双语数据训练英汉翻译系统,用英汉模型将英语句子翻译成相应的汉语句子,并将模型生成的汉语句子和英语句子合二为一。 - 状态对,汉英双语句对作为汉英模型的训练数据。该技术可将翻译质量(BLEU)提高0.8个百分点。

二,翻译模式

目前,主要的神经网络转换模型是变压器,根据模型参数的大小可分为基础变压器和大变压器。其中,大变压器具有更多的参数和更好的翻译效果。本次比赛以Transformer模型为基础,创新性地提出了三种改进模式,大大提高了翻译质量,成为比赛的重点之一。改进的模型包括:预训练的变换器:训练大型单语语料库中的语言模型,并将其用作翻译模型的编码器。 更深的变压器:加深了编码器的各层并提取更多的维度特征。 Bigger Transformer:扩大了前向网络的隐藏节点。 图3改进的翻译模型预先培训的变压器最近的研究表明,在大规模语料库上训练的语言模型显着改善了他们的下游任务。我们使用自编码训练方法训练了一个关于中文数据的24级变换器语言模型,即将句子中的单词随机改变为掩码标签,然后通过24级变换器编码,最后预测掩蔽中的实际单词。位置。将预训练语言模型用作翻译模型的编码器,并对翻译模型进一步训练汉英双语数据。在使用双语数据的训练阶段,预训练语言模型(编码器)的参数在前10,000个步骤中保持不变,仅更新解码器的参数,然后更新编码器和解码器的参数。 预训练变压器具有比标准大型变压器更深的编码器(从第6层到第24层),并且可以通过对超大规模中文单语数据的预训练从源语言(中文)句子中提取。有效的功能,有效地提高了模型的翻译质量。从自动评估指标BLEU开始,预训练变压器与大型变压器相比显着提高了1个百分点。

更深的变压器

更深的编码器可以提取更多的特征,但是对于平移模型的训练,只有加深编码器的层数才会经常遇到梯度消失的问题,导致模型无法正常收敛。我们提出深度变压器。在较深的编码器中,通过添加剩余连接,即,所有先前的层被用作下一层的输入,梯度消失并且实现端到端的翻译训练。标准基础Transformer和大型Transformer型号,编码器和解码器均为6层。对于具有较深变压器的型号,基础变压器编码器可以扩展到30层,大型变压器编码器可以扩展到15层。

与标准大型变压器相比,深度变压器的性能提升较少,但在模型集成阶段,添加深度变压器可以显着提高整个系统的转换质量。将更详细地介绍本文后面的模型集成部分。

更大的变压器

此外,我们建议使用Bigger Transformer来增强宽度尺寸的模型。探讨了前向网络节点和隐藏层节点对翻译质量的影响。发现增加前向网络节点可以显着提高翻译质量。 Bigger Transformer的前向网络节点数量为个,而标准大型变压器的前向网络节点数量为4096个。但是,更多参数在训练过程中更容易出现过度拟合问题。通过增加压差比和标签平滑参数来避免过度拟合。与大型变压器相比,Bigger Transformer增加了0.8 BLEU。

三,数据增强

对于单语数据,联合训练方法用于增强反向翻译产生的翻译,并构建更高质量的“伪”双语数据。首先,使用中英双语数据训练汉英和英汉翻译模型。汉英模式将汉语单语数据翻译成英语,英汉模式将英语单语数据翻译成中文。汉英模式继续训练英汉模式产生的“伪”双语数据。英汉模式继续对中英文模型生成的“伪”双语数据进行训练,提高了汉英,英汉模式的表现。在下一轮中,具有更好翻译效果的中英文和中文 - 中文模型可以生成更高质量的伪数据,以进一步增强翻译模型。

对于双语数据(英语)的目标端,源(中文)翻译由英汉翻译模型生成,“生成的”中文和“真实”英语混合到双语数据中以培训汉英模型。

图4联合培训流程图

对于双语数据源(中文),采用知识蒸馏的方法,并将R2L翻译模型(从右到左翻译顺序)和异构模型(具有不同结构的模型)用作“教师”。 “生成目标结束(英语)。翻译,然后将“真实”中文和“生成”英文作为增强数据,指导模型学习更多知识。作为“教师”,R2L翻译模型通常比翻译英语翻译的前一部分更好。知识蒸馏方法允许翻译模型(L2R)更多地了解句子的背面。信息。不同的结构翻译模型具有不同的翻译特征例如,深度变压器和大变压器可以用作预训练变压器的“教师”,以指导预训练变压器学习深度变压器和更大变压器的特性。如下图所示,D'表示由模型生成的一对语句,并且多个不同的D'组合用作模型的训练语料库。

图5知识蒸馏流程图

各种数据增强方法不仅增强了模型的鲁棒性,而且引导模型学习其他模型的独特知识,从而进一步提高了翻译效果。

四,模型整合

模型集成解码可以显着改善翻译结果。我们使用不同的模型来训练数百种不同数据的翻译模型,以探索不同模型集成对翻译质量的影响。经过大量实验,发现即使性能非常强,也可以集成相同的结构模型,但综合翻译效果较差;并且不同结构模型的整合,翻译效果得到了显着提升,与最强的单一系统相比,增加了1.4 BLEU。 五,重新排序

集成模型生成k个候选翻译,并通过k-best MIRA算法学习每个特征的权重,从而进一步排序候选翻译并选择最佳翻译。设计了四项功能来提高翻译质量:

1.翻译模型特征:集成模型生成翻译分数,R2L模型评分翻译。

2.语言模型特征:多语言模型和后向语言模型对翻译进行评分。

3.长度特征:翻译的长度比和长度与原文不同。

4.加权投票功能:计算每个翻译和其他候选翻译的BLEU并计算平均值。

通过上述技术创新,与基准系统相比,我们实现了6-7个百分点的显着增长。作为中国最早的互联网机器翻译系统之一,百度翻译在技术和产品方面一直处于行业领先地位。早在2015年,百度翻译就发布了世界上第一个神经网络翻译系统,并在同年获得了国家科技进步二等奖。通过不断的技术创新,翻译质量仍然处于行业领先地位。在刚刚举行的百度开发者大会上,业界首个端到端同步翻译脚本发布,为用户提供身临其境的同声传译体验。随着技术的不断进步和发展,机器翻译将在跨越语言差距中发挥越来越重要的作用。

百度自然语言处理(NLP)以“理解语言,智慧,改变世界”为使命,开发自然语言处理的核心技术,创造领先的技术平台和创新产品,服务全球用户,使复杂世界变得更加复杂。简单。