图片 1

本教程的这个版本需要TensorFlow Nightly。
为了使用稳定的TensorFlow版本,请考虑其他分支,如tf-1.4。

今天,我们很高兴能够发布最新的TensorFlow
神经机器翻译教程,帮助读者全面了解
seq2seq模型,并介绍如何从头开始构建有竞争力的翻译模型。该教程尽可能简单地呈现该过程,教程首先介绍神经机器翻译的背景知识,并讲述构建
vanilla系统的具体代码。然后介绍注意力机制 [3, 4] 这一帮助 NMT
系统处理长句的重要工具。最后,本教程将讲解如何复制谷歌NMT(GNMT)系统
[5] 的关键特征,以实现在多个 GPU 上训练模型。

图片 2

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

介绍(Introduction)

序列 – 序列(seq2seq)模型(Sutskever et al.,
2014,
Cho et al.,
2014
)在机器翻译,语音识别和文本摘要等各种任务中取得了巨大的成功。
本教程为读者提供了seq2seq模型的全面理解,并展示了如何从头构建一个有竞争力的seq2seq模型。
我们专注于神经机器翻译(NMT)的任务,它是seq2seq模型的第一个测试平台。
包含的代码是轻量级的,高质量的,生产就绪,并结合最新的研究思路。
我们通过以下方式达到这个:

  1. 使用最近的解码器/注意力包装器(decoder / attention
    wrapper)API,TensorFlow 1.2数据迭代器
  2. 结合我们强大的专业知识,建立循环和seq2seq模型
  3. 为建立最好的NMT模型和重现Google’s NMT
    (GNMT)系统提供技巧和窍门。

我们相信提供人们可以轻松重现的benchmarks是非常重要的。
因此,我们提供了完整的实验结果,并在以下公开可用的数据集上对模型进行预训练:

  1. 小规模:IWSLT Evaluation
    Campaign提供的英语 –
    越南语TED对话语料库(133K个句子对)。
  2. 大规模:WMT Evaluation
    Campaign提供的德英平行语料库(4.5M句子对)。

我们首先建立一些关于NMT的seq2seq模型的基本知识,解释如何建立和训练一个vanilla
NMT模型。 第二部分将着重于构建具有注意力机制的竞争性NMT模型。
然后,我们将讨论一些技巧和诀窍,以建立最佳NMT模型(包括速度和翻译质量),如TensorFlow最佳实践(批处理,分段),双向RNN,波束搜索(beam
search [这个是啥?])以及使用GNMT注意力扩展到多个GPU。

  1. 当前目标隐蔽状态和所有源状态(source
    state)进行比较,以导出权重(weight),见图 4。

  2. 基于注意力权重,我们计算了一个背景向量(context
    vector),作为源状态的平均权值。

  3. 将背景向量与当前目标隐蔽态进行结合以生成最终的注意力向量。

序列到序列学习甚至可以应用于NLP中常见的结构化预测任务,其中NLP输出具有特定结构。简单地说,输出是线性化的,如下面图10中的consituency解析所示。神经网络已经证明了在给予consituency解析的足够数量的训练数据(Vinyals等,2015)和命名实体识别(Gillick等,2016)等的情况下,能够直接学习产生这种线性化输出的能力。

参与:白悦、刘晓坤

安装教程(Installing the Tutorial)

要安装本教程,您需要在系统上安装TensorFlow。 本教程需要TensorFlow
Nightly。 要安装TensorFlow,请按照此处的安装说明进行操作。
一旦安装了TensorFlow,您可以运行以下命令来下载本教程的源代码:

git clone https://github.com/tensorflow/nmt/

上述公式表明注意力机制有很多种变体。这些变体依赖于评分函数(scoring
function)和注意力函数(attention function)的形式,也依赖于前一状态
ht-1,而不依赖于开始建议的评分函数 ht(Bahdanau et
al.,2015)。实际上我们发现的只有一些选择上的注意事项。一,注意力的基本形式,例如,目标和源之间的直接联系需要被呈现。二,把注意力向量输入给下一时间步骤,以把之前的注意力决策告知给网络(Luong

通常基于与当前状态的相似性来访问内存,类似于注意力,并且通常可以写入和读取存储器,模型在实现和利用内存方面有所不同。例如,端到端记忆网络多次处理输入并更新内存以启用多个推理步骤。神经图灵机还具有基于位置的寻址,允许它们学习简单的计算机程序,如排序。基于记忆的模型通常应用于其中保留较长时间跨度信息的有用任务,例如语言建模和阅读理解。存储器的概念非常通用:知识库或表可以用作存储器,而存储器也可以基于整个输入或其特定部分来填充。

原标题:EMNLP 2018 |
结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

损失(Loss)

基于上面的logits,我们现在准备计算我们的训练损失:

crossent = tf.nn.sparse_softmax_cross_entropy_with_logits(
    labels=decoder_outputs, logits=logits)
train_loss = (tf.reduce_sum(crossent * target_weights) /
    batch_size)

这里,target_weights是与decoder_outputs相同大小的0-1矩阵。
它将目标序列长度之外的值填充0。

重要说明:值得指出的是,我们用batch_size来分割损失,所以我们的超参数对batch_size是“不变的”。
有些人用(batch_size *
num_time_steps)来划分损失,减少了短句的错误。
更微妙的是,我们的超参数(应用于前一种方式)不能用于后一种方式。
例如,如果两种方法都使用SGD来学习1.0,则后一种方法有效地使用1 /
num_time_steps的更小的学习速率。

现在是时候定义我们的 NMT
模型的前向传播了。计算反向传播只需要写几行代码:

本文作者:

选自arXiv

嵌入(Embedding)

鉴于单词的分类性质,模型必须首先查找源和目标的嵌入来检索相应的词表示(word
representations)。
为了使这个嵌入层起作用,首先为每种语言选择一个词汇表。
通常,选择词汇量V,只有最频繁的V词才被视为唯一。
所有其他单词都转换为”unknown”标记,并获得相同的嵌入。
嵌入权重,每种语言一套,通常在训练中学习。

# Embedding
embedding_encoder = variable_scope.get_variable(
    "embedding_encoder", [src_vocab_size, embedding_size], ...)
# Look up embedding:
#   encoder_inputs: [max_time, batch_size]
#   encoder_emb_inp: [max_time, batch_size, embedding_size]
encoder_emb_inp = embedding_ops.embedding_lookup(
    embedding_encoder, encoder_inputs)

同样,我们可以构建embedding_decoder和decoder_emb_inp。
请注意,可以选择使用预训练词表示(例如word2vec或Glove
vectors)来初始化嵌入权重。
一般来说,给定大量的训练数据,我们可以从头学习这些嵌入。

优化 seq2seq 模型,以实现在多 GPU 设置中的模型训练。

本文为云栖社区原创内容,未经允许不得转载。

图片 3

原文:https://www.tensorflow.org/versions/r1.5/tutorials/seq2seq

图片 4

图片 5

作者首先介绍一个可用于定义和描述大多数现有 NMT
系统模块化框架,然后,在第 3
节中,将根据该框架介绍本研究的主要贡献,即语境参数生成器(CPG)。作者还论证了该方法使我们更接近普适的中间语言。

神经机器翻译的背景(Background on Neural Machine Translation)

在过去,传统的基于短语的翻译系统通过将源语句拆分成多个片段然后将其逐句翻译来执行他们的任务。
这导致了翻译产出的不流畅,并不像我们人类翻译的那样。
我们阅读整个源句子,理解它的意思,然后产生一个翻译。
神经机器翻译(NMT)模仿的就是这种方式!

图片 6

图1.编码器 – 解码器架构 – 用于NMT的一般方法的例子。
编码器将源语句转换为通过解码器传递的“意义”向量以产生翻译。

具体而言,NMT系统首先使用编码器读取源句子来构建“思想”向量,表示句子含义的数字序列;
解码器然后处理句子向量以发出翻译,如图1所示。这通常被称为编码器 –
解码器体系结构。
NMT以这种方式解决了传统的基于短语的方法中的局部翻译问题:它可以捕捉语言的长期依赖性,例如性别协议;
语法结构等; 并通过谷歌神经机器翻译系统(Google Neural Machine
Translation
systems)展示了更流利的翻译。

NMT模型根据其确切的体系结构而有所不同。
对于序列数据,很自然的选择是大多数NMT模型所使用的递归神经网络(RNN)。
编码器和解码器通常使用RNN。 但是,RNN模型在以下方面有所不同:(a)方向性

  • 单向或双向; (b)深度 – 单层或多层; 和(c)类型 –
    通常是普通RNN,长期短期记忆(LSTM)或门控循环单元(GRU)。
    有兴趣的读者可以在这篇博文中找到关于RNN和LSTM的更多信息。

在本教程中,我们以单向的深度多层RNN为例,将LSTM作为一个递归单元。
我们在图2中展示了这样模型的一个例子。在这个例子中,我们建立了一个模型,将源句子”I
am a student”翻译成目标句子”Je suisétudiant”。
在高层次上,NMT模型由两个递归神经网络组成:编码器RNN仅仅消耗输入的源单词而不作任何预测;
另一方面,解码器在预测下一个单词的同时处理目标语句。

欲了解更多信息,我们向读者介绍本教程所基于的Luong
(2016)。

图片 7

图2.神经机器翻译 – 一个深度循环架构的例子,将源句子“I am a
student”翻译成目标句子“Je suistétudiant”。
这里,“<s>”表示解码过程的开始,而“</ s>”表示解码器停止。

Neural Machine Translation – Tutorial ACL
2016:

由于其灵活性,该框架现在是自然语言生成任务的首选框架,不同的模型承担编码器和解码器的角色。重要的是,解码器模型不仅可以以序列为条件,而且可以以任意表示为条件。这使得例如基于图像生成标题(Vinyals等人,2015)(如下面的图9中可见),基于表格的文本(Lebret等人,2016),以及基于源代码更改的描述(Loyola等,2017),以及许多其他应用程序。

论文:Contextual Parameter Generation
for Universal Neural Machine Translation

梯度计算和优化(Gradient computation & optimization)

现在我们已经定义了NMT模型的正向传播。 计算反向传播只是几行代码的问题:

# Calculate and clip gradients
params = tf.trainable_variables()
gradients = tf.gradients(train_loss, params)
clipped_gradients, _ = tf.clip_by_global_norm(
    gradients, max_gradient_norm)

训练RNNs的重要步骤之一是梯度裁剪。 在这里,我们在全局范围内进行裁剪。
最大值max_gradient_norm通常设置为5或1的值。最后一步是选择优化器。
Adam优化器是一个常用的选择。 我们也选择一个学习率。
learning_rate的值通常可以在0.0001到0.001之间; 随着训练的进行可以减少。

# Optimization
optimizer = tf.train.AdamOptimizer(learning_rate)
update_step = optimizer.apply_gradients(
    zip(clipped_gradients, params))

在我们自己的实验中,我们使用标准SGD(tf.train.GradientDescentOptimizer),其学习速率逐步降低,这样可以获得更好的性能。
参见
benchmarks。

未完待续

训练之后,我们可以使用带有新 model_dir 的相同推理指令进行推理:

预训练语言模型可以用更少的数据进行学习,由于语言模型仅需要未标记的数据,因此对于标记数据稀缺的低资源语言尤其有用。有关预训练语言模型的更多信息,请参阅本文。

神经机器翻译(NMT)无需单独训练或调整系统的任何部分就可以直接建模源语言到目标语言的映射。这使得
NMT 快速发展,并在许多大规模环境中成功应用 (Wu et al., 2016; Crego et
al.,
2016)。编码器-解码器抽象使构建将任何语言的源句映射到向量表示,再将向量表示解码到任何目标语言的系统在概念上变得可行。因此,人们提出了各种方法来扩展这种多语言机器翻译的抽象
(Luong et al., 2016; Dong et al., 2015; Johnson et al., 2017; Ha et al.,
2016; Firat et al., 2016a)。

训练 – 如何建立我们的第一个NMT系统(Training – How to build our first NMT system)

首先,我们将深入探讨用具体的代码片断构建NMT模型的核心,我们将通过它更详细地解释图2。
我们将数据准备和完整的代码推迟到以后。
这部分是指文件model.py

在底层,编码器和解码器RNNs接收以下输入:首先是源句子,然后是指示从编码转换到解码模式的边界标记”<s>”
,和目标语句。
对于训练,我们会给系统提供以下张量,这些张量在时间上是主要格式,包含文字索引:

  • encoder_inputs [max_encoder_time,batch_size]:源输入单词。
  • decoder_inputs [max_decoder_time,batch_size]:目标输入单词。
  • decoder_outputs
    [max_decoder_time,batch_size]:目标输出单词,这些是decoder_input向左移动一个时间步,右边添加一个句尾结束标记。
    这里为了提高效率,我们一起训练多个句子(batch_size)。
    测试稍有不同,所以我们稍后再讨论。

以上代码中,target_weights 是一个与 decoder_outputs 大小一样的 0-1
矩阵。该矩阵将目标序列长度以外的其他位置填充为标量值 0。

用于序列和解码器的编码器通常基于RNN,但是也可以使用其他模型类型,最新的架构主要来自作为序列到序列架构的培养皿MT的工作。最近的模型是卷积编码器(Kalchbrenner等,2016;
Gehring等,2017),变换器(Vaswani等,2017),将在下一个部分讨论,以及LSTM和变压器的组合(Chen等,2018)。

图 1:在我们的模块化框架下的 NMT
系统概述。我们的主要贡献在于参数生成器模块(即,耦合或解耦——具有蓝色字体的每个框是单独的选项)。注意,g
表示参数生成器网络。在我们的实验中,我们考虑该网络的线性形式。但是,我们的贡献并不取决于其他模块的选择;我们仍然可以将具有不同架构的参数生成器和不同类型的词汇表用于编码器和解码器。

基础知识(Basic)

5.梯度计算和优化

对抗性学习:对抗性方法已经在风暴中占据了ML的领域,并且在NLP中也以不同的形式使用。对抗性示例越来越广泛地被广泛使用,不仅作为探测模型和理解其失败案例的工具,而且还使它们更加具有鲁棒性(Jia&Liang,2017)。对抗性训练:域对抗性损失(Ganin等,2016;
Kim等,2017)是可以同样使模型更加健壮的有用的正规化形式。生成对抗网络对于自然语言生成来说还不是太有效(Semeniuta等,2018),但是例如在匹配分布时是有用的(Conneau等,2018)。

表 2:我们提出的有基础成对
NMT(PNMT)模型的方法(阴影的一行)和用于 IWSLT-17 数据集的 Google
多语言 NMT 模型(GML)的比较。因为 Meteor 不支持 It、Nl 和
Ro,所以仅显示了 BLEU 度量标准的结果,CPG8 表示使用 8 个语言嵌入来表示
CPG。「C4」下标表示用于受控参数共享的 CPG 的低级版本(参见第 3.1
节),使用等级 4 等。每种情况下的最佳得分加粗显示。

解码器(Decoder)

解码器也需要访问源信息,一个简单的方法就是用编码器的最后一个隐藏状态encoder_state来初始化它。
在图2中,我们将源语词“student”的隐藏状态传递给解码器端。

# Build RNN cell
decoder_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units)

# Helper
helper = tf.contrib.seq2seq.TrainingHelper(
    decoder_emb_inp, decoder_lengths, time_major=True)
# Decoder
decoder = tf.contrib.seq2seq.BasicDecoder(
    decoder_cell, helper, encoder_state,
    output_layer=projection_layer)
# Dynamic decoding
outputs, _ = tf.contrib.seq2seq.dynamic_decode(decoder, ...)
logits = outputs.rnn_output

在这里,这个代码的核心部分是BasicDecoder对象、解码器,其接收decoder_cell(类似于encoder_cell),帮助器,以及之前的encoder_state作为输入。
通过分离出解码器和帮助器,我们可以重用不同的代码库,例如,可以用GreedyEmbeddingHelper代替TrainingHelper来进行贪婪的解码。
请参阅helper.py。

最后,我们没有提到projection_layer是一个稠密的矩阵,它将顶部隐藏状态转化为维数为V的logit向量。我们在图2的顶部说明了这个过程。

projection_layer = layers_core.Dense(
    tgt_vocab_size, use_bias=False)

图 4. 注意力可视化——源语句与目标语句之间对齐的实例。图片来自 2015 年
Bahdanau 等人的论文。

阅读原文

多语言 NMT
之前的工作可大致分为两种范式。第一个通用 NMT (Johnson et al., 2017; Ha
et al., 2016) 对所有语言使用单一模型。通用 NMT
没有任何特定语言的参数化,在翻译截然不同的语言和数据有限的情况下,这种模式过于简单化且非常不利。通过实验验证,Johnson
等人的方法(2017)在高样本复杂度情况下性能变差,因此在有限的数据设置中表现不佳。Ha
等人提出的通用模型(2016)需要输入句子的新编码方案,这会导致过大的词汇量从而难以扩展。第二种范式,特定于每种语言的编码器-解码器
(Luong et al., 2016; Firat et al.,
2016a),每种语言使用独立的编码器和解码器。这不允许跨语言共享信息,可能导致过度参数化,且在语言相似的情况下可能有害。

作者:Thang Luong,Eugene Brevdo,Rui Zhao(Google Research
Blogpost,Github)

用于构建 seq2seq 模型的工具很多:

摘要: 越来越火的NLP到底经历了什么?

在本文中,CMU
的研究者在这两种方法之间取得了平衡,提出了一种能够分别为每种语言学习参数的模型,同时也能在相似语言之间共享信息。研究者使用了新的语境相关的参数生成器(CPG),它可以(a)泛化所有这些方法;(b)缓解上述通用和独立语言编码器-解码器系统的问题。它将语言嵌入作为翻译的语境进行学习,并用它们为所有语言对生成共享翻译模型的参数。因此,它为这些模型提供了每种语言单独学习参数的能力,同时也在相似语言之间共享信息。参数生成器是通用的,允许以这种方式增强任何现有的
NMT 模型。此外,它具有以下所期望的特征:

编码器(Encoder)

一旦检索出来,嵌入字就作为输入被输入到主网络中,主网络由两个多层RNN组成

  • 一个源语言的编码器和一个目标语言的解码器。
    这两个RNN原则上可以分享相同的权重;
    然而,在实践中,我们经常使用两个不同的RNN参数(这些模型在拟合大型训练数据集时效果更好)。
    编码器RNN使用零矢量作为其起始状态,并且如下构建:

    # Build RNN cell
    encoder_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units)

    # Run Dynamic RNN
    # encoder_outputs: [max_time, batch_size, num_units]
    # encoder_state: [batch_size, num_units]
    encoder_outputs, encoder_state = tf.nn.dynamic_rnn(

      encoder_cell, encoder_emb_inp,
      sequence_length=source_sequence_length, time_major=True)
    

请注意,为避免浪费计算,句子具有不同的长度,我们通过source_sequence_length告诉dynamic_rnn确切的源句子长度。
由于我们的输入是时序重要的,我们设置time_major = True。
在这里,我们只建立一个单层的LSTM,encoder_cell。
我们将介绍如何构建多层LSTM,添加dropout,并在后面的章节中使用attention。

我们将使用 tst2012 作为开发数据集,tst 2013
作为测试数据集。运行以下命令行下载数据训练 NMT 模型:

预训练的词嵌入与上下文无关,而且仅用于初始化模型中的第一层。最近几个月,一系列监督任务被用于预训练神经网络(Conneau等,2017;
McCann等,2017;
Subramanian等,2018)。相比之下,语言模型只需要未标记的文本;
因此,训练可以扩展到数十亿个tokens,新领域和新语言。
2015年首次提出了预训练语言模型(Dai&Le,2015);
直到最近,它们才被证明对各种各样的任务都有益。
语言模型嵌入可以用作目标模型中的特征(Peters等,2018),或者可以对目标任务数据微调语言模型(Ramachandran等,2017;
Howard&Ruder,2018)。添加语言模型嵌入比许多任务的最新技术有了很大的改进,如下面的图13所示。

图片 8

(全文99.9%由google翻译,自学使用)

图片 9

图片 10

图片 11

如果使用这个代码库进行研究,请引用此。

本教程包括具体的基准测试结果,用户可自行复制。我们的模型提供强大的开源基准,其性能不亚于
GNMT 的结果 [5]。我们在 WMT 2014 的英语转德语翻译任务中取得了 BLEU
得分 24.4 的成绩。

注意力(Bahdanau等,2015)NMT)的核心创新之一,也是使NMT模型优于基于经典短语的MT系统的关键思想。序列到序列学习的主要瓶颈是它需要将源序列的整个内容压缩成固定大小的矢量。注意力通过允许解码器回顾源序列隐藏状态来减轻这种情况,然后将其作为加权平均值提供给解码器的附加输入,如下面的图11所示。

责任编辑:

基础

强化学习:强化学习已经被证明对于具有时间依赖性的任务是有用的,例如在训练期间选择数据(Fang等,2017;
Wu等,2018)和建模对话(Liu等,2018)。RL对于直接优化诸如ROUGE或BLEU之类的非可微结束度量而不是优化替代损失(例如摘要中的交叉熵(Paulus等,2018;
Celikyilmaz等,2018)和机器翻译也是有效的。(Ranzato等人,2016),反向强化学习在犒赏太复杂而无法指定的环境中可能是有用的,例如视觉叙事(Wang
et al。,2018)。

  1. 简单:类似 Johnson 等人(2017)和 Ha 等人(2016)的方法,且与 Luong
    等人(2016 年)和 Firat
    等人(2016a)的方法相反,它只需稍作修改就可以应用于大多数现有的 NMT
    系统,并且能够无缝地容纳注意力层。
  2. 多语言:和之前相同,允许使用相同的单个模型进行多语言翻译。
  3. 半监督:可以使用单语数据。
  4. 可扩展:通过在语言间使用大量但可控的共享来减少参数的数量,从而减少大量数据的需求,如
    Johnson
    等人所述(2017)。它还允许语言的解耦,避免对大量共享词汇需求,如 Ha
    等人所述(2016)。
  5. 适应性强:无需完全重新训练就可以适应新语言。
  6. 当前最先进的方法:比成对 NMT 模型和 Johnson
    等人的模型具备更好的性能。(2017
    年)。事实上,该方法优于最先进的性能。

近日,谷歌官方在
Github开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模型,随后更进一步引进注意力机制和多层
LSTM加强系统的性能,最后谷歌根据
GNMT提供了更进一步改进的技巧和细节,这些技巧能令该NMT系统达到极其高的精度。机器之心对该教程进行简要的描述,跟详细和精确的内容请查看项目原网站。

2014年,Sutskever等人提出序列到序列学习,一种通过神经网络将一个序列映射到另一个序列的通用框架。在该框架中,编码器神经网络逐个符号地处理句子并将其压缩成矢量表示;
然后,解码器神经网络基于编码器状态逐个符号地预测输出符号,在每个步骤中将先前预测的符号作为输入,如下面的图8所示。

作者:Emmanouil Antonios
Platanios等

其他资源

基于字符的表示:在字符上使用CNN或LSTM来获得基于字符的词表示是相当普遍的,特别是对于形态学丰富的语言和形态信息很重要或具有许多未知单词的任务。据我所知,基于字符的表示首先用于序列标记(Lample等,2016;
Plank等,2016)。基于字符的表示减少了必须以增加计算成本处理固定词汇表的需要,并且能够实现诸如完全基于字符的NMT之类的应用(Ling等人,2016;
Lee等人,2017)。

表 1:我们提出的有基础成对
NMT(PNMT)模型的方法(阴影的一行)和用于 IWSLT-15 数据集的 Google
多语言 NMT
模型(GML)的比较。百分比的并列行显示训练时使用多少部分(1%、10%、100%)的平行语料库;其余的仅用作单语数据。表中显示了
BLEU 和 Meteor 指标的结果。CPG *表示与 CPG
相同的模型,但未使用自动编码训练样本进行训练。每种情况下的最佳分数加粗显示。

为了更高的效率,我们一次用多个句子(batch_size)进行训练。测试略有不同,我们会在后面讨论。

图片 12

通用和专用 NMT
模型分别在相似语言对和罕见语言对的翻译中具有优势,但这也反映了各自的劣势,取决于参数共享的程度。为此,CMU
的研究者在本文中提出了一种在两者之间取得平衡方法,不需要改变 NMT
原有架构,而是引入新的组件
CPG,来可控地实现不同语言对模型之间的参数共享。该组件可无缝整合不同的
NMT,并在基准数据集上取得当前最佳。研究者强调,该方法使我们更接近普适的中间语言。

encoder_inputs [max_encoder_time, batch_size]:源输入词。

图片 13

摘要:我们对现有神经机器翻译(NMT)模型进行了简单修正,允许使用单个通用模型完成多种语言之间的翻译,同时允许语言特定的参数化,并且还可以用于域适应。我们的方法不需要改变标准
NMT
系统的模型架构,而是引入了新的组件,即语境参数生成器(CPG),可以生成系统的参数(例如,神经网络中的权重)。该参数生成器接受源语言嵌入和目标语言嵌入作为输入,并分别为编码器和解码器生成参数。模型的其余部分保持不变,并在所有语言中共享。我们展示了这种简单的修正如何使系统使用单语数据进行训练并实现
zero-shot 翻译。我们进一步表明,它能够超越 IWSLT-15 和 IWSLT-17
数据集的当前最佳性能,并且学习的语言嵌入能够发现语言之间的有趣关系。

图片 14

注意力有不同的形式(Luong等,2015)在这里查看简要概述。
注意力广泛适用并且可能对任何需要根据输入的某些部分做出决策的任务有用。它已被应用于consituency解析(Vinyals等,2015),阅读理解(Hermann等,2015)和一次性学习(Vinyals等,2016)等。甚至输入不需要是序列,但可以包括其他表示,如图像字幕的情况(Xu
et
al.,2015),可以在下面的图12中看到。注意力的一个有用的副作用是,通过根据注意力量检查输入的哪些部分与特定输出相关。

  • 论文地址:
  • 项目地址:

图片 15

注意力也不仅限于查看输入序列;自-注意力可用于查看句子或文档中的周围单词以获得更多上下文敏感的单词表示。多层自-注意力是Transformer架构的核心(Vaswani等,2017),这是目前最先进的NMT模型。

在我们的实验中,我们使用标准的随机梯度下降(tf.train.GradientDescentOptimizer),并采用了递减的学习率方案,因此也就有更好的性能。

注意力可以看作是模糊记忆的一种形式,其中记忆由模型的过去隐藏状态组成,模型选择从记忆中所检索的内容。有关注意事项及其与记忆关联的更详细概述,请查看此文章。许多具有更明确记忆的模型已经被提出,它们有不同的变体,例如神经网络图灵机(Graves
et al,2014),记忆网络(Weston et
al.,2015)[70]和端到端的记忆网络(Sukhbaatar et
al.,2015),动态记忆网络(
Kumar等,2015),可微神经计算机(Graves等,2016)和递归实体网络(Henaff等,2017)。

图片 16

机器翻译成了这个框架的杀手级应用。2016年,谷歌宣布开始用NMT模型替换其基于单片短语的MT模型(Wu
et al.,2016)。根据Jeff
Dean的说法,这意味着用500线性神经网络模型替换500,000行基于短语的MT代码。

模型。第二部分将更进一步详细地解释如何构建带注意力机制的强大神经机器翻译模型。然后我们会讨论构建更好神经机器翻译模型(翻译速度和质量)可能的技巧,例如TensorFlow
最好的实践方法(batching, bucketing)、双向循环神经网络和集束搜索等。

图片 17

感兴趣的读者可打开该网址(
RNN 和 LSTM 的更多信息。

maximum_iterations = tf.round(tf.reduce_max(source_sequence_length)
* 2)

OpenNMT [Torch]

git clone

训练:133k 的样本,dev=tst2012,test=tst2013

decoder_outputs [max_decoder_time, batch_size]:目标输出词,这些是
decoder_inputs 按一个时间步向左移动,并且在右边有句子结束符。

当你训练你的NMT模型时(并且一旦你已经训练了模型),可以在给定之前不可见的源语句的情况下获得翻译。这一过程被称作推理。训练与推理之间有一个明确的区分(测试):在推理时,我们只访问源语句,即encoder_inputs。解码的方式有很多种,包括
greedy 解码、采样解码和束搜索解码(beam-search)。下面我们讨论一下greedy
解码策略。

我们重点详解注意力计算过程中的第一步。为了更加清晰,我们没有展示图(2)中的嵌入层和投影层。

机器之心原文参考:

Thang Luong’s Thesis on Neural Machine
Translation:

训练速度:在英伟达 K40m 上是 2.1s 的时间步,3.4k 的 wps,在英伟达 Titan
X 上是 0.7s 的时间步,8.7k 的 wps。

若想深入了解神经机器翻译和序列-序列模型,我们非常推荐以下资源:

推理与训练的区别在于步骤
3。推理不总是馈送作为输入的正确目标词,而是使用被模型预测的单词。下面是实现
greedy 解码的代码。它与训练解码器非常相似。

为了查看 GNMT 注意的加速度,我们只在 K40m 上做了基准测试:

训练速度:在英伟达 K40m 上是 0.37s 的时间步、15.3k 的 wps,在 Titan X
上是 0.17 s 的时间步,32.2k 的 wps。

tf-seq2seq [TensorFlow]

通过分离 decoders 和 helpers,我们能重复使用不同的代码库,例如
TrainingHelper 可由 GreedyEmbeddingHelper 进行替换,来做贪婪解码。

图片 18

batch_size 分割,因此我们的超参数 batch_size
是「不变量」。也有些人将训练损失按照 batch_size
*num_time_steps分割,这样可以减少短句所造成的误差。更巧妙的,我们的超参数(应用于前面的方法)不能用于后面的方法。例如,如果两种方法都是用学习率为
1.0的随机梯度下降,后面的方法将更有效地利用一个较小的学习率,即 1 /
num_time_steps。

decoder_inputs [max_decoder_time, batch_size]:目标输入词。

我们已经训练了一个模型,现在可以创建一个推理文件并翻译一些语句:

相关文章

网站地图xml地图