CNN神经机器翻译
卷积神经网络和机器翻译
- 基于循环神经网络的神经机器翻译模型展现出强大的能力后,研究者们也开始探索基于卷积神经网络的神经翻译模型。
- Meng等人用卷积神经网络来编码源端语言,并将其集成到统计机器翻译模型中。
- Gehring等人将神经网络翻译模型的源端编码器替换成了基于卷积神经网络的结构,随后提出了完全基于卷积神经网络的机器翻译模型。
CNN-MT 解析
- 编码器:卷积神经网络在处理输入序列中的一个片段时,并不知道这个片段在句子中的具体位置。因此,在词嵌入中加入位置编码可以使模型获得更丰富的信息,增强模型的表示能力。假设 $w$为词嵌入, $p$为位置嵌入,则模型输入为 $w$与 $p$之和如下。 $$w=(w_1,...,w_m),p=(p_1,...,p_m),e=(w_1+p_1,...,w_m+p_m)$$
最后更新: January 18, 2023