Compositional Morphology forWord Representations and Language Modelling

本文提出了一种可扩展的方法，用于将组合形态表示集成到基于矢量的概率语言模型中。这里的方法在对数双线性语言模型的上下文中进行评估，通过对词汇表进行因子分析，适当地有效地在机器翻译解码器内实现。文章进行内在和外在评估，展示一系列语言的结果，这些语言证明模型学习形态表征，这些形态表示在单词相似性任务上表现良好，并导致困惑的显着减少。当用于翻译成具有大词汇量的形态丰富的语言时，相对于使用back-off n-gram模型的基线系统，这里的模型获得了高达1.2 BLEU点的改进。

形态丰富的语言中单词形式的激增给统计语言模型（LM）带来了挑战，统计语言模型在机器翻译和语音识别中起着关键作用。传统的back off n-gram LMs（Chen＆Goodman，1998）和越来越流行的基于矢量的LMs（Bengio等，2003; Schwenk等，2006; Mikolov等，2010）使用了不具有的参数化明确地编码相关形式之间的形态规律，如abstract，abstraction和abstracted。这些模型遭受由形态学过程引起的数据稀疏性，并且缺乏将概率或表示分配给看不见的单词形式的连贯方法。

这项工作侧重于连续空间语言模型（continuous space language models,CSLM），这是一个用于表示具有实值向量的单词的LM的总称。已经发现这样的单词表示可以捕捉一些形态规律性（Linguistic Regularities
in Continuous Space Word Representations），但我们认为有一种情况可以将先验形态意识建立在语言模型的归纳偏差中。相反，最近已将组合矢量空间建模应用于形态学以获得良好效果，但缺乏与机器翻译解码器一起使用所必需的概率基础。

本文提出的方法在概率语言建模和基于形态学的表示学习之间取得平衡。词向量被组合成为单词的任意子元素的线性函数，例如，表面形式，词干，词缀或其他潜在信息。其结果是将形态相关词的表示联系在一起，直接对抗数据稀疏性。这是在log-bilinear（LBL）LM（《Three New Graphical Models for Statistical
Language Modelling》）的背景下执行的，通过使用单词分类充分加速，这样就可以将模型集成到开源机器翻译解码器并进行评估它对翻译成6种语言的影响，包括形态复杂的捷克语，德语和俄语。

在单词相似度评定任务中，这里的语素向量有助于提高多种语言中人类评级的相关性。细粒度分析用于确定文中的困惑减少的起源，而缩放实验证明了使用100m +tokens的900k类型的词汇表的易处理性。

Additive Word Representations

通用CSLM与词汇表V中每个单词类型v相关联,一个d维特征向量$r_v∈R^d$。通过这些特征值和一组变换权重的相互作用，以不透明的方式捕获单词之间的规则性。这只是以非常基本的方式利用语言直觉，与针对特定现象的针对性的语言特征形成鲜明对比，这在监督学习环境中经常使用。

这里寻求一种保留CSLM特征向量的无监督特性的折衷方案，但也以灵活有效的方式结合了先验语言知识。特别是，尽管表面形式不同，形态相关的词应该具有统计学上的强度。

为了实现这一点,文中定义了一个映射$\mu$:V——>$F^+$,将一个表面单词(surface word)转换到变长序列因子,即$\mu(v)=(f_1,….,f_K)$,其中v∈V并且$f_i∈F$.每个因子f有一个相关因子特征向量$r_v∈R^d$.我们因此因子化一个单词为它的标面词素(surface morphemes),虽然这种方法也能包含其他信息例如词元,词性.

一个单词v的向量表示成$\overline{r}_v$被计算通过它的因子向量的一个函数$w_{\mu}(v)$.这里使用求和：$\overline{r}_v=w_{\mu}(v)=\sum_{f∈\mu(v)}r_f$.相关词的词素向量被链接通过共享因子向量(标记:$\vec{word},\vec{factor}$)

$\vec{imperfection}=\vec{im}+\vec{perfect}+\vec{ion}$ $\vec{perfectly}=\vec{perfect}+\vec{ly}$

此外，可以使用其可用的语素向量来构造词汇表外（out-of-vocabulary,OOV）词的表示。

将一个单词的表面形式(surface form)表示成因子形式. 这解释了非复合结构($\vec{greenhouse}=\vec{greenhouse}+\vec{green}+\vec{house}$),并且使该方法对有噪声的词素部分更鲁棒.该策略也克服了求和组合的顺序不变.
($\vec{hangover}≠\vec{overhang}$).

每个单词的因子数量可以随词汇量的变化而变化，这使得该方法适用于更融合的语言(如捷克语、俄语)和更粘着的语言(如土耳其语)。这与因子语言模型(factored language models)(《Factored Neural Language
Models.》)形成对比，后者假设每个单词有固定数量的因子。他们将因子向量串联起来以获得单个单词的表示向量的方法可以看作是在特征空间上强制划分.本文方法的加法避免了这样的划分，更好地反映了对于什么是合适的划分缺乏强烈的直觉。与他们的方法相比，这里的方法的一个限制是确定性映射目前强制每个单词类型进行单个因子分解，这牺牲了从上下文消除歧义的形态学分析中获得的信息。

与Luong等人的递归神经网络方法不同，本文方法不会在一个单词上强加一个单独的树结构，这会忽略像un[[lock] able] vs. [un[lock]]able这样的单词所固有的模糊性。与这两种先前的形态学建模方法相反，本文的加法表示可以容易地在适用于解码器的概率语言模型中实现。

Log-Bilinear Language Models

Log-bilinear(LBL) models是CSLMs的一个实例.句子w的概率根据它的单词分解,P(w)≈$\prod_iP(w_i|w_{i-n+1}^{i-1})$.该分布被建模通过一个在单词的向量表示上的平滑打分函数v(·).相反,离散的n-gram模型通过平滑和back-off经验分布来估计.

LBL根据前面单词的上下文向量$q_j∈R^d$预测下一个单词的向量p，

$p=\sum_{j=1}^{n-1}q_jC_j$

其中$C_j∈R^{d×d}$是特定位置的转换。
v(w)表达所观察的单词w是多么拟合预测的并且被定义为$v(w)=p·r_w+b_w$,其中$b_w$是偏置项编码单词类型的先验概率.Softmax产生单词概率:

$P(w_i|w_{i-n+1}^{i-1})=\frac{exp(v(w_i))}{\sum_{d∈V}exp(v(d))}$

该模型随后被标记为LBL,参数$\theta_{LBL}=(C_j,Q,R,b)$其中Q,R∈$R^{|V|×d}$包含了单词表示向量以行的形式,并且b∈$R^{|V|}$.Q和R表示单独的表示被用于条件化和输出.

Additive Log-Bilinear Model

本文引入了LBL的变体,利用求和表达通过将组合词向量$\overline{r},\overline{q}_j$分别和目标和上下文单词关联起来.表达矩阵$Q^{(f)},R^{(f)}∈R^{|F|×d}$包含每个因子类型的一个向量.该模型被指定为LBL++并且有参数$\theta_{LBL++}=(C_j,Q^{(f)},R^{(f)},b)$.单词共享因子被联系在一起,这被期望在稀有单词形式上改进表现.

用稀疏转换矩阵M∈Z_+^{V×|F|}来表达映射$\mu$,其中一个行向量$m_v$有一些非零元素来选择因子向量,建立单词和因子表示矩阵之间的关系$R=MR^{(f)}$并且$Q=MQ^{(f)}$.实际上,作者利用这个来测试时间效率——词向量被线下编译以至于因此LBL++概率查找的计算成本与LBL相同。

我们考虑LBL++的两个明显变化来评估上下文和目标因素之间的相互作用对模型的影响程度：LBL+o仅对输出词进行分解并保留上下文的简单词向量（即$Q=Q^{(f)}$），而LBL+c执行相反的操作，仅进行因式分解上下文单词。当设置$\mu$为标识函数时,例如V=F，两者都减少到LBL.

因子分解允许接近未知的上下文单词，其比用全局未知符号替换它们的标准方法更不苛刻——相反，可以从单词的已知因子构建向量（例如，未观察到的变形形式的观察到的词干）。类似的方案可用于对未知目标词进行评分，但需要改变概率模型的事件空间。作者在单词相似性实验中使用这种词汇表扩展功能，但将测试时语言模型预测的扩展留作未来的工作。

Class-based Model Decomposition

在解码器中使用CSLM的主要障碍是对词汇表进行昂贵的规范化。我们降低规范化计算成本的方法是使用概率模型的基于类的分解（《Classes for Fast Maximum Entropy Training》; 《Extensions of Recurrent Neural Network Language
Model》）。使用Brownclustering(《Class-Based n-gram Models of Natural Language.》),这里将词汇表划分为|C|类，将$C_c$表示为c类中的词汇项集合，使得$V=C_1∪…∪C_{|C|}$。

在该模型中,单词基于n-1个先前单词的历史的条件概率被分解为:

$P(w|h)=P(c|h)P(w|h,c) \ \ \ \ (3)$

该基于类的模型,CLBL,对LBL进行了扩展通过将一个表达向量$s_c$和偏置参数$t_c$与类别c关联起来,则有$\theta_{CLBL}=(C_j,Q,R,S,b,t)$.
相同的预测向量p被用于计算类分数$r(c)=p·s_c+t_c$和单词分数v(w),这分别被标准化为:

$P(c|h)=\frac{exp(r(c))}{\sum_{c'=1}^{|C|}exp(r(c'))}$ $P(w|h,c)=\frac{exp(v(w))}{\sum_{d'∈C_c}exp(v(d'))}$

Training & Initialisation

通过优化L2正则化对数似然目标来估计模型参数$\theta$。直接针对此目标训练CLBL及其求和变体是快速的，因为计算梯度所需的模型分数的标准化是在少数事件上进行的。

对于无类别的LBL，我们使用噪声对比估计（NCE）（《Noise-Contrastive Estimation of Unnormalized Statistical Models , with Applications to Natural Image Statistics》）来避免训练期间的标准化。这使得LBL的昂贵的测试时间标准化保持不变，从而排除了它们在解码期间的使用。

偏置项b（resp.t）被初始化为训练语料库中单词（resp. classes）的log unigram概率，具有拉普拉斯平滑，而所有其他参数根据sharp的零均值高斯随机初始化。因此，表示从头开始学习，而不是基于公开可用的嵌入，这意味着这里的方法可以很容易地应用于多种语言。

在每个小批次的L训练样本之后，通过随机梯度下降和更新来执行优化。我们应用AdaGrad并调整开发数据的步骤.一旦开发数据的困惑开始增加，我们就停止训练。