Word2Vecf——Dependency-Based Word Embeddings and Lexical Substitute

Summary

如文章题目所述,这是一种基于依赖关系的词嵌入。它是一种更广义的用negative sampling的skip-gram模型,并且能处理任意上下文,而且其生成的嵌入不像原始的skip-gram那样具有较少的局部性和功能相似性.虽然”A Simple Word Embedding Model for Lexical Substitution”中介绍的方法正在使用广义skip-gram模型生成的结果来处理词汇替换任务.这里的方法新颖之处在于明确地利用了在skip-gram模型中生成的上下文嵌入,这些嵌入目前为止仅被视为学习过程的内部组件。

本文的目的是寻求一种能够捕获单词之间的语义和句法相似性的表示。原始的Skip-gram模型中的上下文的词袋性质产生了广泛的主题相似性，而基于依赖性的上下文产生了更多功能相似性的协同性质。

Dependency-based Word Embeddings

本文提出了一种用negative sampling 的改进的skip-gram模型，能处理任意上下文.

Skip-gram MODEL

符号统一如下:
$W$表示单词词汇表,$C$表示上下文词汇表,d表示向量维度,w表示词汇表中的一个单词w,c表示上下文词汇表中的一个上下文，$v_w$和$v_c$分别表示单词词向量和上下文向量,D表示单词w和单词c的组成的(w,c)的数据集,它们大量的出现在文本中(换句话说,词汇表中D中的单词w只有一个上下文c,因此它可看成unigram)

在skip-gram模型中,每个单词w∈W,并关联于一个向量$v_w∈R^d$并且类似的每个上下文c∈C也被表示为一个向量$v_c∈R^d$.向量表示的实体是潜在的,并且被视为一组能被学习的参数,作者目标是寻找单词和上下文的向量表示,使得点乘$v_w·v_c$最大化来得到好的”word-context”对.

举个栗子:考虑一个单词-上下文对(w,c),来自数据集中的(w,c)可以用P(1|w,c)来表示概率，然而如果(w,c)不再给定的数据集中则用P(0|w,c)=1-P(1|w,c)来表示概率,这是negative sampling的观点,这也是一个二值分类问题.注意$P(1|w,c)=\frac{1}{1+exp(-v_w^T·v_c)}$并且$v_w,v_c$是学习到的模型参数.因此,目标是最大化观察到的词对属于数据集的log概率,得到如下目标函数

$argmax_{v_w,v_c}\sum_{(w,c)∈D}log\frac{1}{1+e^{-v_w^T·v_c}}$

扩展目标变为:

$argmax_{v_w,v_c}(\sum_{(w,c)∈D}logP(1|w,c)+\sum_{(w,c)∈D'}logP(0|w,c))$

D’是负样本能通过多种方式得到.一般采用以下方法,对于每个(w,c)∈D,构建n个采样：$(w,c_1),..,(w,c_n)$其中n是超参数,并且每个$c_j$被构造来源于unigram分布的$(\frac{3}{4}次方)$

该目标函数被训练通过SGD算法在语料库D∪D’上更新.优化该目标函数使得观察到的word-context对有相似的embeddings,然而未观察到的对是分散的.直觉上,出现在类似上下文中的单词应该有类似的嵌入.

Dependency-based Context

在原始的skip-gram模型中,单词w的上下文是在文本中出现在单词周围的.因此上下文词汇表C是等价于单词词汇表W.然而,上下文需要对应于单词并且上下文类型的数目是比单词类型数目大很多的,所以作者一般化了skip-gram通过用任意上下文(arbitrary context)来代替词袋上下文(bag-of-words contexts),即基于依赖性句法的上下,他与词袋上下文相比能捕获不同信息.如下例:

$Australian scientist discovers star with telescope.$

对于词袋上下文，例如通过将窗口设置为等于2,”discovers”的上下文是”Australian”,”scientist”,”star”和”with”.以2为窗口大小将会丢失一些重要的上下文,像”telescope”,并且会包含一些意外的上下文,像”Australian”.此外,上下文没有标记,导致”discovers”成为”stars”和”scientist”的上下文,这样会造成”stars”和”scientists”最终在嵌入空间中作为邻居.通过将窗口设置为等于5,他能够捕获广泛的主题内容,但可能削弱关于目标词的所关注信息的重要性.

对于基于上下文依赖的上下文,词袋方法的替代方法是基于词参与的句法关系来派生上下文.这种类型的上下文可以通过一些parsing技术来导出.在parsing sentence之后，导出单词上下文是:对于一个具有修饰符$m_1,…,m_k和头部h$的目标单词w,考虑上下文$(m_1,lbl_1),…,(m_k,lbl_k),(h,lbl_h^{-1})$其中lbl是头部和修饰符之间的依赖关系的类型(例如,nsubj,dobj,amod等等)和$lbl^{-1}$被用于标记逆关系.

在上下文提取之前,包含介词的关系被”折叠”,通过直接连接介词的头部和宾语,并将介词本身包含在依赖性标签中.基于依赖性上下文,能捕获与其相聚很远的单词之间的关系,因此可以通过小窗口词袋(如discovers和telescope)来out-of-reach并且滤掉窗口内的意外上下文(与目标词没有直接关系。因此,这种句法上下文可以产生更集中的嵌入(embedding)并捕获更多功能和更少的主题相似性.

因此,这是基于依赖性的词嵌入的一般思想,为了构建这种改进的skip-gram模型,作者将初始参数设置保留在原始的skip-gram模型中,并且在使用语料库训练词向量之前,预处理是需要的,也就是说基于依赖性的上下文提取,并且预处理也构建了word和context的词汇表.

注意，句法依赖性比词袋更具包容性和更集中。它们捕捉到相距很远的词语的关系，因此用小窗口的词袋“无法触及”（例如discover的仪器是telescope/prep_with），并且还过滤掉窗口内的“偶然”上下文但与目标词没有直接关系（例如，Australian不被用作discover的上下文）。此外，上下文被分类，表明，例如，stars是discovery的宾语，scientists是主语。因此，我们期望语法上下文产生更集中的嵌入，捕获更多功能和更少的主题相似性。

Lexical Substitute

词汇替换任务被用于评估上下文敏感的词汇推理模型。在这些任务中,系统需要预测目标单词实例的替代,其保留了其在给定句子上下文中的含义.为了应对这一挑战,近年来提出了几种模型,如基于稀疏语法的向量模型,概率图模型,LDA主题模型,这些模型通常生成一个单词实例表示,偏向其给定的上下文,然后确定替代基于它们与这种有偏见的表示的相似性的单词.

(In this paper, the author directly utilize the skip-gram model with dependency-based context for the context-sensitive lexical substitution by make use of the learned context embeddings in conjunction with the target word embeddings to model target word instances, instead of discarding them. The suitable substitute is identified via its combined similarity to the embeddings of both the target and its given context. The model supposes that a good lexical substitute for a target word instance under a given context needs to be both semantically similar to the target word and compatible with the given context.)
在本文中,作者通过利用学习的上下文嵌入与目标词嵌入来模拟目标词实例,而不是放弃它们.直接利用具有基于依赖性的上下文的skip-gram模型进行上下文敏感的词汇替换.通过其与目标及其给定上下文的嵌入的组合相似性来识别合适的替代物.该模型假设在给定上下文下对目标实例的良好词汇替代需要在语义上与目标词相似并且与给定上下文兼容.

以上是一个例子,等价替换在句法上下文dobj_company下目标单词acquire,可视化在二维嵌入空间中.即使learn是最接近acquire的单词,单词buy是非常接近acquire和上下文dobj_company并且被认为是更好的替代品.

为了满足假设,模型使用二阶目标到目标(a second-order target-to-target)相似性度量来估计替代词和目标词之间的语义相似性,并使用一阶来估计替代词与给定上下文的兼容性目标到上下文的相似性度量.在数学上,该模型包含四种方法,它们被定义为:

$Add=\frac{cos(s,t)+\sum_{c∈C}cos(s,c)}{|C|+1}$ $BalAdd=\frac{|C|·cos(s,t)+\sum_{c∈C}cos(s,c)}{2·|C|}$ $Mult=(pcos(s,t)·\prod_{c∈C}pcos(s,c))^{\frac{1}{|C|+1}}$ $BalMult=(pcos(s,t)^{|C|}·\prod_{c∈C}pcos(s,c))^{\frac{1}{2·|C|}}$

其中C是上下文句子中的目标单词的上下文元素的集合并且|C|表示上下文元素的数量,c表示单个上下文元素,pcos(v,v’)=$\frac{cos(v,v’)+1}{2}$被用于避免负值,s时词汇替代,t是目标词。实际上,我们可以从公式推导出目标到目标和目标到上下文的相似性都是通过向量余弦距离来估算.

这四种方法是上下文敏感的可替代性度量，用于估计在给定的句子上下文中词汇替代词对目标词的适合性。此外，Add和BalAdd称为算术平均值Mult和BalMult称为几何平均值.

Model Introspection

神经词嵌入通常被认为是不透明且不可解释的，不同于稀疏向量空间表示，其中每个维度对应于特定的已知上下文，或者LDA模型，其中维度对应于潜在主题。虽然这在很大程度上是正确的，但我们观察到Skip-gram确实允许进行非常少量的内省。虽然我们不能为任何特定维度赋予意义，但我们确实可以通过检查哪些上下文被目标词“激活”来瞥见模型捕获的信息类型。

回想一下，学习过程试图对好的词对(w,c)的点乘积$v_c·v_w$最大化，并对那些不好的词对(w,c)进行最小化。如果我们保留上下文嵌入，我们可以在模型中查询最常被（具有最高点积）给定目标词激活的上下文。通过这样做，我们可以看到模型学到的东西是这个词的良好判别上下文。

为了演示，我们在表2中列出了嵌入DEPS的示例单词的5个最活跃的上下文。有趣的是，在这些情况下，最具辨别力的句法语境与动词的主语或宾语(或其反义词)无关，而是与连词、同位语、名词和形容词修饰语有关。此外，折叠的介词关系是非常有用的(例如，用于捕捉school aspect of hogwarts)。许多连接上下文的出现，如superman/conj对于batman，和singing/conj对于dancing，可以解释功能相似性;自然语言中的连词倾向于使它们的连词具有相同的语义类型和词形变化。

Conclusions

我们提出了Skip-gram嵌入模型的推广，其中线性bagofwords上下文被任意替换，并且基于依赖性的上下文进行了实验，表明它们产生了明显不同的相似性。这些结果是预期的，并遵循分布语义学文献中的类似发现。我们还演示了如何针对给定单词的判别上下文查询得到的嵌入模型，并观察到学习过程似乎偏向于相对局部的句法上下文，以及介词的连词和宾语。我们希望这些见解将有助于进一步研究改进的上下文建模，可能是特定于任务的嵌入式表示。文中的软件，允许在任意上下文中进行实验，以及本文中描述的嵌入，可以在作者的网站上下载。