Transformer

模型结构：

这是Transformer的网络结构,同样继承了先前的Seq2Seq模型的encoder(左侧)和decoder(右侧)结构.
与之前的模型不同的是,Transformer中的encoder和decoder都不用RNN,而是换成了多个attention.

Encoder

pic1中的左侧就是一个Encoder.
input首先输入到input embedding中,这是NLP中的比较常规的操作.
input embedding层的输出会遇到Positional Encodeing.

Positional Encoding

这里在图上写成的是Positional Encoding,有些地方也写作Positional Embedding.
Position Embedding 被理解为补充了词向量的位置信息.
之前说了,这里摒弃了先前用的RNN形式,既然不用RNN了,仍需要一种方法来表征序列顺序.因此要引入position Encoding.

论文中PE的数学表达形式为

$PE_{(pos,2i)}=sin((pos/10000)^{2i/d_{model}})$ $PE_{(pos,2i+1)}=cos(pos/10000^{2i/d_{model}})$

其中这里pos是绝对位置,i表示维度.
显然上述编码方式能表达绝对位置编码.
但有些时候词语的相对位置也非常重要.
一些文章会引入相对位置信息,比如google大佬之后提出的self-Attention with Relative Position Representations.
具体实现

import torch
import torch.nn as nn


class PositionalEncoding(nn.Module):

    def __init__(self, d_model, max_seq_len):
        """初始化。

        Args:
            d_model: 一个标量。模型的维度，论文默认是512
            max_seq_len: 一个标量。文本序列的最大长度
        """
        super(PositionalEncoding, self).__init__()

        # 根据论文给的公式，构造出PE矩阵
        position_encoding = np.array([
          [pos / np.pow(10000, 2.0 * (j // 2) / d_model) for j in range(d_model)]
          for pos in range(max_seq_len)])
        # 偶数列使用sin，奇数列使用cos
        position_encoding[:, 0::2] = np.sin(position_encoding[:, 0::2])
        position_encoding[:, 1::2] = np.cos(position_encoding[:, 1::2])

        # 在PE矩阵的第一行，加上一行全是0的向量，代表这`PAD`的positional encoding
        # 在word embedding中也经常会加上`UNK`，代表位置单词的word embedding，两者十分类似
        # 那么为什么需要这个额外的PAD的编码呢？很简单，因为文本序列的长度不一，我们需要对齐，
        # 短的序列我们使用0在结尾补全，我们也需要这些补全位置的编码，也就是`PAD`对应的位置编码
        pad_row = torch.zeros([1, d_model])
        position_encoding = torch.cat((pad_row, position_encoding))

        # 嵌入操作，+1是因为增加了`PAD`这个补全位置的编码，
        # Word embedding中如果词典增加`UNK`，我们也需要+1。看吧，两者十分相似
        self.position_encoding = nn.Embedding(max_seq_len + 1, d_model)
        self.position_encoding.weight = nn.Parameter(position_encoding,
                                                     requires_grad=False)
    def forward(self, input_len):
        """神经网络的前向传播。

        Args:
          input_len: 一个张量，形状为[BATCH_SIZE, 1]。每一个张量的值代表这一批文本序列中对应的长度。

        Returns:
          返回这一批序列的位置编码，进行了对齐。
        """

        # 找出这一批序列的最大长度
        max_len = torch.max(input_len)
        tensor = torch.cuda.LongTensor if input_len.is_cuda else torch.LongTensor
        # 对每一个序列的位置进行对齐，在原序列位置的后面补上0
        # 这里range从1开始也是因为要避开PAD(0)的位置
        input_pos = tensor(
          [list(range(1, len + 1)) + [0] * (max_len - len) for len in input_len])
        return self.position_encoding(input_pos)

主要模块

之后将数据送入Encoder的主要模块中.可以看到图上有N×的符号,表示存在N个这样的模块.这里N=6.

解释一下这个主要模块.
可以看到这里有4个部分：1个multi-head attention和2个Add&Norm和1个FeedForward

Multi-Head Attention

实际上就是在这篇文章中提出的self attention.
所谓的multi-head就是有点像ensemble的操作,先在进入该部件的时候进行split,拆分成h个数据分别输入到h个attention部件中.之后在该模块输出口处对h个进行合并concat.
单个attention里进行的操作:

$HeadAttention_i(QW_i^Q,KW_i^K,VW_i^V)=softmax(\frac{(QW_i^Q)(KW_i^K)^T}{\sqrt{d_k}})(VW_i^V)$

事实上这里Q、K、V是相同的.

我们知道,atttion的一般性定义就是一个Q和一个V的匹配程度.这里增加了一个V作为value.
所谓的self attention就是自己和自己进行比较.
在Encoder端的self attention,就是计算输入的各个数据对当前位置上的数据的重要性(或者说attention score).
看下图

我们可以得到各个词之间的相关性.
注意：不同的head可能拥有不同的attention.

$MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O$

菜鸟学NLP（六）

Transformer

Encoder

Positional Encoding

主要模块

Multi-Head Attention

Decoder