代码收藏家技术教程 2022-08-02

T5模型总结

T5（Transfer Text-to-Text Transformer）模型：一个统一框架，靠着大力出奇迹，将所有 NLP 任务都转化成 Text-to-Text （文本到文本）任务。

比如英德翻译，只需将训练数据集的输入部分前加上“translate English to German（给我从英语翻译成德语）” 就行。假设需要翻译"That is good"，那么先转换成 "translate English to German：That is good." 输入模型，之后就可以直接输出德语翻译 “Das ist gut.”。
对于需要输出连续值的 STS-B（文本语义相似度任务），
也是直接输出文本。

通过这样的方式就能将 NLP 任务都转换成 Text-to-Text 形式，也就可以用同样的模型，同样的损失函数，同样的训练过程，同样的解码过程来完成所有 NLP 任务。

论文中做的对比实验：

首先作者们先对预训练模型中的多种模型架构（Transformer）进行了比对，最主要的模型架构可以分成下面三种。


第一种，Encoder-Decoder 型
，即 Seq2Seq 常用模型，分成 Encoder 和 Decoder 两部分，对于 Encoder 部分，输入可以看到全体，之后结果输给 Decoder，而 Decoder 因为输出方式只能看到之前的。此架构代表是 MASS、BART等；


第二种，相当于上面的
Decoder 部分
，当前时间步只能看到之前时间步信息。典型代表是 GPT2 、 CTRL ；


第三种，
Prefix LM（Language Model）型
，可看作是上面 Encoder 和 Decoder 的融合体，一部分如 Encoder 一样能看到全体信息，一部分如 Decoder 一样只能看到过去信息， UniLM 便是此结构。
然后
是对预训练目标的大范围探索，
总共从四方面来进行比较。