文献阅读:Language Models are Unsupervised Multitask Learners
创始人
2024-05-20 11:34:01
0
  • 文献阅读:Language Models are Unsupervised Multitask Learners
    • 1. 内容介绍
    • 2. 模型介绍
    • 3. 实验结果
      • 1. 语言模型
      • 2. QA & 常识推断
      • 3. 生成任务
    • 4. 总结 & 思考
  • 文献链接:https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

1. 内容介绍

这篇文献就是OpenAI在2019年发表的大名鼎鼎的GPT2的文章,不过相较于GPT3,GPT2的影响力终究还是要小上不少,至少我印象中是这个样子。

而具体内容上来说,这篇文章整体上和GPT模型确实感觉好像没啥太大的差异,主要感觉还是改进了数据以及增大了模型参数量,没看出什么质上的区别……

不过这方面其实GPT3感觉也没啥太大的差别,可能真的就是more is different……

2. 模型介绍

下面,我们首先来看一下GPT2的整体模型以及训练数据。

如前所述,GPT2模型和GPT模型其实没啥本质上的差别,还是一个单向的Transformer Decoder模型,区别主要还是在训练数据以及模型的参数量上有了优化。

首先训练数据方面,这里使用WebText数据集,主要包括了800万个文件的共计40G的文本,而模型方面,其具体参数量详见下表:

在这里插入图片描述

3. 实验结果

下面,我们来考察一下GPT2的具体实验结果。

首先,我们给出整体的实验结果如下:

在这里插入图片描述

可以看到:

  • 整体来说,随着参数量的增大,zero-shot的效果在各类任务上都是不断增加的。

下面,我们来分各个子任务对结果进行考察。

1. 语言模型

首先,我们来看一下GPT2的ppl效果:

在这里插入图片描述

在这里插入图片描述

可以看到:

  • GPT2的PPL在各类数据集当中基本都达到了SOTA的结果;
  • 随着模型的增大,模型的PPL是在持续减小的。

2. QA & 常识推断

同样的,给出GPT2模型在常识推断任务当中的结果如下:

在这里插入图片描述

可以看到,其整体效果是很好的。

文中还给出了一些样例如下:

在这里插入图片描述

3. 生成任务

最后,文中还给出了生成任务的Rouge指标如下。

在这里插入图片描述

4. 总结 & 思考

综上,GPT2较之GPT模型其实没啥本质上的差别,感觉还是在优化训练数据以及扩展模型,在探索基于Transformer的LLM的极限。

从GPT2的实验来看,其结果还远没有达到极限,因此后续才会有进一步的GPT3等模型的提出。

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
一帆风顺二龙腾飞三阳开泰祝福语... 本篇文章极速百科给大家谈谈一帆风顺二龙腾飞三阳开泰祝福语,以及一帆风顺二龙腾飞三阳开泰祝福语结婚对应...
美团联名卡审核成功待激活(美团... 今天百科达人给各位分享美团联名卡审核成功待激活的知识,其中也会对美团联名卡审核未通过进行解释,如果能...