【学习】domain adaptation、BERT

创始人

2024-05-04 20:41:33

0次

文章目录

一、domain adaptation领域适应
- domain shift
- domain adversarial training![在这里插入图片描述](https://img.pic99.top/cnyincai/202405/4244e60d82875ea.png)
- domain generalization
二、自监督学习
- 多语言BERT的跨语言能力
- 交叉学科能力
- 用人工数据进行预训练

一、domain adaptation领域适应

在这里插入图片描述
训练资料和测试资料分布不一样。
域转移domain shift:训练和测试数据有不同的分布。

domain shift

在这里插入图片描述
想法:通过源数据训练模型，然后通过目标数据微调模型
挑战:只有有限的目标数据，所以要小心过度拟合

domain adversarial training

希望他们的分布没有差异
在这里插入图片描述

右边的好一点，可以让他们远离界限，下面就是这种做法

domain generalization

没有未知领域的资料
在这里插入图片描述

二、自监督学习

在这里插入图片描述

多语言BERT的跨语言能力

在这里插入图片描述

无视不同语言的差别，了解语义。

在这里插入图片描述

MRR分数越高越好

实际上BERT在做QA的时候用的是同一种语言，可以看出语言之间是有差异的，只是没找到。

我们找到英文和中文符号之间的平均之后，得到差距，就能互换了

交叉学科能力

在这里插入图片描述

BERT在优化和generalization上都做的好

但是还是要有文字语音对应的资料

有没有可能只有语音资料呢？

训不了
把VQ进行离散化，加入自注意，不行：

把这些符号换成文字，可以实现：

用人工数据进行预训练

在这里插入图片描述

通过生成不同规则的人工数据，可以知道前期训练成功的关键因素是什么。

在这里插入图片描述

人工数据的预培训：与从头开始培训相比，平均绝对改进(%)
随机令牌上的预训练产生与从头开始训练相同的性能，没有用
成对资料有用：

产生连续编号的序列，打乱之后掩码，做的也比较好。

到底什么能力对NLP任务是有用的呢？
与从头开始培训相比，平均绝对改进(%)：
在这里插入图片描述
长序列对于任务是有用的。

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：Easy-Captcha验证码生成以及校验（简单易懂）

下一篇：GDB无法debug的错误

相关内容

热门资讯

喜欢穿一身黑的男生性格（喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识，其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...

网络用语zl是什么意思（zl是... 今天给各位分享网络用语zl是什么意思的知识，其中也会对zl是啥意思是什么网络用语进行解释，如果能碰巧...

发春是什么意思（思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思，以及思春和发春是什么意思对应的知识点，希望对各位有所帮助，...

苏州离哪个飞机场近（苏州离哪个... 本篇文章极速百科小编给大家谈谈苏州离哪个飞机场近，以及苏州离哪个飞机场近点对应的知识点，希望对各位有...

为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?，以及为什么酷狗下载的歌曲不是...

家里可以做假山养金鱼吗（假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识，其中也会对假山能放鱼缸里吗进行解释，如果能碰巧解...

四分五裂是什么生肖什么动物（四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物，以及四分五裂打一生肖是什么对应的知识点，希...

华为下载未安装的文件去哪找（华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识，其中也会对华为下载未安装的文件去哪找到进行解...

怎么往应用助手里添加应用（应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识，其中也会对应用助手怎么添加微信进行解释，如果能...

客厅放八骏马摆件可以吗（家里摆... 今天给各位分享客厅放八骏马摆件可以吗的知识，其中也会对家里摆八骏马摆件好吗进行解释，如果能碰巧解决你...