Transformer Fusion for Indoor RGB-D Semantic Segmentation
创始人
2024-02-11 14:42:40
0

如何聚合多尺度特征这是一个问题,现有的方法大多通过卷积来实现,而很少在特征融合的地方使用长距离依赖,因此对于大物体的分割就会有挑战。本文提出基于transformer的融合策略,来更好的建模上下文。
TransD-Fusion包含①:一个自完善,②:交叉矫正和③:深度引导融合,还有一个④语义位置编码来将注意力限制到相邻的像素。
当前模型融合有三个挑战,分别为多模态融合,每个模态含噪声,特征对齐。
在这里插入图片描述
现在大多的融合方法还是逐像素融合,限制了情景化的线索(上下文信息),导致结果遇到了瓶颈。
transformer通过Q和K之间的关系建模全局的注意力,我们可以将内在的q和k之间的关系,延伸到跨模态的关系。(说明:平时的transformer通过对patch embedding进行三个线性投射形成的,操作的对象是token,即一个token序列形成了三个qkv,而跨模态的qkv则是qk或者v其中一个来自于其他的模态进行注意力计算)。因此这是一个很自然的方法去聚合RGB-D特征。

通过利用上下文信息(transformer获得的),我们就可以处理表面比较形似的物体而深度值是不同的。

①通过transformer注意力实现的,②为了通过互补信息来完善每个模态。③为了有效的分割物体。④产生category-aware的位置编码。

模型框架:
在这里插入图片描述
包含主分支和附属分支这种双流encoder,首先Depth转换为HHA,然后和RGB进行concat,接着分别送入swin transformer中。
在这里插入图片描述
将产生的结果图经过卷积来减少维度,然后新的特征图进一步进行展平。输入到transformer fusion中。
在这里插入图片描述
三步:自注意力,通过交叉注意力进行双向矫正,深度引导的query进行分割。
首先看第一步:
在这里插入图片描述
多头自注意力,和普通的transfor一样的。
在这里插入图片描述
各个分支进行多头自注意力,然后与本身相加。Px是位置编码。
在这里插入图片描述
第二步:交叉完善
在这里插入图片描述
为了消除单模态的模糊,区别于之间的双注意力,作者提出的基于transformer的交叉完善。
RGB分支的Q来自深度分支,因此他自带深度的位置编码,k和v来自自身,带RGB的位置编码。
在这里插入图片描述
第三步:深度引导的融合
深度产生的结果作为query来进行跨模态的注意力。
在这里插入图片描述
用公式表示为:
在这里插入图片描述
语义位置编码:
从低层次即分辨率的特征图来充分应用空间分辨率。
具体操作:将两个序列reshpe为图片,然后通过卷积投射到高维,然后再通过两个3x3卷积增加序列的局部信息。和CPVT有些类似和CVT也有些类似,即将卷积引入到位置编码中。
在这里插入图片描述
实验:SOTA
在这里插入图片描述
可视化:
在这里插入图片描述
消融实验:自行分析

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
客厅放八骏马摆件可以吗(家里摆... 今天给各位分享客厅放八骏马摆件可以吗的知识,其中也会对家里摆八骏马摆件好吗进行解释,如果能碰巧解决你...
美团联名卡审核成功待激活(美团... 今天百科达人给各位分享美团联名卡审核成功待激活的知识,其中也会对美团联名卡审核未通过进行解释,如果能...