视频理解论文串讲(上)【论文精读】
创始人
2024-04-19 21:41:52
0

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

from:https://www.bilibili.com/video/BV1fL4y157yA
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1. DeepVedio【CNN 首次 for 视频理解】

在这里插入图片描述

方法1:融合fusion
在这里插入图片描述
方法2:多分辨率 CNN 网络
在这里插入图片描述
效果

在这里插入图片描述

总结:

  • 当时手工特征最好就能达到87了,本文效果远远不如手工特征
  • 这篇文章的意义在于:【这篇文章的意义不在于它的效果】
    • 引发大家思考:深度学习在视频理解领域碰壁了
    • 提出了视频理解领域最大的数据集
    • 把能想到的融合方式都尝试了一遍,给后续工作很好的铺垫,这才有了后面几年深度学习在视频领域的飞速发展
      在这里插入图片描述

2. Two-Stream【双流网络】

在这里插入图片描述
方法:
当你用一个卷积神经网络无法很好处理时序信息的时候,
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大幅提高了性能,证明了双流网络的成功,迅速就有很多工作跟进了…
我们其实单从这个图里就能看到,比较容易想到的想法

  • fusion?怎么做early fusion? 中间fusion?
  • 替换 backbone,如何在小数据集上 控制过拟合?
  • 在抽出来的特征之上,再加LSTM,把它们之间的这些时序信息模拟起来 ,最后得到的特征更强
  • 长时间视频理解?

针对上面不同方向,有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

现在深度学习时代,用CNN去抽特征,关键是 如何做pooling操作?这篇论文里做了非常详尽的探索,还做了ConvPooling,latePooling…,最后的结论都是差不多,ConvPooling表现最好

在这里插入图片描述
如何使用LSTM?

  • C是最后抽出来的特征

在这里插入图片描述
效果:

  • LSTM没有那么有用…
    在这里插入图片描述

手工87.9,双流网络88.0,本文在双流网络上做的所以效果要比他好,88.2,88.6,只好了1点点,LSTM带来的提升非常有限

在这里插入图片描述
朱毅老师对此现象的解释:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

Early fusion方向【Convolutional fusion】

关键词:fusion
这篇文章,非常细致地讲了,如何做这种 fusion,如果在两个流之间做fusion

在这里插入图片描述

Spatial fusion【空间维度】

在特征图上

在这里插入图片描述

接下来的问题是说,到底在网络的哪个部分做fusion呢?
到底是偏前面的层conv1,conv2,还是偏后面的conv4,conv5?还是最后的分类层fc6,fc7?

两个方法:
在这里插入图片描述

如何做temporal fusion?

在这里插入图片描述

最后作者得出的方案:

在这里插入图片描述

效果:

  • 尝试1:backbone 换成 VGG,提升还是明显的

在这里插入图片描述

这篇文章的贡献: 1. 详尽的消融实验探索;2. 使用了3D CNN,变相推动3D CNN的发展
【启发:一篇文章的效果不只是看结果好不好,一些探索实验能否给后来研究者一些探索,启发等… 和第一篇论文很像,虽然结果不好,但是做了很多 探索实验】

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

长视频 【TSN temporal segment 分段的思想,good work】

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

方法:分段

想法非常简单, 给 视频分段 的思想,good work

在这里插入图片描述

好用的技巧:

  • 光流 模型初始化【RGB做平均复制20份】:
    • 在这里插入图片描述

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

  • 第二个技巧:模型正则化
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  • 第3个技巧:数据增强

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
效果:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

总结

在这里插入图片描述


没整理完,,,转移到本地了,加上whisper的翻译…

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
客厅放八骏马摆件可以吗(家里摆... 今天给各位分享客厅放八骏马摆件可以吗的知识,其中也会对家里摆八骏马摆件好吗进行解释,如果能碰巧解决你...
苏州离哪个飞机场近(苏州离哪个... 本篇文章极速百科小编给大家谈谈苏州离哪个飞机场近,以及苏州离哪个飞机场近点对应的知识点,希望对各位有...