type
status
date
slug
summary
tags
category
icon
password
comment_flag
SLUGS

Source

authors: Shao Hao, Shengju Qian and Yu Liu
from:AAAI2020

Abstract

作者思考:能否将时间信息嵌入到空间信息中,使网络能一次性的学习两个域上的信息

Introduction

视觉行为从2D图像空间发展到3D空间(多了时间维度),增加了行为表达和识别任务的复杂度;并且速度和精度要求逐渐提高。
作者调研的视频理解分三阶段:
  • 深度学习之前的时代:基于手工特征的时间特征表示(如光流)
  • 深度学习时代:神经网络为特征提取器(包含LSTM,C3D,R(2+1)D,TSM),带来另一问题,模型参数和FLOPs更大
  • 作者提出的方法:在时间维度上交错空间特征,将时间信息融合到空间特征中。保持更少的参数和FLOPs。

Related Work

  • 视频理解:
    • CNN在静态图像上有所建树,但在多了时间维度的视频上却是计算量庞大的
    • 在深度学习之前用手工特征(HOG3D,SIFT-3D,iDT等)对vid进行分类
    • 在进入深度学习时代,提出的双流以及后来的TSN网络,在不依赖时间关系的数据集(K600,UCF101,HMDB51)上分类效果好,而在依赖时间关系的数据集(Something-something,jester)上分类效果差
    • 本质上2D CNN对视频分类任务还是静态图像的分类
  • 可变形的时间建模:
    • 最近工作中的可变卷积关注于空间变形(如DCNv1),大大提高了语义分割和物体检测性能
    • Spatial Transformer Network使用全局仿射变换来学习具有平移不变性和旋转不变性的特征表示
    • TSM基于TSN在时间维度shift特征图,但只能以固定位移shift(移位一格),并且不能适应帧数不均的视频,不够灵活
    • 作者受到可变卷积的灵感,提出了一种能适应特定数据集和提取帧分布的可变移位算法
  • self-attention:视频分类中使用自注意力机制带来效果提升

Temporal Interlacing Network

TIN分为两个模块:Deformable shift module和differentiable temporal-wise frame sampling
作者通过插入TIN到残差块的conv前来融合时间信息:
notion image
将输入 变化到

Deformable Shift Module

在该模块,主要任务是分别用OffsetNet和WeightNet计算得到偏移量和权重
notion image
  • 在送入OffsetNet和WeightNet前,先平均池化:
    • OffsetNet
        1. 生成raw offset:
          1. ,,为channels的组数
        1. 缩放到:
      • WeightNet
        • 卷积层(1D卷积层的kernel size为3,kernel数量等于group数量)
        • sigmoid and rescale module(输出rescale到(0,2))
        • 初始卷积层bias:0,初始output:1.0
        •  

      Differentiable Temporal-wise Frame Sampling

      作者设计该模块是为了沿着时间维度shift特征图以融合时间信息到空间域上,作者将特征图的的通道进行移位,留下的通道不移位
      notion image
      Temporal-wise Frame Sampling:
      此步骤主要是进行线性插值,最终所有的移动或者未移动的channel会串联得到特征图(与输入的特征图具有相等size)
      其中,
      Temporal Extension:小于0大于T+1的置零 Temporal Attention:特征图乘以权重之后再串联于,由于两端的特征被移出,会加入注意力机制来re-weight特征并更好的获取长期信息。
       

      Experiment

      在Something-something V1数据集上和其他方法的对比:
      notion image
      以ResNet-50为backbone比较TSN,TSM,TIN的效果:
      notion image
       
       
      参考:
      Python之pdb调试《TSM: Temporal Shift Module for Efficient Video Understanding》笔记
      Loading...