|
|
51CTO旗下网站
|
|
移步端
创造专栏

基于RGB视频数据的吃水行为分类模型发展综述之一

了解视频中的人体行为在视频监控、机动驾驶以及安全保护等世界有着广大的使用前景。

笔者:中华保密协会科学技术分会| 2020-02-06 15:31

摘要:

了解视频中的人体行为在视频监控、机动驾驶以及安全保护等世界有着广大的使用前景。脚下视频中的人体行为分类研究是对分割好的视频片段进行单人的所作所为分类。对视频中的人体行为分类研究已经从最初的几种简易人体动作到几乎包含所有普通生活之几百类行为。最近来基于RGB视频数据的红旗深度行为分类模型可以分为三类:基于双流架构的、基于循环神经网络RNN的和基于3D卷积神经网络的。本文将详细介绍前两种深度行为分类模型。

一、视频行为分类

眼前人体行为识别的研讨重点分为两个子任务:作为分类和时序行为检测。作为分类一般是对分割好的视频片段进行行为分类,每一个视频片段仅包含一个作为实例。然而,具体生活中多数视频都是未分割的长视频,故此时序行为检测任务从未分割的长视频中检测出行为的起始、结束时间以及表现类别,一段长视频中常见包含一个或多个行为实例。作为分类是时序行为检测的根基,时序行为检测是比行为分类更复杂的研讨任务,作为分类的经典模型(如TSN,C3D,I3D等)也把广大用于时序行为检测任务当中。如今视频中人体行为识别的研究工作大部分都致力于提高行为分类模型的性质,并且研究最常见的是对单人行为的鉴别。

二、评估数据集

对于数据驱动的吃水学习方法来说,巨大的视频数据量显然能够提升模型的性质。本文选用了流行且规模更大视频数据集kinetics,来分别比较流行的基于RGB视频输入数据的所作所为分类模型的性质,同时也采取典型的视频数据集UCF101, 赞助分析和比较经典的吃水行为分类模型。UCF 101和Kinetics数量集的评分度量标准都是是平均精度均值(mAP)。在对视频中的行为进行分类时,每一个视频片段都会预测一个作为标签。假设有C个行为类别,每个视频片段都对应一个有C个因素的列表,每个元素代表着该视频属于行为c的概率,并将C个项目标签按照概率值从高到底排序。假设一共有n个视频片段,并取一个视频片段的预测得分列表中的前k个值,P(k)离别是类别标签排名在未来k的预测概率值,rel(k)是指示函数,表明第k个标签是否是真阳性(true positive),如果是则为1,否则为0。故此,某个行为类别的平均精度(AP)的算计方法是

平均精度均值(mAP)是全部类别的平均精度求和后再取均值。

UCF 101数量集一般只取预测概率最高的竹签作为预测标签(k=1,top-1)。而Kinetics数量集中,细粒度的所作所为类别划分导致一个视频片段可能包含多种动作。例如,开车”时“发短信”,“弹奏尤克里里”时“跳草裙舞”,“舞蹈”时“刷牙”等等。故此在Kinetics数量集上开展评估时,普通选择得分最高的明天5个标签作为预测的所作所为类别标签(k=5,top-5)。本文在比较模型的推理速度时,适用了两个评价指标。一度是每秒帧率(FPS) ,即每秒模型可以处理的视频帧的多寡。另一番是每秒浮点运算次数(GFLOPS)。本文中表现的GFLOPs指标均采取32帧的视频片段作为模型的涌入数据。

三、深度行为分类模型

在视频人体行为分类的研讨中,第一且具有开创性的一个问题是如何从视频的工序维度上拥有人体的活动信息。基于RGB视频的吃水学习方法根据时序建模方式的不同足以分为基于双流架构的,基于循环神经网络(RNN)的和基于3D卷积神经网络的。最初将深度学习方法扩展应用于RGB视频中的一个经典尝试是,推而广之2D卷积神经网络形成双流架构,离别来获得视频帧的蓝天特征以及帧间的活动特征。之后有研究将循环神经网络(RNN)与卷积神经网络(CNN)重组,计划学习更全局的视频时序信息。考虑到视频本身是多了岁月维度的3D干,3D网络则直观地采取3D卷积核来获得视频的空时特征。该署基于RGB视频的所作所为分类方法主要关注两线:(1)如何在视频中索取出更具有判别力的奇观特征;(2)如何获得时序上视频帧外观的变动。在介绍这类深度学习之主意之前,不得不首先讲话一下经典的手工提取特征的主意iDT(improved Dense Trajectories)[1],是深度学习应用到视频领域之前性能最好的主意,他通过光流追踪图像像素点在岁月上的运动轨迹。该方法有个很大的缺点是拥有的性状维度甚至比原视频还要高,计算速度非常慢。最初的吃水学习之主意在和iDT重组的后都能取得一定的功力提升。开拓进取到今天,深度学习方法在视频行为分类上的性质已较iDT有大幅提升。1、双流架构2014年Karpathy [2]等人口利用两个挺立流分别获取低通胀率帧和高出油率的性状,在岁月上采取慢融合的措施扩大了方方面面卷积层在岁月上的连通性,这是将CNN扩展到视频行为分类的利用,但人家性质与俗艺术iDT还有一定的区别。Simonyan首先提出基于光流的双流(two-stream)架构,离别使用视频帧和帧间的荣耀流图像作为CNN的涌入。该方法可以说是CNN扩展到视频行为分类的第一奇异成功之尝试,在UCF101上的精度达到了88%,优化手工特征提取的主意iDT。重组光流输入的双流架构的优良表现激发了连续对广大基于双流架构的改良。双流融合法(Two-stream Fusion) [3]在双流架构的基础上,采用VGG-net深度模型作为主干网络,并提出在最后一个卷积层后融合特征比在全连接层之后融合特征的功力要好。考虑到这两种双流方法无法对老时序结构建模,时序上一次仅能处理连续10帧的堆叠光流场,空域则仅处理单帧图像。时序分割网络(TSN) [4]则直接对整段视频建模,在时序上将整个视频分段(segment),说到底融合不同片段的项目得分,来获得长期的工序特征,融合后的预测结果是视频级的预测,在UCF 101数量集上的精度达到了94.2%。TSN的模子如图1所示。

希冀 1 时序分割网络(TSN)模型架构

TSN在UCF 101数量集上的性质表现已经非常优越。Lan等人口[5]谈起深度局部特征(DVOF),在TSN模型的基础上利用深度网络提取局部特征,名将聚合局部特征形成的大局特征输入到浅层网络进行分类,来纠正一些特征学习到的错误的所作所为标签信息。时序关系推理(TRN)[6]是2017年MIT周博磊大神基于TSN改善的一个很具有建设性的研究工作。TRN在岁月维度上能够提取不同规格的视频特征,下一场使用多层感知机(MLP)融合不同时间尺度的帧间联系,用于学习和推理视频帧之间的年华依赖关系。该方法在UCF101上的性质提高并不明朗,这是因为UCF101中的视频数据表示的动作在晴空上的上下文关联更强,但是论文在时序上下文相关性更强的Something-Something[]视频数据集上验证了TRN意识视频中时序关系的力量。基于光流的双流架构展现了优化的性质,然而光流的算计需要消耗很大的算计资源。也有办法尝试能够代替光流表示运动信息的主意,Zhang等人口[7]谈起计算运动矢量(motion vector)来代替光流作为CNN的涌入,推理速度能达到每秒390.7帧,笔者将光流CNN官方学习之性状和胆识迁移到运动矢量CNN中期望能弥补运动矢量在细粒度和噪声上的欠缺,但是最终模型在精度上还有很大的献身。上述双流方法在UCF101数量集上的性质如表1。

表面 1 双流架构在UCF101数量集上的性质对比

2、RNN网络CNN是数一数二的明天馈神经网络,上述基于CNN网络的模子一次仅能处理有限的视频帧,如典型的TSN拍卖一次拍卖10个视频帧并通过时序聚合方式获得更长远的视频级的预测,C3D则一次拍卖16帧,I3D则是一次拍卖64帧图片。然而在现实存在中,有的是常见的人类行为比如握手,饮酒,通信,或步行、游泳等重复动作的所作所为通常持续数十秒跨越数百个视频帧。循环神经网络(RNN)的循环结构,能够将先前的消息连接到目前任务,兴许信息长期生活,故此可以很好地对序列结构建模。然而早期的 RNN网络不能对老的依赖关系进行建模,也未能在很长一段日子内存储关于过去输入的消息。理论上讲一下足够大的RNN有道是能够建模任意复杂度的队,然而在训练RNN时会出现梯度消失和准确度爆炸问题。RNN网络的变体,长短期记忆网络(LSTM)则解决了这个题目。LRCN[8]名将LSTM用于在岁月序列上对2D卷积网络提取的帧特征建模,意识这样的网络结构显著增强了这些动作持续时间长和动作的常态外观易混淆的所作所为分类精度。Ng[9]等人口可比了特色池化和LSTM两种时序聚合方式,名将CNN进出口的帧级特征聚合成视频级,表明在重组视频序列中长期的消息可以实现更好的视频分类,舆论中也越过双流架构分别使用RGB和荣耀流图像作为输入。Sharma 等人口[10]竞争性地在基于LSTM的网络中引入了听力机制,谈起了soft-attention LSTM,该模型让网络能够关注视频帧中与表现类别相关的海域。VideoLSTM[11]则是在soft-attention LSTM的基础上堆叠了一番RNN用于运动建模并且装配了提高版的穿透力模型,然而复杂的模子结构并没有明确地增进性能。上述模型都是利用了CNN+LSTM的样式,采用CNN提取视频帧特征,合同LSTM直接聚合多个视频帧来获得视频时序上的依赖关系。然而,穿过这样的措施学习到的活动隐含地假设了视频中的运动在不同之蓝天位置上是一成不变的。Sun[12]等人口提出了Lattice LSTM(L2STM),穿过学习记忆单元在不同空间位置的独立隐藏状态转换来扩展LSTM,有效地增强了岁月上动态建模能力。上述基于RNN网络的视频中人体行为分类方法在UCF 101数量集上的精度如表2所示。

表面 2 在UCF101数量集上比较RNN作为分类模型

【编纂推荐】

  1. 副死亡线发展到承载万物连接,有野心有实力的锐捷
  2. DBA工作发展的路:云化、扮演“IOE”等挑战之下,DBA名将何去何从?
  3. 品高云发展侧记
  4. 无形化技术引领下一代测试行业发展新方向
  5. 京赛通研究院院长梁金千带你洞察数据安全技术进步趋向
【义务编辑: 武晓燕 TEL:(010)68476606】

点赞 0
  • 视频数据  列入模型  开拓进取
  • 分享:
    大家都在看
    猜你喜欢
  • <ol id="2834ec1c"></ol>


      1.