c3d_video.pdf
针对时空特征的学习,我们提出了一个简单有效的方法,在大规模有监督视频数据集上使用深度3维卷积网络(3D ConvNets)。我们有3个发现: 3D ConvNets比2D ConvNets更适用于时空特征的学习; 对于3D ConvNet而言,在所有层使用3×3×3的小卷积核效果最好; 我们通过简单的线性分类器学到的特征名为C3D(Convolutional 3D),在4个不同的基准上优于现有的方法,并在其他2个基准上与目前最好的方法相当。 此外,特征是紧凑的:在UCF101数据集上得到52.8%的准确率只用了10维,并且由于ConvNets的推断快,计算效率非常高。最后,它们在概念上非常简
下载地址
用户评论