FakeSV代码地址:https://github.com/ICTMCG/FakeSV FakingRecipe代码地址:https://github.com/ICTMCG/FakingRecipe
- 大家好,今天给大家分享这两篇论文,第一篇叫做FakeSV,SV的意思是Short Video,也就是抖音快手那些短视频。这篇文章发表在AAAI 2023,作者来自于中科院。下面这篇文章叫做FakingRecipe,Recipe的意思是食谱。这两篇文章的作者来自于同一个团队,然后做的都是同样一个任务,短视频虚假信息检测。
- 我首先介绍一下这个任务,从模态的角度来讲,相比于之前传统的图文虚假新闻检测,视频有着更多的模态特征:文本,视觉,音频,社交上下文等等。模态多的同时,这些模态是高度异质的,那这是这个任务的第一个挑战。
从信号的角度来看,可能会面临两种伪造,这两种伪造都会留下一定的痕迹。另一种是编辑,这种可以加水印主动检测,也有一些被动检测的方法。那对于生成伪造,一般通过检测相机指纹,生物信号等等方法。
从语义的角度来讲,不同模态的信号首先有着各自的语义特征,那现在也有很多基于跨模态一致性的检测方法。那如果发生了不正确的语义改变,就定义为虚假。
从传播的角度看,还可以基于一些社交上下文,比如用户的评论和点赞之类的信息。现在的视频平台的内容分发都是推荐系统主导,也带来了一些新的挑战,这也是一个挑战。
那这里面其实还有一个问题,就是说随着剪辑视频的门槛越来越低,我们越来越难以去区分一个经过剪辑的视频到底是艺术创作还是虚假新闻视频。这也带来了边界不确定的挑战。
前面讲了这个任务的第一部分,也就是特征提取部分。第二部分是特征融合部分,也可以分为两类,一种是并行,一种是串行。并行的比较典型的就是拼接,注意力之类的。串行的就是把各个模态的信息按照一定顺序融合在一起。
- OK,那我们介绍一下这篇文章的第一个贡献,就是一个新的数据集。这个数据集号称是现在国内最大的短视频虚假新闻检测数据集,相比以往的数据集也有一些优势,数据量更大,模态更多,涉及的领域更广。后面一篇文章也做了类似的英文数据集。
- 那这个数据集是如何构建的呢?首先通过爬虫去一些官方辟谣网站上爬带“视频”这个词的文章,用正则表达式获取关键句子类似左图里的句子,之后通过Bert编码,Kmeans聚类,去重以后得到800多个事件,再通过事件去各个视频平台上去爬,视频、封面、题目等等等。
然后手工标注数据,他们弄了一个标注系统,然后请组内的同学帮忙弄的。
右边是数据集的在标签和年份上的分布。
- 那这么多模态,是不是每个模态都有用呢?作者也进行了一系列的数据分析。首先,文字、视频、音频模态是肯定有用的,真假新闻文字模态的词云分布很不一样,真新闻视频帧的质量更高一些,音频上真新闻的情感偏向于中立。
那在社交上下文这一块,因为作者也强调了新加了这个模态,可以发现发布者的社交上下文也有很大区别。不考虑粉丝数量的话,一般是真新闻的点赞数量更多,但是当粉丝数量一样时,假新闻点赞数更多。
然后就是介绍这个模型本身。模型可以说很简单,这几个特征提取器也是各个模态里比较经典的常用的。因为文本模态信息量一般来说比较大,而且与其它模态的关联性比较强,所以它经过了两个跨模态Transformer去和其它两个模态的特征做了相互的数据增强。
最后这个公式是对于评论的,会用点赞来做一个加权,这是这篇文章里面唯一一个公式,也不太用解释其实。
然后来看实验结果, 在主实验中,由于是一个二分类任务,研究者将多个模型和方法进行四个指标(正确率、F1值、精确度和召回率)的比较。
然后做了各个模态的消融实验,证明了各个模态都有作用。
针对素材挑选这个行为,把音频和文本一起丢进transformer耦合情感特征,让文本和关键帧做交叉注意力捕捉语义不一致性。
针对素材编辑这个行为,首先是空间域上,找到一些字多的帧,用OCR提取文本框,送到SAM的提示词编码模块。这个2way-attention模块就是会有双向的注意力。再经过一个下采样网络。在时域上,首先会把视频分为好多个片段,然后对这些分段的文本和帧进行处理,以帧为例,片段内首先会有一个自注意力和平均池化的过程,让后会给这个片段特征加上持续时间编码和位置编码。这里的持续时间编码是作者自己想的一个公式,位置编码就是普通Transformer里的sincos编码。加上这些的好处在于,可以更好地获得不同片段之间的相互关系,建模时序关系。
最后时空域的特征一起经过MLP得到一个素材编辑评分。
这篇文章的结果也是不错的,大部分指标都比之前那篇文章要好挺多。反倒是在他自己的数据集上提升没有那么明显。
从消融实验可以看出各个模块也都是有起作用的。这个时域模块的作用好像小一点。
那它也是把这个编辑感知模块单独拿出来做了消融,加到之前的模型上,发现确实有提升。