77百科网
当前位置: 首页 生活百科

opencv算法学习(2022视觉算法双竞赛收官)

时间:2023-06-01 作者: 小编 阅读量: 1 栏目名: 生活百科

其中,网易、字节跳动、美团分别以AUC0.9938分、0.9913分、0.9879分荣获该竞赛的前三名,下文将对三个优秀方案展开详细解读。该方案可以准确的检测出现有的各种类型的深度伪造攻击,并且在未知伪造类型的检测中取得了良好的表现。最终,该团队以AUC0.99386和0.98928的成绩包揽了初赛和复赛两阶段的第一名。

由 IEEE 举办的计算机视觉和模式识别领域的世界级学术顶会 CVPR,每年都会吸引全球众多专业人士参与,不仅是学者展示前沿科技成果的会议,也是各界探索学术应用的平台。

作为人工智能技术领域的深耕者,蚂蚁集团携手 CVPR22 the 17th IEEE Computer Society Workshop on Biometrics,并联合国内外知名高校及行业权威机构,在阿里云天池平台举办了 Workshop 双竞赛。

比赛共吸引全球 1300 余支队伍报名参赛,最终,来自华中科技大学、上海科技大学、南京理工大学的团队获得「宠物生物特征识别竞赛」的前三名,来自网易、字节跳动、美团的团队获得「图像篡改检测竞赛」的前三名。

双赛道并行 共同探索计算机视觉技术革新之道

赛道一:宠物生物特征识别竞赛

随着宠物经济的迅猛增长,AI 技术赋能宠物产业也逐渐成为了业界关注的热点,例如通过技术手段进行宠物身份认证,在宠物管理、交易、医疗、保险等诸多应用场景中具备重要社会与经济价值。为此,蚂蚁集团联合复旦大学人工智能创新与产业研究院推动举办宠物相关的系列学术竞赛,旨在鼓励技术创新,以解决真实场景下的宠物犬身份认证难题。其中,华中科技大学、上海科技大学和南京理工大学分别以 AUC 0.9087 分、0.8881 分、0.8667 分荣获该竞赛的前三名,为实现宠物鼻纹特征识别提供了突破性的解决方案。

华中科技大学:基于实例特征的难样本加权对比损失,优化提升宠物鼻纹的区分度

犬类的鼻部纹理,类似于人类的指纹,具备身份唯一性,可用于提取身份特征确认犬的身份。来自华中科技大学的团队首先基于对比和度量学习来提取鼻纹的特征信息,使用 OIM 损失探索不同 ID 的特征之间的关系,进行粗粒度的学习。由于相同品种的宠物鼻纹只有细微的差异,该团队创新提出了一种基于实例特征的难样本加权对比损失。该方法能记录所有训练图片的特征并在线更新,每个样本需要在特征池里寻找前 N 个难负样本进行对比损失。同时,对正样本也根据相似度进行加权,以此加强对难正样本的学习。通过这种基于实例特征的难样本加权对比损失,可以加强细粒度样本之间的区分度。此外,该团队还使用数据增强与多模型融合技术来应对拍摄过程中光照、角度变化,在真实数据上取得更高的识别准确率。

上海科技大学:基于对比学习双全局描述器的宠物鼻纹匹配方案

考虑到比赛中每只宠物的图片比较少,来自上海科技大学团队的思路是将其作为图像检索任务来处理。首先参考了图像检索的相关工作,选择使用监督对比损失作为目标损失函数。通过观察训练集和验证集,该团队还发现训练集的图片大小和清晰度和验证集存在差异,于是在训练时先以一定的概率将图片缩放到一个较小的尺寸,再缩放到较大的输入尺寸。另外,在推理时直接使用池化结果作为最终的特征,这样能保留更多的细节,并且尽可能使用更大的 batch size 提升对比学习的性能。在比赛过程中,该团队还使用了 TTA、AMP、EMA 等技术,采用数据增强对模型进行微调,以提升泛化能力。

南京理工大学:多尺度特征融合结合离在线数据增强的宠物鼻纹识别方案

来自南京理工大学的团队离线使用了随机仿射变换、滤波模糊(高斯滤波、中值滤波和均值滤波)和图像锐化进行样本扩充,在线训练时则使用了 Aug-Mix, Affine, Color-Jitter 等数据增强避免过拟合。该团队参赛模型的骨干网络使用 ResNeSt,聚合模块使用 Gem Pooling,分类头采用 BN-neck。训练时,分类损失采用标签平滑的交叉熵损失函数,度量学习采用 soft-margin triplet loss 和 circle loss,并使用 XBM 进行难例挖掘。在后处理方面,该团队采用了单一模型不同尺度的特征进行 concat, 再使用余弦相似性进行距离度量。

复旦大学浩清特聘教授,人工智能创新与产业研究院院长漆远表示,本次比赛的初心,是为来自高校与企业的优秀算法人才提供贴近真实场景的数据与赛题,让大家能够在这个平台上竞技与交流,探索前沿技术解决真实世界问题的可能性。我们很高兴看到最终获奖团队的技术方案是针对宠物鼻纹识别任务的特点,提出了创新的优化,而并非现有技术的简单堆砌,从而在众多参赛者中脱颖而出。本次比赛获奖团队的方案均已开源,我们希望通过这种方式,促进人工智能技术在宠物产业中的应用,推动行业的发展进步。

赛道二:图像篡改检测竞赛

图像处理技术的发展,让数字图片可以轻易地被编辑和修改。经过篡改后合成的图像多被用于色情内容、虚假新闻诱导舆论中,不仅降低了内容的真实性和可信度,还侵犯个人隐私,扰乱社会秩序。为此,蚂蚁集团联合新加坡南洋理工大学、中国信通院云大所举办图像篡改检测竞赛,旨在推动学术界和产业界对该领域更多的关注,促进检测技术的进步与发展。其中,网易、字节跳动、美团分别以 AUC 0.9938 分、0.9913 分、0.9879 分荣获该竞赛的前三名,下文将对三个优秀方案展开详细解读。

网易公司:基于数据增广和模型融合的高泛化性篡改检测

该团队凭借在人脸编辑和生成方面的深厚算法和数据积淀,创新性地提出了一套以魔法打败魔法的解决方案—— DAME: Data Augmentation and Model Ensemble for Generalized Face Forgery Detection。在比赛训练数据的基础上,基于面部重演、换脸、人脸属性编辑、人脸卡通画及艺术化滤波等算法对训练数据进行增广和扩充,生成了近 40 万假图,极大地丰富了训练集的多样性,为模型的泛化性奠定强力基础。此外,团队创造性地提出了真图特征分布一致性的假设,将解题思路从 "识别已知造假特征" 转换为 "识别任意非真图的特征",并据此提出了包含多样化主干网络设计、针对性的学习率调整和采样策略等在内的低相关度模型训练和融合方案。该方案可以准确的检测出现有的各种类型的深度伪造攻击,并且在未知伪造类型的检测中取得了良好的表现。最终,该团队以 AUC 0.99386 和 0.98928 的成绩包揽了初赛和复赛两阶段的第一名。

字节跳动:多模态多分类的多元篡改检测

针对此次比赛伪造类型多、高分辨率、且存在未知伪造类型的特点,来自字节跳动的团队使用了多模态多分类的多元篡改检测方案。在基于原始 RGB 图像作为输入的基础模型之上,多模态模型使用定制的 SRM 算子(Spatial Rich Model),把滤波后的图像作为一种新模态进行训练。该算子可以弱化 RGB 的颜色信息,更加关注图像的残差特征,突出图像的噪声模式和纹理信息,能更好对篡改图像进行表征。此外,多分类模型设计了 AIM(Augmentation Inside Mask)在线伪造增强模块,在原有二分类的基础上,将 AIM 实时伪造的样本作为未知深度伪造类型的第三类进行学习。AIM 本质是一种 self-blending 的在线伪造增强方式,基于掩码将原图划分为人脸前景和背景,并仅对人脸区域进行加噪、模糊、颜色抖动等各种数据增强操作,模拟了图像篡改可能存在的色彩差异、分辨率差异、噪声模式差异以及五官位置不对应等现象。在最终方案里选取了基础模型、多分类、多模态的模型的不同训练阶段的模型进行集成。

美团:更具泛化性的图像篡改检测:模型重要,数据表征也至关重要

该团队的解决方案首先在主干选型上做了大量实验,充分考虑了主干模型的异构性和多样性,最终构建了包含 7 个主干的模型池,基础模型类型涉及 SwinTransformer、VAN、CDCNpp、Multi-Attention(MAT)和 ConvNext 5 种。除此之外,不同模型用于进行不同的数据特征表征处理,其中 SwinTransformer、VAN 和 ConvNext 关注不同尺度图像 RGB 特征,Multi-Attention 关注浅层纹理特征,CDCNpp 关注局部区域特征,各有侧重且互为补充。最终所有模型的融合权重使用 PSO 算法搜索和人工微调的方式得到。为了增强数据多样性,该团队使用了基于人脸分割掩码进行 self-blending 和 local cutting 的数据增强,来提高模型的泛化性能。值得一提的是,为了对模型泛化性能进行更合理的评测,选手还利用 FaceMorph、StarGAN、StyleGAN、FaceEdit 和 FaceSwap 等一系列深伪工具创建了一个额外的评测集,用于验证和筛选泛化性更好的模型。

蚂蚁集团数字身份负责人,资深算法专家陈弢对方案点评到:针对图像的深度伪造攻击反映了基于数据驱动的第二代 AI 在鲁棒性上的关键瑕疵。第三代可信 AI 在解决此类问题上采用数据驱动和知识驱动结合的技术方案。第一名方案引入将近 30 种伪造工具来扩展攻击数据的多样性和覆盖面,提高了防攻击的泛化能力;第二名对新型攻击方式针对性的设计伪造检测算子, 提高模型的检测能力;第三名关注了基础模型选型的多样性,精心设计了不同的训练策略。这些方案对于我们在实际业务中防控深伪攻击都很有价值。

蚂蚁集团天堑实验室负责人,资深算法专家刘焱的观点:深度伪造检测是一个攻防对抗异常激烈的领域,经济利益的驱使以及大量开源的视频伪造、修改软件的出现,促使了深度伪造技术发展迅速、变种多样。基于单一检测模型或者单一强特征的检测技术已经难以应对目前的深度伪造技术。当前的检测技术呈现了以下几个趋势:首先,使用多种伪造技术、工具和数据增强技术,生成超大型数据集;借鉴集成学习的思路,综合使用多种检测模型;不断通过挖掘真假视频在生理学上的差异,利用信息差不断形成新的强特征。

另外,从实际应用的角度,深度伪造检测技术的可解释性非常重要。除了少数出于娱乐目的的名人换脸,大量的有针对性的视频难以用肉眼分别,这就要求检测技术除了返回真假结果,还需要提供更多的辅助判断信息,比如图片、视频修改的区域,使用的技术、工具等。

关于深度伪造检测的方向和发展趋势,新加坡南洋理工大学 Ziwei Liu 教授提到,深度伪造检测未来还是会继续往大规模、泛化性的方向发展。随着新的伪造方法的出现,如果让深度伪造检测快速迁移到全新的伪造方法上,也将会是一个重要的问题。

中国信通院云大所内容科技部副主任刘硕则表示,数字时代已经来临,针对伪造数字图像和视频的检测技术愈发重要。本次 CVPR 2022 图像篡改检测竞赛激发了技术创新,成绩优异的技术方案通过使用模型集成与融合、数据增广等技术方法,并结合模型结构和训练方法等改进,很好地提升了鉴伪的泛化性和鲁棒性,这为真实场景中的技术落地应用提供有益参考。在未来,围绕着伪造与鉴别的 “攻防” 将持续存在,除了需要从技术上不断创新,还需要联合 “政产学研用” 等多方力量,共同探索针对伪造内容的治理实践范式。

计算机视觉技术是蚂蚁集团多年来深耕的一个研究方向,已在蚂蚁集团的数字生活、数字金融、安全科技等业务中广泛应用,持续服务海量的用户和行业伙伴。此次蚂蚁携手计算机视觉顶会,联合高校和产业机构举办「面向真实场景」的双竞赛,通过产学研联动,共同推动计算机识别技术的进步。

如果想更深入了解比赛详情和获奖方案的解读,我们还将在 6 月 18 日晚上 19:30 于机动组视频号直播 CVPR 22 17th IEEE Computer Society Workshop on Biometrics 蚂蚁双赛道比赛总结,欢迎来看!

    推荐阅读
  • 如何立足岗位发挥好示范引领作用(如何发挥好岗位的示范和引领作用)

    跟着小编一起来看一看吧!如何立足岗位发挥好示范引领作用首先要做实践的模范。要忠实履行政协会议的各种决议,自觉遵守各项工作制度,正确行使自己的民主权力。中共党员中的政协委员,不论是在政协组织的活动中,还是在日常工作生活中,都要积极地进行调查研究,了解最新动态,了解社会各方面的真实情况,了解群众的情绪、困难和诉求,充分反映他们的要求和呼声,使党委和政府能及时采纳他们对党和政府工作的意见建议。

  • 海底捞 摄像头(海底捞包间内安装摄像头遭质疑)

    对于安装摄像头是否会侵犯隐私,网友各执一词。安装了摄像头的门店也表示,安装主要是为了防止客人丢失东西,方便找回。不过,北青报记者进一步采访其安装摄像头的必要性时,截至发稿时,海底捞方面暂时没有回应。图像信息系统在营业期间应当正常运行,不得中断。在这一规定中,包间并未罗列其中。此前曾有调查称,在30家火锅店中,有19家在包间装有摄像头;在14家非火锅店中,也有2家的包间装有摄像头。

  • 讯飞智能语音服务(IQEQ齐上阵讯鸟软件打造更有)

    讯飞智能语音服务埃森哲调研显示:多达75%的高管表示,自己的组织将在未来三年积极部署某种人工智能技术,AI将作为一名同事、合作者和值得信赖的顾问,在企业中与人类并肩协作。智能客服语音机器人能够支持语音情感三分类、四分类和六分类,在各类应用场景下识别率均超过85%,在成熟的业务场景下识别准确率可高达95%。

  • 提高fps的方法csgo(FPS游戏CSGO之身位控制)

    FPS游戏CSGO之身位控制​高手与菜鸟最大的差距也许还不是枪法,而是存活率同样的一个点位,菜鸟去看点,永远是拉一个大身位,同时暴露在复数架枪点的准星内,所以死亡率奇高无比高手的身法多变,身位控制良好,知道适当切换行进节奏与路线。

  • 怎么用微信支付(用微信支付的方法介绍)

    怎么用微信支付?最简单的,看到各个超市或者别的地方的收银台都会贴有一张二维码图片,上面写着微信支付,就可以使用手机微信来支付了,打开手机微信,右上角有一个的标志,点击它,下面我们就来聊聊关于怎么用微信支付?接下来我们就一起去了解一下吧!这是把商家的二维码放到相机前,就可以自动扫描了,扫描出来后,可以看到要付款的别人的微信名称,可以核对一下,没问题就输入金额,完成付款。

  • 白萝卜多久能煮熟(白萝卜怎么煮)

    下面更多详细答案一起来看看吧!白萝卜多久能煮熟通常情况下,白萝卜水只要煮十五到二十分钟就差不多了。白萝卜煮水的做法非常简单,我们平时如果想要喝白萝卜水的话都可以自己在家里制作。制作它首先要把准备好的白萝卜清洗干净并切成片状或是块状,注意这里是不需要给萝卜去皮的。在白萝卜处理好之后,我们就可以准备一口锅并往里面倒入适量的清水加热。

  • 键盘和电脑怎么清洁(干货清洁电脑屏幕)

    键盘和电脑怎么清洁DTECH帝特,传递精彩画面,分享快乐时光!这种情况,我们可以购买专用液晶屏幕清洁剂进行清洁,价格大概在20~50元之间,通常专用清洁剂都有详细的使用说明。以上几个清洁方法都需要有规则地轻轻擦拭屏幕,不可以用力按着擦,否则容易给屏幕造成坏点。

  • 茉莉飘雪茶的功效与作用(关于茉莉飘雪茶的功效与作用)

    茉莉飘雪茶的功效与作用茉莉花茶是花茶中的典型,茉莉飘雪花茶能够帮助人体降血脂,有利于人体内脂肪的分解,还有一定的清除氧自由基作用,所以能够起到抗氧化、防衰老的功效。茉莉飘雪花茶能够起到保肝护肝、美容养颜的作用,同时还有一定杀菌、抗菌、增强机体免疫力的作用,可以预防感染性疾病,因为茉莉花茶中含有的营养物质比较丰富,能够提高机体的免疫力,也能够对抗疾病的发生。

  • 堕仙是指什么意思(堕仙出现在哪位人物身上呢)

    堕仙是指什么意思是指堕落的仙人,也指走火入魔,因为面对让自己万分痛苦的事而无法承受,后变为魔的紫薰上仙。紫薰上仙堕仙成魔是因一直守护她的檀凡上仙为救她而死,紫薰上仙觉得对不起檀凡上仙,又很愤怒于白子画的漠不关心,所以成为堕仙。求而不得,一念成魔。本是仙界的紫薰仙子,五上仙之一,擅长制香,因痴恋白子画而成为堕仙,坠入魔道。后被花千骨感动,放下执念,将所有功力传给白子画,成全白子画与花千骨。

  • 想让学习强国由青铜变成骨灰吗(想让学习强国由青铜变成骨灰吗)

    A、正确B、错误正确答案:A135、我国鼓励各类市场主体在有效保护旅游资源的前提下,依法合理利用旅游资源。A、正确B、错误正确答案:A137、2021年1月22日,我国首部战疫纪录电影上映,影片以平实的语言讲述了武汉人与来自全国各地医疗系统及其他行业的一线人员,一起打响武汉抗击新冠肺炎疫情阻击战。A、50%B、60%C、70%D、80%正确答案: