77百科网
当前位置: 首页 生活百科

达芬奇4k教程(渣画质秒变清晰)

时间:2023-07-28 作者: 小编 阅读量: 59 栏目名: 生活百科

1998年11月,微软亚洲研究院在北京成立。随着视频处理设备以及显示设备性能的提升,原来的帧率已不能满足大众的需求。因此,模型需要有足够的鲁棒性才能处理不同的需求。此外,模型从实验室的服务器迁移到终端设备上,性能也会有一定的降低。而微软亚洲研究院的研究员们认为,视频播放就是物体在时间序列上的运动轨迹,只有在这个轨迹上的内容才对当前的画面增强有所帮助,其它区域的内容则关联性较低。

编者按:是否时常“考古”一些老电影、老动漫来回忆旧日时光?你是否也有一些珍贵的录像,带你重温过去的美好?然而,我们已经习惯了高清体验,回头再看曾经的旧影像,画质或许“渣”的让人不忍直视。在这个多媒体内容爆发的时代,人们对视频内容的需求愈加强烈,视频素材的创作、增强及再创作技术也有了大幅提升。尽管利用现有的视频修复工具,视频编辑者也能让视频变得更高清,但其前提条件是需要有超高性能配置的电脑,并付出视频时长几倍甚至几十倍的时间成本,即便如此,结果可能仍不尽如人意。

那么有没有可能在有限的算力,甚至无需联网的情况下,在端设备上实时、高质量地完成视频的高清化、智能插帧呢?微软亚洲研究院的智能视频增强工具集“达芬奇”回答,“我可以!”依托于400万高清训练数据和大规模底层视觉预训练方法,“达芬奇”可以实现在端上以较低的计算成本对视频画质进行修复。特别是对于一些实际的生产需求,大规模的底层视觉预训练进一步提升了模型的鲁棒性,使其可以应用于更具挑战性的场景。

1998年11月,微软亚洲研究院在北京成立。时任微软公司 CEO 比尔·盖茨为此特地录制了一段视频,让我们先一起来看看其中的片段。

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/原视频.mp4

这段视频对于如今看惯高清视频的我们来说,或许画质有点太渣了。为了解决现有视频增强和修复工具的痛点,充分发挥 AI 技术的优势,微软亚洲研究院多媒体搜索与挖掘组的研究员们将深度学习、机器学习等技术经验,与实际场景和需求结合,推出了一套智能化视频增强工具集——“达芬奇”(DaVinci),大大降低了用户处理视频素材的门槛,只需一键就可以让视频更清晰、更顺滑。

现在,我们再来看看下面这个被“达芬奇”修复的版本。是不是感觉瞬间拨云见日?

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/修复后视频.mp4

“达·芬奇是文艺复兴时期最杰出的艺术家之一,他将艺术创作和科学相结合,留下了许多不朽之作。因此,我们希望智能视频增强工具集‘达芬奇’可以将 AI 技术应用到多媒体内容处理领域,让视频和图像创作者们更好地挥洒他们的创意,这也是我们将该项目命名为‘达芬奇’的原因,”微软亚洲研究院主管研究员杨欢说。

“达芬奇”三大技能,将学术概念真正落地应用

据微软亚洲研究院主管研究员傅建龙介绍,学术界很早就开始了对图像视频处理的研究,并在众多方向上做了理论方法的探索,但要将这些停留在概念验证阶段的创新想法真正落地,则需要仔细筛选可行的方向。“经过仔细的研究,我们认为通用图像和视频会议这两大场景中的画质增强具有很大的潜力,其背后主要由图像/视频超分辨率、视频插帧、压缩视频超分辨率这三大技术进行支持,有着更好的落地和应用机会,也最有可能让人们体验到当前 AI 技术的优势。”最终,这三项技术被集成到了“达芬奇”工具集中,并通过开源供用户下载使用。

依托于微软亚洲研究院创新的基于 Transformer 的图像/视频超分辨率、视频插帧和压缩视频超分辨率技术,“达芬奇”工具集能够实时帮助用户完成不同场景下的视频增强需求。无论是在线还是离线状态,都能生成清晰、连贯的高质量视频,大幅提高视频观感体验。

视频超分辨率:是将视频从低分辨率帧序列提升至高分辨率帧序列。对视频来说,最直观的感受就是让我们看到的画面更加高清,视频内容中的细节更加动人,从而满足人们对视频清晰度日益提高的需求,也能更好地适应硬件分辨率的提升。比如将 480P 的老旧视频变成 2K/4K 的高清版本,无论是小屏还是大屏播放,画质都毫无压力。

视频超分辨率结果对比(左:传统 Bicubic 算法,右:“达芬奇”工具集提供的算法)

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/图像视频超分辨率.mp4

视频插帧:是在两个边缘帧之间合成不存在的帧。当前视频的主流帧率是24帧/秒,也就是一秒钟播放24幅画面。随着视频处理设备以及显示设备性能的提升,原来的帧率已不能满足大众的需求。尤其是在体育赛事或游戏中,若能将帧率提升到60帧/秒甚至120帧/秒,那么则可以让画面更丝滑,也能减少由于帧率不足而导致的眩晕。其实,这项技术可以应用于许多场景,包括慢动作视频、帧速率转换等。

视频插帧结果对比(左:传统帧交错算法,右:“达芬奇”工具集提供的算法)

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/视频插帧-1.mp4

压缩视频超分辨率:是指从压缩的低分辨率视频帧恢复到高分辨率的视频帧。为了保证视频在互联网上的高传输速率,或在有限的网络条件下尽可能传输流畅的视频,互联网或用户设备上的大多数视频都是以压缩格式存储和传输的。然而,视频压缩会造成质量的损失,导致终端用户观看时视频好像被打了马赛克,特别是在运动较大的场景中,尤为明显。压缩视频超分辨率就是为了修复这种损失,使得视频画质更好。

压缩视频超分辨率结果对比(左:传统 Bicubic 算法,右:“达芬奇”工具集提供的算法)

视频链接:https://www.msra.cn/wp-content/uploads/2022/06/压缩视频超分辨率-1.mp4

千种设备万般需求,“达芬奇” 创新设计全部搞定

通常,一项技术在学术论文中所呈现的是其在理想情况下可以达到的上限成果,而当转化为落地应用的工具时,该技术就要应对各种下限问题。比如,我们无法预估用户会使用视频增强工具来处理哪些类型的视频素材,它可能是手机记录的儿时影像、DV 拍摄的大好河山,也可能是胶片电影、MP4 中保存的怀旧金曲 MV,又或者是朋友分享的压缩后的 4K 电影。因此,模型需要有足够的鲁棒性才能处理不同的需求。

另外,用户的部署环境也未可知,尽管大部分设备可能是手机、笔记本电脑、台式电脑等,但不同设备的内存、CPU、显卡性能也不尽相同。同时,研究员们还要考虑计算的功耗问题,对于手机等移动设备,电量的消耗、计算处理的时长也都需要精巧的优化和设计。此外,模型从实验室的服务器迁移到终端设备上,性能也会有一定的降低。如何确保所有设备体验的一致性,也是“达芬奇”模型设计的一个重要挑战。

“达芬奇”三大技能实现的背后都是以业界领先的底层视觉预训练技术(Low-level Vision Pre-training)作为支撑,并辅以大量的数据训练。针对模型的鲁棒性,研究员们一方面利用了可收集到的400万公开图像和视频数据,图像、视频内容涵盖风景、建筑、人物等等,以及不同压缩率和分辨率的众多场景;另一方面,为确保训练的数据量和丰富的数据类型,研究员们还基于已有的数据,人工合成了更多含有噪声的退化数据,从而使整个模型训练能覆盖到更多用户实际的应用场景。

为了应对用户部署环境的多样性需求,研究员们为模型做了轻量化的设计,并且对网络结构和模型存储也做了特殊优化。例如,传统的视频处理方法在处理每一帧图像本身时,还要考虑整个时间序列,大大增加了计算量。而微软亚洲研究院的研究员们认为,视频播放就是物体在时间序列上的运动轨迹,只有在这个轨迹上的内容才对当前的画面增强有所帮助,其它区域的内容则关联性较低。

由此,研究员们提出了基于轨迹 Transformer 的视频超分辨率网络(TTVSR),这也是此前微软亚洲研究院图像超分辨率纹理变换 Transformer (TTSR)的扩展性研究成果。针对超分辨率和插帧的计算,轨迹感知转换器可以把原先时间×视频单帧图像的空间复杂度降低到只是对时间序列的计算,进而简化整个模型的计算复杂度。原来工业模型处理一分钟的视频需要十分钟甚至一小时,现在利用“达芬奇”可以实时甚至超实时完成高清视频处理。在压缩视频超分辨率任务上,“达芬奇”可以更好地保留高频视觉细节和指导高频纹理的生成,降低视频压缩后伪影的影响。

杨欢和傅建龙表示,相比于图片,视频的内容更加丰富,除了空间维度还要考虑时间维度,对计算的需求更高,因此,对于视频处理就需要轨迹感知 Transformer 这样一个设计更为精巧的方法。比如针对视频不同帧之间的连续性和相关性,如果一个人上一帧出现在这个位置,下一帧可能向左走一点,那么我们针对这个人的增强和计算就只需要沿着他运动的轨迹进行计算即可,不需要对整个视频进行搜索计算。

业界指标测试均高于现有方法

通过在业界广泛使用的峰值信噪比(PSNR)和结构相似性(SSIM)两个指标上进行测试,“达芬奇”工具集的表现都优于现有方法。下表展示了轨迹感知视频超分辨率 Transformer(TTVSR) 在最具挑战性的 REDS4 数据集上的测试结果,其中 PSNR 分别比 BasicVSR 和 IconVSR 提高了0.70db和0.45db。

轨迹感知视频超分辨率转换器(TTVSR)在 REDS4 数据集上的测试结果

将上述提到的基于 Transformer 的视频超分辨率相关技术应用于视频插帧以及压缩视频超分辨率上,依然可以得到非常不错的结果。例如,在视频插帧的 Vimeo-90K 数据集上,可以带来 0.36db 的 PSNR 提升;应用于压缩视频超分辨率的 REDS4 数据集上,在 CRF25 的压缩率下,可以带来惊人的 1.04db 的 PSNR 提升。

以上数据集的测试都是基于学术界中特定的退化模型开展的,但考虑到实际的使用场景,用户上传的视频并非高质量的标准素材,也没有一个对比的基准。所以,为了更接近用户的真实需求,微软亚洲研究院的研究员们还设计了一个“不需要标准答案的”视频评估方法 CKDN,即业界非基于参考的质量评估,旨在为业界持续探索视频处理方法提供更多参考依据。(论文链接:https://arxiv.org/abs/2108.07948)

下载工具集可执行文件,感受清晰、丝滑的视频

目前,微软亚洲研究院已将“达芬奇”工具集的部分可执行文件打包发布,GitHub 上的项目主页也将在近期上线,后续研究员们会在主页上陆续发布、更新更多的视频增强工具。专业开发者可以利用工具集,针对自己的场景进行尝试并与各自的业务深度整合或二次开发,而零技术基础的普通用户也可以通过下载、运行工具集的可执行文件,感受“达芬奇”所带来的清晰、丝滑的视频。

“达芬奇”工具集下载

图像超分辨率:

https://azsjae.blob.core.windows.net/davinci/release/DaVinci_ISR_General_20220622.zip

视频超分辨率:

https://azsjae.blob.core.windows.net/davinci/release/DaVinci_VSR_Small_Face_20220622.zip

相关论文链接:

  • Learning Texture Transformer Network for Image Super-Resolution
  • https://arxiv.org/abs/2006.04139
  • Learning Trajectory-Aware Transformer for Video Super-Resolution
  • https://arxiv.org/abs/2204.04216
  • Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment
  • https://arxiv.org/abs/2108.07948

更多链接:

“达芬奇”项目 GitHub 页面(即将上线,敬请期待!):

https://github.com/microsoft/davinci

如在使用工具集时发现任何问题,请发邮件到 davinci@microsoft.com 或者在即将发布的 GitHub 页面提交 issue 联系我们。

    推荐阅读
  • 车内发霉起毛怎么处理(车内发霉起毛处理方法介绍)

    所以可以打开车内空调,设定最高温吹一阵子,把车内空调管道内的水分蒸干,可以避免车内部滋生霉菌。找个时间,把车门窗打开,停在阳光充足的空场内晒几个小时。霉菌是很害怕高温和阳光直射的。车内环境不适合的话,很快霉菌就会消失。除了能吸收湿气,甲醛,硫化物等有害物质,还能除臭和调节车内湿度。经过初步处理后在车内放置一些活性竹炭,可以净化空气,也能防止再次发霉。

  • 朝辞白帝彩云间的下一句是什么(朝辞白帝彩云间原文介绍)

    下面内容希望能帮助到你,我们来一起看看吧!朝辞白帝彩云间的下一句是什么朝辞白帝彩云间下一句:千里江陵一日还。两岸猿声啼不住,轻舟已过万重山。从江上往高处看,可以看见白帝城彩云缭绕,如在云间,景色绚丽!千里之遥的江陵,一天之间就已经到达。两岸猿猴的啼声不断,回荡不绝。猿猴的啼声还回荡在耳边时,轻快的小船已驶过连绵不绝的万重山峦。

  • 抽脂体重会下降吗(女子体重不到100斤却因抽脂进了ICU)

    女子被120送到邵逸夫急诊的时候,一直处于昏迷状态,情况危急。浙大邵逸夫医院重症医学科副主任郭丰:“我们发现心跳是没有的,所以经过心肺复苏,心跳恢复之后,然后到ICU来,当时瞳孔是散大固定的。”3月11日下午江干区卫生健康局发布的通报,涉事的医疗机构是杭州颜粉医疗美容门诊部,有做医疗美容的相关许可证,相关医护人员也有从业资格证,对该事件调查还在进行中。

  • 狐狸钻树洞里面(切勿将狐狸当宠物)

    记者咨询了乌海市野生动物保护专家,据介绍,所有种类的狐狸都属于野生动物,如要进行饲养必须向有关部门申请饲养证,还有一些特殊的种类,如北极狐等是国家保护动物不允许任何人私自饲养。有些动物还会攻击人,有一定的安全隐患。

  • 乔羽歌词创作(为山东写下多首经典歌词)

    记者师文静6月20日凌晨3点,著名词作家乔羽因病在北京逝世,享年95岁。《我的祖国》这首歌传唱度高,歌词优美、旋律动听,至今是经典名曲。《我的祖国》之后,乔羽说他把祖国的命运和个人的命运与歌词的创作紧密联系起来。为山东写下多首歌词作品乔羽逝世,乔羽家乡与之有过交往的老乡们悲痛不已。李木生说,在济宁,每年乔羽生日之际,家乡的父老乡亲、学子们都会为乔羽举办作品演唱朗诵会,朗诵、研讨乔羽的作品。

  • 晚上刷牙什么好处(晚上刷牙的好处是什么)

    晚上刷牙什么好处晚上刷牙最直接的好处,就是使人夜间口腔处于相对健康的状态,口腔内的牙菌斑和食物残渣得到了清理,口气较为清新,龋齿不太容易在夜间形成。口腔内的牙菌斑几个小时就可以形成,所以需要定期的清洁牙菌斑,而清洁牙菌斑最好的办法就是刷牙,夜间持续时间最长,所以夜晚的1次刷牙也是最重要的。

  • 你知道什么是eat吗(为什么老外管喝汤)

    为什么老外管“喝汤”叫eatsoup?)的海洋里一只三叶虫走完了一生策划:王晓莹文案播音:谢侃(侃哥)推荐阅读实用!知乎年度最高赞文章:如何在30天内提高英语听力丨达人分享单身女性成购房主力,74.2%未受伴侣资助,你“买房自由”了吗?

  • 通过身份证号码可以查到什么信息(身份证号码的相关知识)

    下面内容希望能帮助到你,我们来一起看看吧!通过身份证号码可以查到什么信息公安局可以通过公民的身份证号码可以查到如下信息:公民的基本信息情况:姓名、姓别、年龄、民族、住址、户籍;其他关联信息:出入境信息、违法犯罪信息、吸毒信息、在逃信息、机动车信息、以及家庭成员等信息。

  • 2020第五届上海咖啡文化节嘉宾阵容(2020年上海咖啡节)

    陆家嘴金融城管弦乐团陆家嘴金融城管弦乐团成立于2016年10月由上海轻音乐团艺术指导,旨在丰富陆家嘴金融城白领的业余生活展示陆家嘴金融城白领的精神风貌和艺术才华,营造陆家嘴金融城高雅的文化艺术氛围。明年将会推出由黄稔钦作曲作词的新作品。现场会有作者关于咖啡节相关作品展览,以及印刷品和作者周边贩售。丙粒一名来自内蒙古的插画师,平面设计师。南岛的葵独立插画师,作品题材大都是来自于日常生活中的场景。