7月3日晚,一场别开生面的演唱会在Tik Tok、西瓜视频、今日头条、鲜时电视上线,引发1.4亿粉丝集体怀旧。这是一场精选的“Beyond Live 1991生活接触音乐会”和纪念音乐会的重播。Beyond,中国摇滚音乐史上的璀璨明珠,是一代人的青春回忆。
这一次,当亿万观众沉浸在DNA觉醒的乡愁中时,很多朋友大概都不知道,自己31年来所见所闻的影像和声音,其实都是经过超清修复的。只是正宗的复原,很多人都没发现。
字节跳动旗下的云服务平台火山引擎完成了这次超清修复。
超修不仅仅是为了提高声音和画面的清晰度。
如果你看过Beyond Live 1991 Life Contact演唱会的原视频,你真的能感受到这个超清修版的推广。比如下面这张修复前后的效果对比图,就是肉眼可见的改善。
多年后能看到这个演唱会如此清晰的版本,确实是一种福气。相信有些朋友会很好奇,Tik Tok到底施了什么魔法?火山发动机是怎么修好的?
这里先解释一下。
首先,因为是演唱会还原,必然会分为画质还原和音质还原两部分。
在画质方面,我们先来看难点。
第一,模糊的画面受损。前期由于技术条件差,拍摄、制作、压缩、传输等全过程。音乐会的画面会变得模糊而嘈杂。比如当时的电影一般都是隔行扫描的,编码和显示会带来隔行条纹等缺陷。
二是演唱会独特的色彩、亮度和舞台氛围。比如如何平衡亮度水平和噪声放大的矛盾,也是一个难点。
第三,需要对人像的面部进行精细处理,这是普通的画质恢复算法很难做到的,也很难调整人像效果与背景的差异。
这些都是演唱会修复的核心难点。对于这些困难,火山引擎开发了一种特殊的算法技术来克服它们。比如图像模糊的问题,他们有清晰度增强和缺陷修复算法,这是基于大量数据训练的深度学习算法。在提高分辨率的同时,它们还可以在缺乏纹理的区域生成丰富的细节。
同时,基于运动补偿的深度学习多帧交错算法也可以用来解决每一行扫描格式视频中的拉丝和横条。
下面这张照片是修复前后的对比。可以清楚的看到复原前的吉他的手是有条纹的,模糊的。复原后,整把吉他明显更加清晰锐利。
在提高画质的同时,也要注意保存演唱会的艺术氛围。火山引擎给出了一种基于审美评分的自适应区域色彩亮度增强算法,可以根据片源和审美评分的效果分别对色彩、亮度、对比度、饱和度、人像ROI和背景区域进行增强,使亮暗区域都能获得最佳的表现效果。
比如以下修复前后的对比,修复后的色彩明显更加饱满,整体风格也没有失去演唱会灯光的氛围感。
在人像还原方面,火山引擎通过自主研发的自适应人像增强算法,重建人的高清面部特征。可以对不同大小、不同姿势、不同遮挡程度的人的面部进行修复和提升。
音质方面,也差不多。原演唱会视频自然有前期设备条件差导致音质差的问题,还有环境噪音带来的干扰。当时其他设备和压缩算法都不成熟,也会导致音频截止频率低。演唱会混响过大影响收音质量,响度不均带来的不适感。这些都是音质还原的难点。
针对原始音频的噪音,火山引擎给出了自主研发的多元素场景降噪算法,可以实现音乐场景和人声场景兼容的AI降噪。普通的降噪算法主要是针对人声的,在演唱会降噪时难免会对部分声音造成损伤,而火山引擎的这种算法可以在抑制其他噪音的同时保持人在说话/唱歌/音乐。
比如下面的对比图,有噪音的原始音频频谱整体上非常浑浊,噪音存在于整个演唱会。经过AI音频降噪算法处理后,频谱清晰很多。
对于早期设备音频带宽不足的问题,火山引擎也有音频超分算法来解决。可以扩展演唱会中人声的频带,丰富高频信息,提高音质,并且不会在处理过程中引入其他失真使体验变差。
另外还有响度算法,提取演唱会中的演唱声部,然后调整响度,让整个声音更舒服。
当然,经过这场演唱会的重新筛选,IT之家也从火山引擎处了解到,修复工作并不完全由AI算法进行,也会有一些人工处理,只是人工参与很少。比如在画质还原的时候,会主要在色彩上加一些人工,而音频部分主要在响度调节上做一些手动的细节调整。
总的来说,这场演唱会的大部分修复工作都是通过AI算法技术完成的,我们也可以看到修复工作不仅仅是提高声音和画面的清晰度这么简单,还涉及到艺术氛围的保留、噪点、细节的选择、色彩的调整、重新编码等。这是一个系统而复杂的过程。在这个过程中,火山引擎已经能够在没有人类参与的情况下,用技术完成大部分。
最终出现在我们面前的,是一场声画俱新,同时又富有艺术性和原创性的经典演唱会,成就了一场情怀的狂欢。
比感情更重要的是赋能。
从效果来看,Beyond concert的超清还原非常惊艳。看了上面的介绍,相信有朋友会很自然的认为这些修复技术是如此的强大,以至于很少有人需要参与其中。如果能把它们开放,让更多的主体参与到这个有意义的修复中来,不是更好吗?
其实这些都是火山引擎视频云在做的事情,他们提供了更多的能力。
相信大家也能感受到视频在当今互联网媒体时代的重要性。年初,IDC发布《中国视频云市场跟踪》报告显示,2021年上半年,中国视频云市场规模达43.7亿美元,同比增长38.7%。我们正在迎来一个全新的“超视频时代”:无论是从企业到用户,还是从用户到用户,一个行业50%以上的信息传递都是由视频承载的,因此可以认为是“超视频时代”。
总之,在大范围的商业场景从图文走向视频的背景下,视频正在成为新的生产力,各行各业都在思考如何打造自己的视频能力。
字节跳动旗下的云服务平台火山引擎(Volcano Engine),恰好通过视频云为各行各业带来完整的视频能力。这次修复Beyond concert所涉及的相关技术,其实只是火山引擎视频云能力的“冰山一角”。
根据火山引擎今年2月发布的最新视频云产品矩阵,这是一个完整的解决方案,包括泛互联网、游戏、金融、广电等场景,以及VOD、veImageX、实时音视频等核心产品。在底层,核心中间平台是火山引擎在服务Tik Tok、西瓜视频等优秀应用中积累和沉淀的技术能力,覆盖网络传输、智能制作、智能处理的全链路。
细分到各个能力,火山引擎视频云也有相应的技术优势。例如,在编码方面,火山引擎的BVC系列编码器在世界顶级视频编码器比赛MSU2020中获得了17项冠军。
在视频播放体验上,火山引擎独创“零首帧”优化,实现短视频首帧开始播放不到100ms,长视频首帧开始播放不到400ms,带来流畅无感的播放体验。
此外,他们的VQScore图像质量评价算法系统在多媒体领域的世界级学术会议ICME2021中获得了第一名,其稳定性可以将应用崩溃率降低到1/10万以下。
因为这些技术优势,火山引擎视频云可以为不同行业提供极致的视频体验。并且在视频体验方面,火山引擎也建立了自己的数据体系标准,从交互体验、播放体验、画质体验、性能体验四个方面进行精心优化,让用户体验得到量化和优化。
例如,现在许多“超级新Z世代”喜欢快速浏览“男人剧”。这种全新的视频内容形式由火山引擎视频云提供支持。火山引擎视频云为快看《漫剧》的创作提供了强大的视频剪辑,促进了UGC内容的繁荣。同时还为快看提供了零帧相关优化体验,提升了用户的观看体验。
比如今年5月,Pico以8K 3D VR的形式,举办了郑钧《we are》VR私唱聊天互动直播。火山引擎视频云为Pico提供了从VR采集、VR编码和流式传输、VR云导播、虚拟现实特效叠加到VR播放器的全链路能力。
总的来说,目前火山引擎视频云已经服务了很多行业,涵盖游戏、电商、金融、教育等领域。包括我们前面提到的修复Beyond concerts中用到的各种技术,都已经在各行各业得到了应用。或许,修复超越concert,和大家来一场免费的怀旧狂欢,是一件很有情怀的事情,但边肖认为,能够开放这些能力,赋能千千绝对需要用视频来构建生产力的主体,比情怀更重要。
标签
Beyond Live 1991 Life Contact演唱会的复映已经结束,但边肖相信,像这样用技术修复文化的情怀不会停止。去年,Tik Tok、西瓜视频和火山引擎为我们还原了100多部经典动画。这是Beyond的经典演唱会。未来可能会有更多被时间侵蚀的作品。
然而,这样的事情仅仅由少数企业来做是远远不够的。相反,需要更多的企业或主体参与进来。火山引擎视频云的赋能无疑会对这种有价值的东西起到非常重要的推动作用。