请回答2022:创意机器与社会进步
发布时间:2022-07-19 10:54 作者:桑明强


作者|桑明强


“当他们再次出现时,就像失散的旧友重逢,所有的歌我都如此喜爱。”我们或多或少地都曾听过卡朋特兄妹的《Yesterday Once More》(昨日重现),他们在上世纪八、九十年代风靡一时,当时的中国,和卡朋特乐队同样拥有享有盛誉的是黄家驹和他的Beyond乐队。


1991年,Beyond乐队首次站上香港红磡体育馆的舞台中央,初次登台便铸就经典。31年后的今天,这段记忆被翻新、重现,一场没怎么预热的演唱会,在抖音直播间开场10分钟后观看人次就突破1600万,待直播结束时,观看数更是达到了惊人的1.4亿人次,事后有歌迷称:“清晰度高,让观众更加热爱”、“以前不知道原来家驹这么爱笑”。


这让我想到——创意机器和社会进步。30多年的光阴,可以磨平一个人的棱角,也足以模糊一个人的记忆,当我们回看起儿时喜欢的影片时,却总是觉得哪里不对味,一方面是因为我们的心境变成熟了;另一方面,缘于当时的制作和现在比起来确实略显粗糙。


但创意机器的进步,让社会的记忆又回来了,尤其是火山引擎对Beyond演唱会进行超清修复的这件事:


基于自研的自适应人像增强算法和深度学习模型,修复团队对演唱会中的人物面部做了高清重建,所以在这次的超清修复版中我们终于可以看清,黄贯中solo完后,一边笑着一边用右手轻轻挠着黄家驹的后勃颈,也让我们能在31年后的今天,看到黄家驹眼里的光。


图片



01
在细枝末节中深究



不同于某种社会运动,专注于实现特定结果,现代创意机器往往能更好地反映当今人们的自我组织方式,与公共对话更紧密地交织在一起。“整个修复的周期在1周左右。”在火山引擎多媒体实验室研究员赵世杰看来,对Beyond演唱会进行超清修复是一个相当棘手的任务,要兼具技术应用和大众审美的匹配。


据火山引擎方面介绍,负责此次修复的都是90后,这些队员本身就很喜欢Beyond,对每首歌都记忆犹新,所以在接到这个任务时,他们都很兴奋,希望能通过算法最大程度地为人们献上一场更清晰、生动的视听盛宴。


画质修复,是摆在修复团队面前的第一个要攻克的点。受限于当时的设备和技术条件,早期演唱会片源需要解决画面模糊不清、色彩/亮度/舞台氛围感以及人像面部修复三个环节的难题,这无疑让修复难度陡增,火山引擎的解题思路是把片源中的伪像一层层剥离,通过清晰度增强和瑕疵修复算法、自适应分区域色彩亮度增强算法、自适应人像增强算法等技术适时介入,一点点还原出演唱会里的热闹气氛。


以其中的清晰度增强和瑕疵修复为例,在AI修复过程中,早期片源在制作、压缩、传输过程中都有可能引入清晰度上的退化和瑕疵问题,如何处理成因复杂退化的同时尽可能多地恢复多的细节,是算法处理的最难的地方。


为此,火山引擎多媒体实验室特别设计了多帧输入的神经网络去交错算法,相比于传统固定去交错算法,新的算法细节恢复得更好,运动场景的拉丝情况也能得到更好的解决。另外,基于在大量数据上训练的深度学习算法,火山引擎将视频的分辨率档位的从低清处理至超高清,同时在缺少纹理的区域生成更丰富的细节。



和画质修复相比,音频修复并不会简单多少,需要处理噪声干扰、带宽不足、响度问题,通过演示,火山引擎音频技术团队研究员舒晓峰给我播放了一段修复前后对比的音效。修复前的歌声虽然动听,但还是会听到滋啦作响的背景音,而修复完成后的音频,背景声变干净了。


“和画质修复一样,音频修复也运用了多种算法技术,包括音频降噪算法、音频超分算法、响度算法。”舒晓峰以一部分Beyond Live 1991生命接触演唱会为例,由于当时的拾音设备并不好,导致录音时避免不了携带环境音,但传统降噪方案主要针对人声,并不适合演唱会场景,所以这个AI降噪算法得既能兼容音乐和人声场景,还可以抑制其它噪声。



02
场景刷新与新物种长成



火山引擎对Beyond演唱会超清修复只是表象,本质可以视为新派玩家的小试牛刀。


作为字节跳动旗下的云服务,虽然火山引擎2021年才正式对外发布品牌,但其在视频技术上的实力已经不容小觑。除了本次超清修复的能力,火山引擎还有还有完整的画质全链路端到端解决方案,以及面向体验打造的视频云。


一个完整的视频消费链路包括上传、转码、传输、消费等,如果要想对画质和用户体验进行优化,整个消费链路都得考虑,并整体优化。火山引擎就拥有一套全链路端到端的画质解决方案,在其中的多个环节中对视频内容进行画质、码率、体验的优化。据介绍,该解决方案主要包括服务端分析系统、服务端视频处理系统,客户端解码后处理系统。


画质全链路端到端解决方案之外,火山引擎还提供完整的视频云能力,并为用户的四大体验负责,包括互动体验、播放体验、画质体验、性能体验。



为用户提供四大体验的背后,火山引擎视频云有很多的技术积累。这里简单说下,比如说在播放侧,火山引擎的首帧时间很短,能将首帧时间压缩到100ms以下,让用户感觉不到首帧存在;其次,火山引擎的播放器稳定性好,崩溃率小于1/100000,每天刷100个短视频,3年才能遇到一次播放器崩溃。画质体验上,火山引擎在MSU2020获得17项冠军的视频编码算法,能让视频体积小,但画质却很高清。性能体验侧,火山引擎自研的图像编解码算法效果更优,压缩体积相比行业优化10%-20%,并且这个技术还在今年获得第五届国际深度学习图像压缩挑战赛视频赛道冠军。互动体验,就不多说了,抖音的美颜、特效、滤镜应用,大部分人应该都体验过,这个能力也被集成到火山引擎视频云上来了。


对于普通人来说,视频云是一个新概念,就像人们刚听到火山引擎时的感觉一样。但人们所不知道的是,在视频云方向,火山引擎除了服务抖音、西瓜、飞书等产品,还服务了耳熟能详的凯叔讲故事、三七互娱、得到等外部公司,帮助他们给用户提供体验更好的视频能力。


从零售革命到AWS、Kindle、Prime和一家电影制片厂,这么些年来,我们常常对贝索斯和他的亚马逊的创意机器感到诧异,却忽略了商业逻辑上最简单的道理——产品其实是为需求而生,和其它公司相比,亚马逊更注重为客户创造价值,甚至他们会花18个月的时间来深入思考他们究竟要服务什么样的客户,以及什么样的功能是被真正需要的。


在视频成为一种主流的表达方式和传播载体的今天,视频的用户体验无疑是用户真正需要且关心的点,火山引擎面向体验的视频云无疑是摸准了当下视频技术最本质的脉搏。



03
新一年的方向与路



视频云只是火山引擎云服务版图的其中一块。火山引擎这个被外界称为多云时代的搅局者,在一开始对云服务的设计初衷就是做数字化的中台和增长引擎。就像刘润所讲到的,在没有工具的时候,数字化只是一个哲学问题,但如果想要把哲学变成实学,那就需要工具,而数字化中台就是能帮助企业够到天花板的台阶。


作为字节跳动“能力溢出”后的技术层面的全新探索,从火山引擎官网正式上线那一刻起,它的衍变就分为两个阶段,第一阶段推出的产品和服务以应用层和中间层为主,属于SaaS和PaaS范畴,主要聚焦企业的智能增长,发挥推荐算法和相关技术的局部优势;第二阶段从去年开始,通过全面布局PaaS和SaaS领域,并逐渐向IaaS领域进军。


“探索”速度非常快。火山引擎2021年6月举办“全擎而进”品牌发布会,发布“火种计划”;同年11月,火山引擎成为BU,在字节内部变得更加独立和重要;12月,火山引擎发布全系五大类 78 项云服务。


火山引擎瞄准的正是企业“从一云到多云”的趋势,从而切入市场,这也是火山引擎另辟蹊径的地方,避开国内云市场“三足鼎立”的激烈竞争区间,探索“先SaaS+PaaS后IaaS”新路径,沿着市场需求脉搏跳动的地方,先卡点再做深,短期观察产品架构初步完善,挑选标杆客户并展开实践。


具体到打法上,火山引擎总裁谭待曾公开强调,“追求极致性价比”是火山引擎的首要服务理念,但极致性价比绝不是商业策略,更不是打价格战,而是通过技术驱动和资源共享,追求每个GB存储、每一次计算的最优配置,某种程度上,这和AWS“客户至尚”的理念如出一辙。


火山引擎和其它云的另一个不同在于,它重新诠释了什么是云原生,很多人将Cloud Hosting等同于Cloud Native,浅显地认为只要把应用搬到云上就是云原生,但就像面向体验的视频云理念所描述的,云原生的主语不应该是平台或者工具,而是业务和应用,看它是否充分地把底层技术的能力向上传递至业务和应用侧。



回到我们一开始谈到的创意机器和社会进步问题,其实你会发现一些技术之所以能实现规模落地,关键在于它并不是按部就班规划好的,而是向“实”而生。这里的“实”有两层意思,第一,它得是真需求而不是伪命题;第二,它得有实实在在解决问题的能力。


最近,火山引擎在其官方微信公众号上多次预告主题为“数字新引擎,云上新增长”原动力发布会。公开信息显示,火山引擎预计将在7月20日全面发布云上增长解决方案。今年的外部挑战非常大,相信大家应该有所体会,在这样的时间点全面发布云上增长解决方案,火山引擎或许是通过开放字节最佳技术实践和行业共创的方案,助力企业找到动力引擎,在慢下来的世界里依然持续增长。