ChatGPT火了之后,Sam Altman的话开始被挖出来,反复咀嚼,奉为圭臬。
他曾有一个很简单的定义一种产品或技术革新是否具备确定性的方法:一小撮最先接触到它的人每天会在这东西上花很长小时,长期沉浸其中,那这东西大概能成;反之,如果一个新事物仍然在哪怕一小撮人都无法上瘾的阶段,那一个新的浪潮就还不是时候。
这位OpenAI创始人重新夸赞了一番iPhone,又踩了一脚VR,然后将ChatGPT推上那个“iPhone时刻”。但这样看起来基于常识又过于理想化的判断思路并不是没有反例,比如曾短暂风靡的Clubhouse。
或许有一种更长尾角度的判断思路。比如当最坚固的诺基亚用户也开始打听乔布斯,那“iPhone时刻”才真的来了;或者当穿着白袍,戴着白巾的保守中东网民开始举着手机社交的时候,世界才确定真的进一步跨越到了一个实时互动的巨大浪潮里。
2016年成立的 Yalla Group是目前语聊房市场中体量最大的公司,它在2020年成为阿联酋第一家在纽交所上市的科技公司。上市三年后,这已经是一个月活用户接近3200万人,付费用户超过1200万人的巨型流量体。
在Yalla的聊天房里,经常可以看到超过1000人同时在场的盛况。在这个上线2000人的音频空间里,很多声音是从沙特阿拉伯、卡塔尔甚至阿联酋传过来的。
这样的事正在发生。
实时互动浪潮
实时互动的浪潮在国内汹涌,无数场线上演唱会的出现佐证着这场实时互动的技术变革。
近年鲜有在公众视线中露面的罗大佑在去年5月完成了自己的首场线上演唱会,他唱了21首歌,4200万人通过微信视频号看了这场演出。而在同一天,孙燕姿在抖音上做了自己的第一场线上“唱聊会”,观看次数(同一账号可重复计入)达到了2.4个亿。
外界将全球范围内音视频产品的兴起归因于疫情的推动,将国内线上演唱会的风潮描述为一场场平台之争,但从技术底层看来,实时音视频传输网络(Real-time Network, RTN)在延时降低、弱网对抗等方面的能力突破,乃至整体上以视听为信息流通方式的实时互动的技术成熟,才是谈论这一切的基础。
2011年WebRTC (Web Real-Time Communications)开源,然后一个完整的十年周期之后,W3C和IETF两大标准制定组织在2021年宣布WebRTC成为官方标准,此后用户无需下载额外组件或单独的应用程序,便可以支持在网络上的实时音视频通信。
“这意味着实时音视频将被带入Web的任何地方,为WebRTC第一代技术的标准化进程划上了完美句号。”声网CEO赵斌在2021年如此总结,他也将WebRTC成为官方标准的时刻看作一个起点,“下一代WebRTC技术、行业、标准进化等方面的探讨也将由此正式提上议事日程”。
RTE从技术到用户心智上已经度过了从0到1的建立过程,未来的进化方向将会由终端的场景来给出方向。从元宇宙这样复杂综合的场景到从线上演唱会这样的垂直场景,都是近年涌现出来的。在这中间,线上K歌可能是实时互动中最极端的场景之一。
它的核心玩法与除了听力的其他感官全无关系,这完全指望实时互动中音频能力的进展。艾瑞咨询的一份研报表示,时延400ms之内就可以被视为强互动体验的必要条件,当实延达到200ms内,实时互动体验开始逼近现实。对于多人K歌这样的严苛场景来说,200ms的延迟已经意味着合唱时无法被忽视的错位感。实时合唱理想的实延阈值需要低到50ms左右的水平。
“星战之父”乔治·卢卡斯曾说:“电影所呈现的效果的一半靠音效组成”。电影是人类最早对于沉浸感的梦幻发明,现在一场更剧烈的、虚拟与现实的相互入侵已经呼之欲出的时候,实时互动中的音频能力首先被考验。这个过程中,实时音频作为一种基础能力正在进一步原子化。
凤鸣AI引擎在上升,音频能力在下沉
传统的 RTC 概念,从信息传递的角度出发,音频功能仅提供简单的语音沟通,满足单一的场景和通话标准,对于音质并无太高的需求,也就是所谓的“能够沟通”。 伴随着实时互动创新场景的涌现,用户对于音频体验的需求也产生了从量变到质变的进化。
音频娱乐在当下已经不是一种独特的“需求”,而是所有泛娱乐场景中的标准配置,这为RTE技术、产品及解决方案的提供者提出了更高的要求。
比如在线 K 歌、线上会议等场景,用户的需求早已从能够沟通到希望“脱离现实”,屏蔽外界干扰,实现纯净沟通;对于元宇宙、虚拟活动、游戏竞技等场景,用户则是希望从简单沟通实现“极致拟真”的沉浸式体验。
适配当下的实时音频技术,既要听感上无限接近真实世界,又要在体验上脱离现实。这二者拟合在一起,就是声网的凤鸣AI引擎。
图源:声网
3 月 23 日,实时互动云服务商声网发布了囊括AI降噪、AI回声消除、空间音频、最佳音效在内的新一代音频技术智能引擎“凤鸣AI引擎”。开发者与企业可以如搭积木般灵活调用对应组件,并广泛应用在语聊社交、在线 K 歌、线上会议、游戏竞技、虚拟活动等诸多场景
从Yalla到Oasis,背后都是声网实时音视频技术在提供底层能力。这些最早在语聊房场景积累起来的音频实践开始沉淀成不同场景下的音效配置方案,这些方案在产品化之后,成为凤鸣AI引擎最佳音效的语音能力。
如果把音质、延迟问题当作实时音频在还原现实时遇到的最初难题,那么模拟出声音的空间感已经开始成为新的增量。空间音频能力也是声网凤鸣AI引擎瞩目的语音能力之一。
凤鸣·空间音频技术可以模拟头部球面区域立体声场,使用户在音频听感上具有空间感。当用户操作虚拟人物在虚拟场景里移动,可以实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度,呈现不同声音效果,完美模拟现实听觉感受。
凤鸣AI引擎的空间音频能力可以完成对大量场景的重建。
图源:声网
在疫情中,大量在线展会、线上博物馆的新场景出现,这些场景中已经可以构建出优秀的视觉空间效果;另一条线上,由Clubhouse带起的互动播客将声音的空间感推向外界。这样的空间音频效果如果叠加上进当前已有的线上场景,将进一步颠覆后者的体验。
比如当罗大佑再次出现在线上演唱会时,听众可以听出罗大佑身后乐队中吉他手和贝斯手的位置区别;或者在一场博物馆的线上游览中,参观者可以随着自己的走动听到“身边”其他人对于展品的议论。
同时,空间音频是元宇宙和游戏这类具备 3D 场景玩法的最佳搭档,如狼人杀、虚拟演唱会、虚拟活动等场景,可以有效的增强用户在线上的互动、听觉体验,重构用户在虚拟世界的沉浸感与临场感。
并且由于声网3D空间音频采用纯软件算法方案,对于调用的开发者来说无需考虑硬件设备因素。通过任意耳机在手机和电脑端即可体验沉浸感受,且支持 iOS、Android、Mac、Windows、Unity、Unreal等多平台。开发者不必担心空间音频功能对于用户设备的影响。据数据测算,开启空间音频功能后,相应设备 CPU 消耗增幅平均值< 0.7%,内存消耗增幅平均值< 2M。
沉浸感交给AI
极致的音效和空间音频能力能够让凤鸣AI引擎尽可能的在实时互动场景中还原出声音的真实。另一方面,AI能力让这种真实成为体验上脱离现实的沉浸感。
键盘敲击声、房屋的装修动静或者室外的汽车噪音,这些真实的声音会影响沉浸感的形成。声网凤鸣AI引擎集成了利用算法对稳态和非稳态噪音进行屏蔽的AI降噪能力,可以在保证人声无损伤的前提下,强力抑制 100+ 类型突发噪声,在低信噪比或人声密集场景下实现纯净通话体验。声网表示,凤鸣AI引擎的降噪能力几乎可以覆盖现实中常见的所有噪音种类。
图源:声网
对噪音的改善本质上是为了保证实时音频交流中纯净的通话体验。凤鸣AI引擎灵活的降噪能力在保证强降噪的同时可以兼顾高保真。这意味着它可以穿透商场这种人声极度密集的场景。并且当对话者暂时远离麦克风导致声音模糊时,声网的 AI 降噪算法也可以做到使对端能清晰的听到该用户的声音。
除此之外,凤鸣AI引擎的另一项能力在于强力的回声消除能力。在线上会议、在线K歌、多人连麦等场景中,回声的存在是影响通话质量以及互动体验最大的因素之一。声网的AI回声消除技术可以利用算法对环境中产生的回声混响进行有效抑制,并且能够智能适应各类环境以及对不同音源做精准分离,从混合的近端信号中消除不必要的远端信号,保留近端人声发送到远端,从而实现全面消除回声,实现高保真音频体验。
图源:声网
尾声
声望在2021年发布了RTE万象图谱,这张巨大的实时互动生态图景中已经出现了围绕教育、泛娱乐、IoT、企业协作、金融、医疗等20多个行业赛道的200多个场景。作为实时互动底层技术服务商,并且正在推动这场浪潮的声网,带来的明确反馈是,音频体验的提升能够增强平台用户的核心体验。
对于相关的开发者和行业用户来说这直接意味着,对噪音的抑制能够提升语聊房用户活跃度和留存,以及游戏开黑场景的通话时长;回声消除能显著提升用户的在线 K 歌体验;而立体、具备空间感的音频体验则能提升元宇宙社交、游戏竞技、线上会议、虚拟活动等场景中用户的临场感和沉浸感。
在业务边界不断扩展,对实时音视频体验的诉求越来越垂直化的情况下,以往功能单一的玩法已很难变现,融合更多玩法是趋势,而凤鸣AI引擎则是一个集成式的实时音频解决方案。
相比声网此前自研Solo和Nova引擎在音频 Codec 维度的创新,凤鸣引擎的改进主要集中在3A、空间音频和AI方法的引入上,这是声网在RTC音频领域针对核心技术的长期投入结果。声网算法专家许冉指出,未来声网将基于凤鸣AI引擎形成新一代RTC 音频解决方案,比如探索更个性化的语音方案、语音超分、co-experiencing场景等。
而凤鸣AI引擎本身也会继续进化。声网音频娱乐产品负责人杨帆介绍,凤鸣AI引擎目前正在开发变声这一功能,用户将可以体验20+变声风格,多样角色扮演花式玩转语聊场景。
随着凤鸣AI引擎的发布,声网作为底层技术服务商的角色进一步加强。实时互动领域的进一步繁荣,也将从RTE相关技术的整合和模块化开始。实时互动开始真的像人类需要空气和水一样,成为大众日常所需,无处不在了。