VR直播如何超越现场?微鲸VR技术VP仝晓亮演讲实录

上周,以“融合品质多元”为主题的2016上海网络视听季暨第八届中国网络视听产业论坛在上海世贸商城展览中心举行,本次活动包含10个网络视听行业细分垂直领域的特色沙龙,而我正好参加了与VR相关的VR内容沙龙。值得注意的是,本次沙龙是由微鲸VR协办的,而微鲸VR技术副总裁仝晓亮也在现场呈现了精彩的主题演讲。仝晓亮的演讲主题是“直播技术助力VR视频产业化之路”,今天我就和大家分享一下这场充满干货的主题演讲的内容,为达到最好的阅读效果,我略微进行了整理。

对于直播来说,核心的改变在于技术,没有技术就没有直播。

当提到VR带给用户的感受时,我们用到最多的词汇可能就是“临场感”或者“沉浸感”,VR能够把用户带到现场。我们认为,在现场是一个起点,如果你做不到在现场,你就不能说自己是合格的VR内容。对于微鲸VR来说,我们要做到不光在现场,而且要超越现场。

我们看一下视频产业传递的媒介,影视内容从早期的胶片、磁带到VCD、DVD再到现在,物理承载的方式一直在不断演变。我们现在更多的是数字化视听,它的承载更多依靠我们网络的带宽条件,我们可以看到信息传递的媒介也是和带宽承载能力有一个内在的关联。从早期2G时代,大家只能发短信传递文字信息;到3G时代大家看图片,分享语音;到了视频应用,视频交流,我们依赖于4G通信网络以及20兆以上比较普及的家庭带宽。我们也看到,现在直播平台非常火,这样一个现状也会进一步催生我们对于带宽的要求。反过来说,传输带宽不断提升对于我们所能够承载媒介体量都会有一个促进作用,这两者并不是一个因果关系,但他们实际上有一个深刻的互相内在关联。

提到直播,我们认为它会是VR视频内容比较早的走出商业化步骤的起点。目前VR视频内容的商业化模式有可能有哪些?我在这里说一些我的看法,但并不一定是说有非常好、非常成熟的商业实践,至少我们看到了一些苗头。一种是院线的票房和线下付费体验,做得比较好VR影视内容本身可以收费;第二种是企业的宣传片,这是To B的业务,付费方是企业,它的观众可能就是企业的员工以及企业的客户;第三种是景区的导览,这种付费方可能是政府,它的目标对象应该是游客或者潜在游客;对于婚礼、发布会也是To B的模式,实现商业化。还有广告,目前VR广告本身都是比较精彩的VR内容,这是它跟传统广告不同的一点;另外一种是在VR内容里面贴广告。接下来还有秀场,我们已经看到有秀场平台在做VR的演进,这应该是最接近让用户付费的方式。接下来是体育和音乐两大领域,这两大领域里面,目前用户在传统直播领域开始形成比较好的付费习惯,我们可以做在线音乐会付费门票,比如50块或者30块一张,你通过网络观看这种已经比较流行了,这也是我们认为直播能迈出商业化的前提。

我们认为,直播的技术对于VR视频体验带来的是强化的作用,具体来说主要有以下几点。

第一点,体育类的比较强调竞技性或者竞赛的内容,是有时效性的。我们以前在学校的时候,看NBA的比赛,通常都是上课的时间,如果周末,你可以全程观看,你的感受与下课之后再下载比赛的录像再看,你的感受其实不一样,因为你已经知道结果甚至已经知道过程了,这个乐趣就少掉很多,这是直播本身特有的属性,不仅限于VR。

第二点,我们对VR周边环境还会很好奇,如果我们对于这个过程和结果保持好奇心的话,会把更多注意力放在内容本身。这样有助于提升用户的体验,直播技术会使得我们场内和场外的互动成为可能。对于直播来说,这种可能性是存在的,而且我们已经看到了这样的尝试,比如演唱会现场大屏幕和场外做直联,相当于做一场直播,把现场变成一个大的秀场,场外观众通过网络观看可以献花、送礼物有其他的互动方式,这些结果会呈现在大屏幕上,可以实现场内场外互动,以及包括明星与非现场粉丝之间产生互动。

最后,通过直播的技术,可以使虚拟的世界带来比较现实的社交空间。举个例子,我们接下来要做篮球赛的直播,虽然我和我的好友不能到现场看篮球比赛,但是我们可以待在各自家里,戴上VR头盔看这样一场直播,我们在同一个时间点在这个过程中间可以通过语音交互,不光可以看球还可以一起评论。如果我是一个行家,我可以通过这种方式形成一个我自己的私人演播室,我可以邀请周围好友听我给他们讲球,这就是现实场景在虚拟世界的延伸。这样的场景只有在直播技术下才可以实现。

直播的技术究竟是如何做到呢?我简单说一下我们目前所采用直播系统的架构。

VR视频直播包含视频的采集和音频这两块,对于视频来说采集到的视频需要全景的拼接,再按照一定规则做投影,最后和传统的直播就比较接近,做一些播控。对于音频采集处理要特殊一点,全景音频处理非常困难,到目前为止还没有特别成熟的解决方案,只能看到一些有深厚积累的公司在做尝试,在直播场景下面也很难支撑到实施性的要求。在这一点上,后面我们还会继续去做一些深入的探索。全景化之后我们会做音视频加嵌编码推流CDN分发和用户观看,这是我们采用的技术架构。是不是所有团队都这样做?不一定,未来我们是不是还会这样做?也不一定。

未来VR直播技术会有哪些发展方向呢?说一下我个人的看法。

第一个方向,在我们刚才展示的架构下面,以传统直播技术体系做参照,以传统直播体验做标杆,从VR功能和性能的可靠性不断逼近传统的可靠性。以体育直播为例,因为这是一个传统直播技术最高的品类,在直播过程当中,我们其实通过传统直播技术比在现场可能看得更好,你不一定感受到现场的氛围,但你一定能看得更清楚,因为你会有慢动作,会有及时的回放,休息期间还可以看到刚刚过去的赛事集锦,所有技术支撑来提升用户的体验。类似这些东西,我们认为对用户体验有价值的东西,在VR直播技术当中,我们都会考虑要把它实现。在VR直播技术当中给用户的体验是不是会有不同?只有试过才知道。

第二个方向,相对于现有传统直播设备、技术、工作流程,我们有一套完整的、全新的基于IP、集合传统直播功能的一站式软硬件的解决方案,我们在现场有非常强大的工作站,它可以通过软件技术实现原有直播当中的所有设备的功能。基于IP前提为什么要加在这里呢?基于我们对超高分辨率技术采集的需求,这样的需求对传统直播也是一个瓶颈,传统直播是非常成熟的解决方案,但是对于4K直播、对于4K体育直播,国内还没有成熟的解决方案。基于IP的话,这是一个方向,对于传统直播来说也是一个方向。

第三种可能性,我认为是完全面向未来基于云服务的自助式解决方案。我们在现场可能仅仅要做的事情就是信号的采集,采集完我们保持直接联网的状态,随时随地把自己采集到的视频流传送到云端,后面所有一切工作由云端完成,这样大大简化现场的系统和部署,这样有更好的灵活性。这是我认为未来直播技术发展的方向。

我们现在不管是VR影视也好,还是VR直播也好,提升用户体验还受到一些限制。

我把第一位排给了机位的稀缺度,俗话说“一白遮百丑”,如果你的机位距离主体足够近,可能后面所有问题都是可忽略的,这是我的第一个观点。后面的清晰度、流畅度这些是老生常谈,所有的VR用户抱怨都集中在这一块。另外还有很深刻的影响就是交互的便利性,我在VR播放界面里面如何做操作,我想很多用户都有这方面的难题。

下面一行其实是用户端的瓶颈,我们现在大多数用户还是通过手机来观看,手机的解码能力、功耗、头动时延,这些都会影响到用户会不会晕眩,包括屏幕显示效果,我们在实验的过程当中都看到不同的差异,不同终端的表现不一样。这些并不是直播技术本身的瓶颈,但是它也限制了直播技术给用户带来体验的提升。

如果我们单独看VR直播技术,它有下面一些瓶颈。

第一点,我们现在传统直播的设备、技术以及信号制作方法,对于VR模式是不友好的。

举个例子来说,这是我们“昆仑决”直播信号里面的一张截图,大家看一下底部加载logo的位置,谁能第一眼看到里面有昆仑决三个字呢?三种主色调,蓝色、黄色、红色,红色加着银灰色就是昆仑决三个字,如果我在里面加载字幕,不能直接放在上面,要做处理,这样观众看上去才是对的。还有一个问题,对于这种展开模式来说,在画面不同的高度,它的畸变效果不一样,如果在屏幕的正中间你可能不用做任何畸变,如果在顶部或者底部,你就要做到连他妈都不认识的状态。如果现在有一个特效从天上掉下来,它每移动一帧像素就要做一次畸变的校正,这样的工作怎么完成呢?

VR由于其视频的独特性,因为是基于球面,我们现有的工具都是基于平面,其实在球面是不能支撑到的。我给大家展示的还是目前相对好的状态,至少我们可以有一种方式,有一种方法,先把这种预畸变做好,直播的时候再加载进去。但这种方式是最通用的方式,对带宽需求最高,如果我们用算法把带宽降下来又是什么情况呢?

这是我们采用八面体的方式得到的画面,谁能告诉我加字幕应该怎么加?所以可以看到,整个产业链对VR内容的模式来说是非常不友好的。

我们再看另外一个话题,就是带宽。这块大家讨论都很多,有说30、50倍,其实我们不用说得那么夸张,至少5倍到10倍更高的带宽需求是毫无疑问的。

刚才也提到客户端的硬件性能,我们要更高的画质,就要更高的分辨率,包括采用更有效的编码手段。我们把制作精美并且高效压缩的信号给到用户之后,他打开只有黑屏,那就没有任何意义。

另外,我们现有编码优化的经验,在VR观看模式下是水土不服的。这里面要稍微解释一下,投影和编码其实是两个不同的阶段。这里的编码优化在长期以来是一直都存在的,对于传统视频在网络上的传播也是需要做编码优化的。我们试过有很多很好的编码器,他们对于传统的视频做一个编码压缩之后,相同码率下带来30%左右的画质提升。同样条件下在VR里面是怎样呢?我们也做了一个对照测试,结果很超出我的预期。在基于电视或者是PC手机观看模式下面,更优的编码优化方式,在VR观看模式下面效果最差。现在对于VR模式下的编码优化,没有任何人有经验,之前所有的经验都是基于PC、电视,这些经验到了今天全部归零。

我们如何来打破瓶颈最终实现对现场的超越呢?这也是微鲸VR对于自己的规划。

首先,我们可以做6K和8K的原始数据采集,这是清晰度的技术,至少在原端要保证超高清。

其次,我们会优化投影和编码两个算法,目的就是要提升画质,大幅度降低我们对带宽的需求。投影这块我们已经有了很多研发投入,也有专利的布局,这块工作已经做得很到位了,但是编码的优化刚才也提到,我们刚刚发现比较震惊的结果,所有编码优化的成果到了VR面前都归零,后面在这块我们也会加大投入。

最后,我们要对直播的技术做产品化,产品化最终影响是用户最直观的体验,我们在直播的过程当中,对内容的延展,对实时数据做一些补充,对于增加互动以及社交等等,让用户在观看直播的时候,能够更自在,能够看到比现场更多。

比如我在观看球赛的时候,如果在现场大屏幕上只能看到实时的比分和比较简要的数据统计,以及时间进度等等很简要的信息,在VR直播里面由于我们有360度空间,我们有足够的空间来展示更多内容,我们可以延展展示比如每个球员个人的信息,球队过去的战绩等等,这些东西我们都可以放在背后,大多数时候你都可以关注比赛,但是你想知道这些信息的时候,转身之后有一个浏览器在后面可以帮助你查询所有数据,这是内容的延展。

另外我们可以承载更多实时数据,在现场大屏幕都看不到的实时数据。此外就是互动,跟现场的互动,包括我前面举的例子,在虚拟场景下面可以跟好友一起看球的社交体验。

我们认为这些内容做起来,作为一个独立的产品本身,它能够给用户带来一个非常好的体验。再加上我们的直播技术,如果我们解决了清晰度的问题,解决了带宽问题,我们能够很清晰、很流畅观看到现场,我们觉得就没有必要再去现场。当然对于不同人来说,还有不同的价值判断,但对于大部分人来说多了一种选择。所以如果我们做到这一点,我期待下一次论坛大家都不用亲自到这里来了,谢谢大家!

来源:913vr