英雄联盟S11直播延迟30秒这次网友反应有点不太一样
更新时间:2021-12-14 11:36:42 点击量:
我们顺藤摸瓜来到了这个频道,发现这是B站专门为听障人士推出的无障碍直播间:
跟常规直播间不同的是,这个直播间是有AI实时字幕的,解说提到的队名“T1”、“poke”等黑话基本都能正确显示。
其实,像这种直播字幕背后的AI实时语音识别技术,已经有不少应用了。包括油管的直播字幕、谷歌移动设备的视频字幕和微软PPT演讲字幕等,都属于这类技术。
实时字幕是在视频编解码过程中,对音频进行快速语音识别,再与视频一起输出的效果,整体大概是这么一个过程:
可以看到,视频本身还需要经过编解码等传输流程,实时字幕制作则处在编码和解码中间的位置。
从技术本身来看,实时字幕用的是语音识别,具体分为人工识别和自动语音识别(ASR)两种。
此前,由于ASR准确率上不去(尤其是中文识别),人工识别又需要好几分钟延迟,大型比赛直播中采用实时AI字幕的不多。
这些年AI技术上来了,视频中应用自动语音识别ASR制作字幕的也多了起来,具体又分为流式ASR和非流式ASR。
非流式,指整段输入语音、再输出文字的结果;流式,指像“流水线一样”实时输出转文字结果。
目前的流式ASR可以做到速度极快(毫秒级,肉眼看起来是实时)的输出,经过训练也能达到不错的准确率;但与此同时,它也还有不少优化空间。
对于不同直播来说,选择语音识别方法时,主要会从准确率和识别速度进行考量,像新闻直播更重视准确率,娱乐赛事直播更侧重识别速度。
由于听障人士无法快速建立视听之间的联系,错字词需要更多反应时间,字幕的准确性要更高;此外,转录的字句需要有一定视觉流畅性;最后,赛事直播的延迟也不能太高。
一方面,受限于语音的停顿、音频切分的长度,流式ASR目前能做到低延迟和基本的准确率,但往往视觉阅读的流畅性会有所降低,“每个字都会,停顿后就看不懂了”:
另一方面,流式ASR模型需要满足一定长度的音频输入,才会处理并输出文字,非常依赖语速和说话流畅度的稳定。
例如,主持人通常在电竞团战或是进球前夕等情况下,语速变得非常快(例如华少最快能达到18秒215字),或是因为思考出现频繁断句,就会严重影响流式ASR技术的“发挥”。
在这种情况下,流式ASR语音识别的结果如不经过处理、直接输出的话,就会出现字幕空白、频繁停顿,或是大段爆发输出的情况。
为了让字幕流更加稳定(能输出整段整句)、准确率也更高,B站在采用讯飞听见技术进行流式ASR识别(毫秒级延迟)时,选择将无障碍直播间整体进行适当延迟,来确保阅读流畅性,主要做了这些操作:
其一,B站专门梳理了英雄联盟赛事相关的500+专有词汇,包括战队、选手、赛区、游戏英雄名称、比赛术语、解说相关术语、S赛名句等等,将这些词汇接入到讯飞听见服务器中,进行转译结果优化处理;
其二,针对语速不稳定的情况,在文字处理部分,B站将流式ASR输出的文字,根据阅读习惯进行自动换行,使之更符合用户的视觉理解;
其三,针对整体阅读体验,B站专门制作了一款辅助软件,将人工复查操作进一步流程化,进一步为听障人士提升字幕准确率……
B站邀请了手语翻译的代表人物韩清泉老师,由其领衔的专业翻译团队来进行手语辅助,他们会在赛果播报及赛后采访环节提供实时手语翻译。
此外,在每个比赛日,直播间还推出了观赛小助手,即手语教学内容。像网友都很好奇的超神、一血、补刀、中单、辅助、经济等这些热门词汇,此前都已经一一亮相。
不少人认为,之所以上线手语辅助功能,是因为语音转字幕会出错,而手语能够帮助理解。
韩清泉老师解释说,对于会手语的朋友而言,如果只有文字和手语两种交流方式可供选择,他们一定会毫不犹豫选择手语,因为用手语交流会有强烈的代入感。通过这种方式,听障朋友们就能强烈感受到被这么多人关注着。
至于大家很疑惑的“为什么不是全程的手语直播?”事实上,手语也是有方言的。像英雄联盟这类全球性的游戏赛事,要想全程手语直播,需要建立一套新的专有名词。
现有的语音实时字幕虽然无法做到100%准确,但已经能满足大部分听障人士的理解需求。
2006年全国第二次残疾人抽样调查显示,我国残疾性听力障碍人群达到2780万;而根据2017年北京听力协会预估,中国听障人士的数量已经达到7200万,这个数字仍在持续增长。
如今,B站为了照顾这当中一些赛事爱好者的观赛体验,专门开设无障碍直播间,引得不少网友纷纷点赞:
这次的无障碍我真的吹爆!虽然残障人士是少数人,但少数人也有享受一切的资格。
30厘米长的手柄上有两个大的可编程按钮和19个插孔,可连接到一系列的操纵杆、按钮和开关。
即便有些玩家对价格表示不满,因为这款手柄要99美元(人民币700元左右),比普通手柄高出40美元,但当时在业内却引起了不少的轰动以及好评。
那一年,这件产品还被时代周刊评为50大发明之一,并获得意大利电子游戏奖创新奖。
三大游戏厂商中的另两家索尼和任天堂,这几年也在软硬件改进上做了不少努力。
例如,(手柄等)按钮可以重新编程、文本转语音(TTS)、文本放大器等功能,都是针对肢体障碍、视障等群体的设计。
在某些需要QTE(快速反应)的游戏中,玩家可以修改手柄按键功能,将反复点按换成长按不放,也能达到连续按键效果。
任天堂系列产品,也都包含了相应辅助功能,包括触觉和听觉反馈、灰度显示、运动控制、反转颜色等玩法,为有障碍的玩家拓宽了可玩游戏范围。
去年,游戏届奥斯卡奖The Game Awards(TGA)还专门设立一项最佳无障碍创新奖,来鼓励游戏厂商们为残障玩家服务。
不止是产品中辅助功能的更新,现在,更多的科技公司开始关注到无障碍相关的技术研发。
如Tobii公司的眼动仪,就允许玩家通过眼球移动来控制数字界面,也已经有更多产品支持这项技术;又如Tribe Game的推出的《超点》动作游戏,玩家就能通过眼球追踪技术,完成对整个游戏的操控:
无障碍游戏就是脑机接口核心应用场景之一。它能让人们只通过意识就完成机械操控、文字输入等操作。
不少科技公司对这项技术投入了研究,其中就包括Steam。G胖表示,Steam正在与开源脑机接口平台OpenBCI合作,共同开发一项脑机接口软件开源项目。
可以明显看到,更多科技公司与平台在关注残障人群“无障碍”体验文娱服务这件事。
以往我们多数人只是在电视新闻中看到有企业机构关注他们的现实生计、刚需,但细想一下,这些听障朋友的精神需求,同样是生活中重要一环。
除了最直接的影响——对残障人士有益之外,科技走向“无障碍”本身还有更多额外价值。
如今,数字化智能化服务为大多数人带来便利,但始终存在这样一批被拦截在技术之外的“失语者”和“局外人”。
他们或是不同程度的残障人士,或是行动不便的老年人、又或是那些因为特殊原因不能享受科技福祉的少数群体。
如前所述,就是那些原本改变这一切的人,所谓的“无障碍”场景,正是技术人员的练兵场。
即使输出的产品功能再小、技术也不那么前沿,但只要能物尽其用,它所带来的价值就会更加长远。
这次B站是聚焦听障群体,下次也许就是视障群体,再下次可能就是老年用户……细想一下,一个平台最终不正是这么多小众用户共同组成的么?
如果哪天,地球上不再存在什么“失语者”、“局外人”,技术无障碍的终极意义,也就真正实现了吧。