车联网名词注解系列——语音控制篇

文章来源:汽车之家 发布时间:2020-02-14
分享到
这第一期,我们就先聊聊车联网语音控制中的那些常见名词。

在过去一年的智能车联测试项目中,总有朋友提问:我们在文章中提到的很多名词,很难从字面理解是什么意思,有时候会让人摸不着头脑。正好借着这个各位居家“沉淀”自己的机会,我们就开启一个系列,挨个为大家注解那些晦涩难懂的专有名词,讲讲它们的含义、背景和意义,也备日后相关文章引用。这第一期,我们就先聊聊语音控制中的那些常见名词。

语音控制

STT和TTS

互联网常识告诉我们:当两个字母/数字中间夹着一个“T”或者“2”时,它大概率指代“to”这个单词,例如:P2P、B2C、V2X,STT和TTS也是类似。

语音控制
语音控制

在部分技术文献中,这个环节也被称为ASR(Automatic Speech Recognition,自动语音识别),是融合了语言学、计算机科学以及电气工程领域知识和研究的一个复杂项目。

语音控制
语音控制
语音控制

我们在宣传语中经常听到的“语音引擎”,通常就是指这五个环节的集合。在研发当中,尽管部分供应商具备完整的解决方案,但往往一辆车的语音控制系统会在不同环节选择不同的供应商,彼此通力合作,才达到最终的效果。

语音控制

除了我们上文中解释过的词汇,NLP(Natural Language Processing,自然语言处理)是把用户的指令转化为结构化的、机器可理解的语言。

语音控制
语音控制

语音控制是一个复杂的涉及语言学、计算机科学、电器工程等学科,云端和本地融合的一项复杂功能,往往需要车企的电器部门和多个供应商同时合作,以达到最好的效果。对服务商而言,想提供最好的产品,需要在语言分析、指令集上常年累月的积累,想做好,真的不容易。

啥?连续说?免唤醒?

OneShot连续说和免唤醒

在过去一年对车载语音控制的测试中,有两个“高频词汇”——OneShot连续说和免唤醒。它们也是除“识别率”以外,我们最为看中的语音控制功能。

语音控制

你有想过为什么一定要唤醒词吗?因为人在日常交流中很容易触发语音控制中的某些功能,唤醒词就是要规定一个时间段(唤醒之后到结束对话),在这个时间段内,语音引擎才对你说的话进行处理反馈。在现阶段的语音控制技术下,如果没有唤醒词,你将被车载语音控制骚扰到自闭。

那为什么不能像日常交流一样,直接叫名字呢?比如:李响,帮我打开空调。也是因为两三个字的名字很容易被误识别,导致误触发语音控制。所以唤醒词通常会被设置成“叠词”、“打招呼+名字”以及“某某同学”等,以降低误触发的概率。

但这也导致一个问题——人与人的交流模式完全不是这样啊!下面这张图是基本的车载语音控制交流模式,你看是不是特别熟悉。

语音控制

OneShot是什么意思呢,很简单,即唤醒词可以和指令一起说,而不是先说唤醒词,等待系统回应后,再下达指令。有了OneShot连续说功能后,是这样的。

语音控制

免唤醒词又是是什么意思呢,顾名思义,连唤醒词都免了,不需要呼出语音控制功能,直接下达指令即可,如下:

语音控制

发现没有,这是一个越来越接近人与人交流方式的过程,同时也是一个越来越缺乏礼貌的过程,对的,人的交流方式就是没礼貌的。

语音控制

以上是OneShot和免唤醒的含义和意义。而关于免唤醒词,这里还要多说两句,现阶段,免唤醒主要分为两种模式。

语音控制

或是在音乐播放界面下,你可以直接说“暂停”、“下一首”、“增大音量”,而不需要先唤醒语音控制功能。这是目前应用最广泛的免唤醒方案。


语音控制

在采用科大讯飞语音引擎的部分车型(长安CS95、奇瑞艾瑞泽GX冠军版等)上使用的就是这套逻辑。

这里我们也看到,在大部分功能都可以直接下达指令的情况下,系统还是要限定一个时长,如果不限定时间,误唤醒问题出现的概率仍然是难以接受的。试想一下,你和副驾驶愉悦地聊着今天天气真不错时,突然,系统开始自说自话:“今天北京天气晴,空气质量……”这样的情况出现两次,你可能就会永久关闭语音控制功能了。

小结

车联网名词注解系列的第一期,我们解释了语音控制系统的几个名词,聊了它们的定义、背景和价值。人与人的沟通,其实绝大部分都是通过“说”和“听”来实现的,当然,我们还有表情、手势等等,相比之下,想要让机器理解表情和手势的含义就更难了。各大车企、研究机构、语音交互方案提供商口中的类人交互,就是让机器学会理解语言、看懂手势甚至体会情感,语音控制作为其中一项,也才处于起步阶段呢。什么时候把“处理”真地变成“理解”,我们才进入了下一个更加智能的阶段。


收藏
赞一下
0