车载导航中人机语音交互系统的设计与实现

2010-08-04

　　语音作为自然的人机接口，可以使系统实现更安全、更人性化的操作。通过国内外车载导航系统的功能对比可知，支持是车载导航系统的一个发展趋势。另外，市场信息服务公司J.D Power and Associates的调研数据也表明，56％的消费者更倾向于选择声控的导航系统。因此，开发车载语音导航系统是很有意义的。目前，国内已经具备开发车载语音导航系统的技术基础，特别是文语转换TTS技术和基于中小词汇量的语音命令识别技术已经达到比较实用的程度。本文在课题组的车载导航系统和国内两款语音引擎的基础上，开发了一套支持语音交互的车载导航系统。

　　车载语音导航系统结构

　　车载语音导航系统从功能上分为车载导航和导航语音交互两方面。其中车载导航功能包括卫星导航定位、电子地图浏览查询、智能的路径规划、车辆地理位置和速度等导航信息的实时显示；导航语音交互功能分为语音操作和语音提示两部分。在系统的设计中，根据人机交互的需求，设计语音导航系统的硬件框架如图 1所示。

语音导航系统的硬件框架

　　语音导航系统和用户之间的人机交互接口由触摸屏、按钮、话筒、显示屏和扩音器等五个交互设备组成。该硬件框架可实现常规的手动交互方式，也可以实现语音交互方式。整个系统划分为三个子系统：导航子系统、语音识别子系统和语音合成子系统，各子系统间通过接口进行通信，协调完成语音导航任务。

　　车载导航人机语音交互系统对话模式设计

　　导航系统的状态转换网络

　　整个导航系统是一个复杂的人机交互系统，为便于语音交互对话模式的设计，首先对系统作状态划分，然后从人机交互的角度描述整个系统的状态转换网络。将系统划分为地图浏览、功能选择等六个功能状态和一个退出状态。图2描述了这些状态之间的状态转换网络。

状态转换网络

　　图中的节点代表系统的各个状态，带箭头的连线代表从源状态到目标状态的转换。状态转换网络接收用户的操作作为驱动事件，完成从一个状态到另一状态的转换，网络中的一条路径便代表着特定的交互过程。

　　导航系统各状态节点对话模式设计

　　为便于描述各状态节点内部的对话模式，将状态节点按图2所示编号为S1~S7，用Tmn表示状态节点Sm到状态节点Sn的转换。另外，借鉴状态流 stateflow模型的表示方法，提出用于描述车载导航人机语音交互系统中的对话模型。重新定义转换的描述方式，用四个属性来描述状态节点内的一次转换：

　　T={P1,P2,P3,P4} (1)

　　其中，t用于表示一个转换，P1~P4为转换的属性：P1为语音事件；P2为语音输出；P3为附加条件；P4为转换动作。

　　这样，一个转换t便描述了一次对话中用户的语音输入、系统的语音输出、对话受到的限制条件以及系统执行的动作。

　　以地图浏览状态为例，说明对话模式设计的过程。地图浏览状态由两个互斥的子状态组成：地图漫游状态和车辆引导状态(参见图2)。这两种子状态的人机交互大部分相同，所以将二者统一划分在地图浏览状态下。对于区分对待这两个子状态的交互过程，可以通过附加条件来判断当前子状态，再作不同的处理。地图浏览状态节点的对话模式设计如图3所示。

地图浏览状态节点的对话模式设计

　　语音控制命令的实现

　　语音控制命令的实现方案如图4所示。图中左边方框代表整个语音导航系统对话模式的状态转换网络STN。根据对话模式的设计，将系统分为地图浏览状态、功能选择状态、路径规划状态等7个状态节点，每个状态节点内部均存在各自的语音对话模式，对话模式由若干内部转换组成。因此，整个语音导航系统是一个两层结构的状态转换网络，其内部转换由语音事件驱动。语音事件由导航子系统的接口模块根据语音识别子系统发送的用户意图而产生。

语音控制命令的实现方案