普强信息技术(北京)有限公司的核心技术是语音识别和语义理解,在今年CES Asia四维图新展台亮相了一款前装语音助手产品。
CEO何国涛谈规划爱用“我的理想”。他把公司汽车语音产品分为三级进阶:第一步实现车内自然语音识别和理解;第二步成为更接近自然对话的语音助手,可以多轮对话和随机打断;第三步做多模态人机交互。
2009年诞生于硅谷,2010年落定中国,车云菌坐在普强位于中关村云基地的办公室时,现实正走在第二阶段。
“本地+云端”、“软件+硬件”
今年5月CES Asia展示的是众泰SR7前装车载导航产品,由普强、四维图新、众泰合作开发。
在硬件上,普强提供了阵列麦克风可动态定位追踪声音位置,优化蓝牙通讯和语音识别效果。车载降噪DSP芯片可降低风噪胎噪和发动机引擎等车内噪音并进行去回声处理。
现场产品功能支持唤醒和自然语音交互,在展会现场的嘈杂环境依然准确识别出各种指令,操控被定制到操作系统层级。连接蓝牙后,可以与手机共享音乐列表、通讯录等信息,并且可以通过语音进行操控。
从产品表现来看,属于一阶段自然语音识别和理解。询问车端表现时,车云菌从CTO李全忠得到了一组数据。在城市环路40-80公里/小时车速下,识别率可以达到95%以上。90-120公里/小时行驶时,识别率平均在90%左右。在此基础上,空调车窗开启和麦克风位置,也会不同程度地影响识别率。
正在进行的二阶段语音助手项目,李全忠认为技术已经实现。目前普强自有的语音识别模型在大多数统计学方法之外,部分采用了神经网络算法,在一些意图理解、语义匹配等方面,会用到部分深度学习技术。用上神经网络算法后,识别率上的跃升会达到10个百分点,“如果后续优化变种,可能会带来相对20%的提升空间”。
李全忠认为,普强从一到二的突破难点,反而是车端硬件CPU和内存受限。普强计划年底随车亮相的可多轮对话和随机打断语音助手,会使用一个“本地+云端”的混合方案,通过云端强大的服务器运算能力,完成更多自然交互,同时在网络信号不佳时,交由本地识别。
房子好不好,要靠骨架,也要靠艺术家
在CEO何国涛看来,自家的技术和别人没有太多区别 ,都普遍采用神经网络算法。“技术只是骨架,房子好不好要靠艺术家,需要另一种脑子想办法”。现场接介绍产品的 ZiJun毕业于加州伯克利大学认知科学专业,是普强的交互设计师,正是何国涛口中的“艺术家”之一。
交互设计师要做的就是利用和良好的交互规则接近理想的用户体验,确保产品能被用户轻松玩转,易用的同时让用户心情愉悦。这其中也包括各种有效的交互方式,并能对它们进行增强和扩充。普强认为在注重产品技术的同时,更要注重从产品、界面、工作流、到用户层面的交互设计。语音助手不但可以预测用户需求,还能更准确理解用户需求以满足驾驶环境中特殊的信息交互。
比如在用户开口前语音助手该如何打招呼,相比较“你好”,直接提问“你好,你想去哪里?”是不是更好更主动地预测了需求。当用户自带口音回答“我要去京师律师大厦”后,导航有没有必要再确定一次。在地址确定界面,要不要考虑按键操作和语音两种交互方式灵活切换,让用户根据习惯选择。
简单来说,语音助手在交互中将更加主动。有了上下文,推测和心理预期,自然听得更明白,理解得更清楚。
但这些“艺术家”并不是单纯地调研想法,事实上,认知科学是一门涉及心理学、神经科学、语言学、计算机的交叉学科,本身与技术也有着深入交织。普强在技术上考虑到交互设计师需要的更多创作空间,在框架设计时将语音识别引擎和流程做了比较好的分割,涉及流程上的优化,本身并不会对产品产生影响。
当“艺术家”将越来越多的交互串联,产品使用中的不自然会逐渐稀释。何国涛的最终理想是将多种交互方式融合,让车像人一样拥有视觉、听觉等多种感知能力。比如摄像头看嘴型变化和声学识别结合,根据人眼注视方向和语音交互结合起来。用户也许会有自己习惯使用的一两种习惯,而“不需要把某种交互干掉”。
因为深度所以前装
查看普强的融资历史,除了来自硅谷企业家黄炎松百万美元天使轮,戈壁领投的 500万美元A轮,最近一次的B轮1000多万美元的投资方中,领投的是四维图新。这也是普强和四维图新同台亮相CES Asia的原因。
何国涛把前两轮的融资都砸进了研发,随着技术逐渐成熟,四维图新带来的资源有了更大的想象空间。?
不久之前,四维图新收购杰发科技布局自动驾驶和车联网,借助杰发科技在车载领域的芯片业务,普强有机会将语音模块直接做到芯片中带动出货。四维图新投资的车载系统供应商和骊安,也整合了普强的语音助手声学产品在前后装铺开业务。
但何国涛最关注的不仅仅是跑量,在两个方向中,他更重视前装。因为语音助手所需的系统定制要达到操作系统级别,甚至更加底层的GPU,这在更加强调体验的前装才有更多机会。未来利用语音调用车辆更多内部功能需要与CAN总线对接,也注定了与主机厂发生更多关联。在目前科大讯飞占据大规模份额的前装语音识别领域,普强需要一个标杆自证实力。
有业内人士介绍,在没有系统捆绑方案的情况下,语音识别提供商给到车厂的语音识别代码,大多经过包装,往往整句输入整句输出,因此在更加细节定制上存在复杂的额外开发,这也恰好是现阶段从自然语音识别更进一步,需要打破的藩篱。近期也有消息称,科大讯飞正在车机市场有所布局,或许也是出于定制的考虑。
自然不难想到,入口打开意味着更多数据收入囊中。大数据爆发繁荣了深度学习。当源源不断的数据样本涌来,算法才有更多可供训练优化的样本。
值得注意的是,当人们强调大数据的海量时,不能忽视精专。理想状态下,四维普强合作的“车机、后视镜、行车记录仪”,都可以成为入口。四维的POI数据及其伙伴企业滴滴打车每天数亿条的信息,也都更贴近产品使用场景,更适合用来快速地训练一颗深度大脑。
有数项语音专利在身的何国涛,因为专攻市场业务已经不再Coding。他向车云菌透露,公司目前在进行一些关于UBI的小小研究。普强从保险公司和移动互联网等领域切入市场时也陆续有过数据累计,随着主机厂及四维图新的合作深入,声音会带来更多化学反应。
获取更多评论