学术界没有新的理论出现来描述人是如何理解语音,现有语音技术不能真正理解人的说话内容。

成熟的基于关键词语识别的技术,可以实现人们用语音来控制身边的电器和设备。

在无数的小说和电影中,人们都描述了机器人可以听懂人的语言并且和人进行对话,这些镜头反映了人们对于语音识别技术的期望。
在技术领域,人们研究声学模型,人工智能与神经网络,语义分析与自然语言理解,并且提出了隐马尔可夫模型这一行之有效地声音模型,不断地努力改进语音识别技术。

从语音识别技术应用方向上来说,语音识别主要分为:关键词语识别听写系统两个方面。
1. 关键词语识别技术的目标是精确地识别说话人的语音命令,识别率要达到90%以上,用在语音控制和语音命令查询方面。例如在手机上实现的语音拨号功能。

2. 听写系统是前端的声学模型不要求精确识别,而是输出可能多的音标候选,由后续的语义分析器给出拟合的文字内容。例如IBM推出的ViaVoice软件,和Google的语音搜索。

听写系统是人类一直以来的梦想,也是语音识别技术发展的终极目标,听写系统的实现,说明计算机是可以真正地理解人们的语音说话内容,才能够根据人的说话的语境,上下文的关联,来给出正确的文字。尤其是在存在众多同音字词的时候,只有真正理解了,才能正确给出是“狗不叫”还是“苟不教”
但就目前的技术现状来看,还未出现一个更加完善的理论模型来指导听写系统的发展,目前的听写系统,还只能是实验产品,无法达到真正理解人的自然语音的地步。所以,从商用的角度来说,基于关键词语的识别,才是目前真正适合进行大规模推广的技术。

随着Google的语音搜索的发展,目前对于听写系统的实现,不在着眼于语义的分析和理解(主谓宾的分析),而是力图总结出人们日常所说的各种话语,句式的规律,把前端声学识别给出的音标候选套入到某一总结出的句子中。
目前基于云端实现的听写系统,包括siri,Nuance等产品的实现,基本上都是按照这个思路进行,实际上并没有真正解决语音理解的问题,而是把关键词语列表识别技术扩展成为一本带概率转移的超大词典,然后在这个词典中进行匹配。如果一些说的话语单词没有被总结归纳到这个词典中,就肯定无法被正确的识别。于是对于存在大量同音字的汉语来说,听写系统的实现更是困难。以及人们在说话时,是不会按照文字,讲演稿里的套路去说,会夹杂着大量的语气词语以及不确定的表达,从而使得预先归纳总结的词典变的无所适从。

所以,在目前智能家居,工业控制等领域,能够提供商业实用产品的技术,依然是关键词语识别技术。因为在这些应用场景中,人们是知道自己要说什么内容,(一般是明确的控制命令,比如开电视),从而可以让语音识别技术来正确地识别自己的命令。
而在一些行业应用领域,基于语音流的搜索技术则是有实用价值。
人们最期望的听写技术,目前还处于研究和好玩的地步。

绘声公司的标准VUI模块,是基于关键词语的识别,力求在各种噪声环境下精准地识别用户的语音命令,完成对各种电器设备的操作。在面向行业需求用户,绘声公司的高端VUI模块,会提供语音搜索功能

绘声公司采用成熟的非特定人语音识别芯片技术,结合自身的降噪算法以及微系统构建能力,从语音用户界面设计的实际需求触发,提供给开发者和终端用户可以自由修改VUI对话过程脚本的标准VUI产品模块。从麦克风选取到降噪算法实现,在各种实际生活的各种噪声环境下提供实用的语音识别效果。