Julius的机器人语音识别系统构建

　　现代科技和计算机技术的不断发展，人们在与机器的信息交流中，需要一种更加方便、自然的交互方式，实现人机之间的语音交互，让机器听懂人话是人们梦寐以求的事情。语音识别技术的发展，使得这一理想得以实现，把语音识别技术与机器人控制技术相结合，正成为目前研究的热点.

　　语音识别技术应用于机器人系统大多是针对特定的环境，设计出语音命令来进行控制的。只需要对几十个字或词的命令行进语音识别，便可使得原本需要手工操作的工作由语音轻松完成。本文针对现有机器人平台，设计一个非特定人的孤立词语音识别系统。

　　1 语音识别原理及JuliUS简介

　　1.1 基于HMM的语音识别原理

　　语音识别系统是一种模式识别系统，系统首先对语音信号进行分析，得到语音的特征参数，然后对这些参数进行处理，形成标准的模板。这个过程称为训练或学习。当有测试语音进入系统时，系统将对这些语音信号进行处理，然后进行参考模板的匹配，得出结果。此时便完成了语音识别的过程。

　　目前，HMM作为语音信号的一种统计模型，是语音识别技术的主流建模方法，正在语音处理各个领域中获得广泛的应用。现在许多商用语音软件，以及各种具有优良性能的语音识别系统，都是在此模型上开发的，已经形成了完整的理论框架。

　　基于HMM模式匹配算法的语音识别系统表现为：在训练阶段，采用HMM训练算法为每一个词条建立一个HMM模型。词条经过反复训练后，将得到的对应HMM模型加入HMM模型库中以数据的形式保存。在匹配阶段，也就是识别阶段，采用HMM匹配算法将输入的未知语音信号与训练阶段得到的模型库中的模型进行匹配，输出语音识别的结果。

　　1.2 JuliUS简介

　　Julius是日本京都大学和日本IPA(Information-tech-nology Promotion Agency)联合开发的一个实用高效双通道的大词汇连续语音识别引擎。目前已经能较好地应用于日语和汉语的大词汇量连续的语音识别系统。Julius由纯C语言开发，遵循GPL开源协议，能够运行在Lin-ux、Windows、Mac：OS X、Solaris以及其他Unix平台。Julius最新的版本采用模块化的设计思想，使得各功能模块可以通过参数配置。

　　Julius的运行需要一个语言模型和一个声学模型。利用Julius，通过结合语言模型和声学模型，可以很方便地建立一个语音识别系统。语言模型包括一个词的发音字典和语法约束。Julius支持的语言模型包括：N-gram模型，以规则为基础的语法和针对孤立词识别的简单单词列表。声学模型必须是以分词为单位且由HMM定义的。

　　应用程序可以有两种方式与Julius交互：一种是基于套接字的服务器一客户端通信方式，另一种是基于函数库的嵌入方式。在这两种情况下，要识别过程结束，识别结果就被送入应用程序中，应用程序就能得到Julius引擎的现有状态和统计，并可以操作官。

　　2 系统框架

　　2.1 硬件结构

　　在语音识别的机器狗控制系统中Atom Z510为训练学习机大脑(1.1 GHz主频的Intel Atom Z510嵌入式控制平台)，它主要完成语音识别的功能。PXA270控制器(Intel公司于2003年底推出的性能强劲的PXA27x系列嵌入式处理器，基于ARMv5E的XScale内核，最高频率可达624MHz)作为机器狗本体上的核心智能控制器，接收Atom Z510识别后的结果，发出控制命令。ATmega128控制器(Atmel公司的8位系列单片机中的一种，运行频率16 MHz)完成基于串行总线的数字舵机控制，完成对机器狗的前后腿以及尾巴等关节控制。机器狗硬件结构平台如图2所示。

　　2.2 软件结构

　　整个机器人系统包括3个模块：Julius语音识别模块、GUI人机界面、机器人控制模块。Julius将识别的语音命令提交给GUI模块，并在GUI上显示;同时GUI将语音命令转化为动作控制命令并发给机器人控制模块;GUI还可以控制Julius的启动和停止。其中机器人控制模块主要在PXA270上，而语音识别和GUI是在Atom Z510上。

　　3 语音识别系统构建

　　一个完整的语音识别系统一般包括3部分：声学模型、语言模型和识别器。在本系统中只建立基于控制命令(动词)的识别语法，其他词忽略，因此没有构建语言模型;识别器采用Julius开源平台，此部分只用配置参数和相关文件。本文主要工作是声学模型训练和语音识别系统构建。

　　3.1 声学模型训练

　　声学模型是识别系统的底层模型，是语音识别系统中最关键的一部分，它是每个声学单元的声学模型参数集合。本系统的声学模型是使用HTK对采集的语音库进行多次迭代训练后提取的，基于词的声学特征向量集。HTK(HMM Tools Kit)是由英国剑桥大学工程系的语音视觉和机器人技术工作组(Speech Vision and Robotics Group)开发，专门用于建立和处理HMM的实验工具包，主要应用于语音识别领域，也可用于语音模型的测试和分析。其具体训练步骤如下：

　　(1)数据准备

　　收集汉语标准普通话的语料库，并将语料库中的语音标记，创建语音识别单元元素列表文件。

　　(2)特征提取

　　本系统采用MFCC进行语音的特征参数提取，训练中将每一个语音文件用工具HCopy转换成MFCC格式。

　　(3)HMM定义

　　在训练HMM模型时要给出模型的初始框架，本系统中的HMM模型选择同一个结构，如图4所示。该模型包含4个活动状态{S2，S3，S4，S5)，开始和结束(这里是S1.S6)，是非发散状态。观察函数bi是带对角矩阵的高斯分布，状态的可能转换由aij表示。

　　(4)HMM训练

　　本系统先使用HInit工具对HMM模型进行初始化，再用HCompv工具来对模型进行平坦初始化。HMM模型的每个状态给定相同的平均向量和变化向量，在整个训练集上全局计算而得。最后用HRest的多次估计迭代，估计出HMM模型参数的最佳值，经多次迭代，将训练得到的单个HMM模型整合到一个hmmsdef.mmf文件中。

　　3.2 Julius应用

　　3.2.1 Julius部署

　　在本系统中语音识别部分是部署在Atom Z510上，而Atom Z510上首先需要移植linux操作系统(本系统采用的是ubuntu8.10)以上步骤在此不详细介绍，文献中有详细说明。语音识别的核心部分是Julius识别器，需要将Julius源码编译部署到Atom Z510平台。其步骤如下：

　　①要确保linux系统中有以下支持库：Zlib、flex、OSS音频驱动接口、ESounD和libsndfile。

　　②从Julius官网下载源代码Julius-4.1.5。

　　③解压：tar-zxjf julius-4.1.5。

　　④编译：%./configure，%make，%make install。

　　3.2.2 Julius配置

　　Julius全部采用C语言代码实现，采用模块化设计方式，而且各功能模块可配置。在使用前需要将配置参数写入jconf文件，此文件作为运行参数载入系统，系统扫描参数配置并启动各功能块。其中重点介绍以下几个配置参数：

　　◆-dfa rtdog.dfa，指定语法文件rtdog.dfa;

　　◆-v rtdog.dict，指定字典文件;

　　◆-h rtdog.binhmm，指定HMM模型文件;