前段时间,我读了一篇关于有限词汇系统的白皮书,该系统使用了简单的识别过程。系统将每个话语分成少量的箱子(6个时间段,4个量级,如果我没记错的话,总共24个),它所做的就是计算每个箱子中的样本音频测量数量。存在模糊逻辑规则库,其然后解释每个话语24个bin计数,并生成解释。
我想(对于某些应用程序),一个简单的匹配过程也可以正常工作,其中当前话语的24个bin计数与每个存储的原型的简单匹配,并且总体差异最小的那个是优胜者。
语音识别中有一些开源项目:
两者都有解码器,培训,语言模型工具包。 Eveything构建一个完整而强大的语音识别器。 Voxforge具有开源语音识别工具包的声学和语言模型。