特定人语音识别算法—DTW算法

2012-09-14 20:09阅读：

http://blog.sina.cn/dpool/blog/u/2300905685

不知不觉暑假过去了，在这两个月里并没有达到自己的要求完成自己安排的任务，仍然还是有些迷惘，时常在想为什么在工作的时候目标很明确应该学什么，但一旦在学校里就仿佛迷失方向，可能就是古人说的“不知庐山真面目，只缘身在此山中”。不管怎样，还是得好好规划一下未来的方向以及更长远的计划。这一两个星期主要是针对语音识别，特别学习了基于HMM模型和DTW算法的孤立数字语音识别，HMM模型过于复杂，这里只对DTW算法的语音识别作一下简单归纳。
DTW（动态时间弯折）算法原理：基于动态规划（DP）的思想，解决发音长短不一的模板匹配问题。相比HMM模型算法，DTW算法的训练几乎不需要额外的计算。所以在孤立词语音识别中，DTW算法仍得到广泛的应用。
在训练和识别阶段，首先采用端点检测算法确定语音的起点和终点。对于参考模板{R(1),R(2),…,R(m),…,R(M)}，R(m)为第m帧的语音特征矢量。对于测试模板{T(1),T(2),…,T(n),…,T(N)}，

T(n)为测试模板的第n帧的语音特征矢量。参考模板与测试模板一般采用类型的特征矢量、相同的帧长、相同的窗函数和相同的帧移。
对于测试和参考模板T和R，它们之间的相似度之间的距离D[T，R]，距离越小则相似度越高。在DTW算法中通常采用欧氏距离表示。对于N和M不相同的情况，需要考虑T(n)和R(m)对齐。一般采用动态规划（DP）的方法将实现T到R的映射。
将测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出，参考模板的各帧号m=1~M在纵轴上标出，通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，网格中的每一个交叉点(n,m)表示测试模式中某一帧与训练模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网格中若干格点的路径，路径通过的格点即为测试和参考模板中进行距离计算的帧号。所选的路径必定是从左下角出发，在右上角结束。
为了使路径不至于过分倾斜，可以约束斜率在0.5~2的范围内，如果路径已通过格点

特定人语音识别算法—DTW算法

特定人语音识别算法—DTW算法

搜索路径的方法如下：搜索从

特定人语音识别算法—DTW算法

点出发，计算每条路径达到

点时的总的积累距离，具有最小累积距离者即为最佳路径。若用

代表此格点，并将通过该格点之路径延伸而通过

，这些此路径的积累距离为：

特定人语音识别算法—DTW算法

这样就可以从

特定人语音识别算法—DTW算法

=(1,1)出发搜索

特定人语音识别算法—DTW算法

，再搜索

特定人语音识别算法—DTW算法

，…..，对每个

都存储相应的前一格点

及相应的帧匹配距离

。搜索到

时，只保留一条最佳路径。如果有必要的话，通过逐点向前寻找就可以求得整条路径。这套DP算法便是DTW算法。
对0~9的数字语音进行测试和识别，识别结果如下：
正在进行模板匹配...
正在计算匹配结果...
测试模板1的识别结果为：1
测试模板2的识别结果为：8
测试模板3的识别结果为：3
测试模板4的识别结果为：4
测试模板5的识别结果为：5
测试模板6的识别结果为：6
测试模板7的识别结果为：7
测试模板8的识别结果为：8
测试模板9的识别结果为：9
测试模板10的识别结果为：10
由上可知，除测试模板2误判外，其它数字语音都能正确识别。
DTW算法的MATLAB程序：
function dist = dtw( t,r )
n=size(t,1);
m=size(r,1);
%%帧匹配距离距阵
d=zeros(n,m);

for i=1:n
for j=1:m
d(i,j)=sum((t(i,:)-r(j,:)).^2);

举报/Report

我的更多文章

下载客户端阅读体验更佳