音频比较的问题，VC6.0

小弟想做一个程序VC6.0的，实现两个wav文件比较的，例如：第一个wav里是"你好"，第二个wav里是一句话，如果第二个wav文件里有“你好”这个词，就说明找到了。
小弟原来没有进行过与音频处理方面的工作，查了一些资料，都是说如何实现音频文件播放的。speech sdk5.1是中文朗读的，能把语音转成文本后在进行比较吗？我应该去看哪方面的信息呢?请高手们给点相关的思路，资料,源码以供研究。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

感覺是要用SAPI SDK, 因為要作語音識別, 模式匹配.我們也在做音頻比較的, 不過我們只是比較波形像不像, 從而判斷學生發音準不準, 跟你做的還是區別很大. 我們只比較波形形狀, 不用識別為文字.
我看了一些相关音频/视频的书籍，基本上写的都是不同格式音频的编码规则的。而VC这方面都是只告诉如何放音。没有介绍如何将两个文件进行比较的。用VC6.0来做的话我应该去收集哪些方面的资料呢？能否提供些思路。
如果比较波形困难的话，可否通过SpeechSDK 5.1转成文本呢？那位有关于SpeechSDK在VC6.0上应用的资料呢？
下載SpeechSDK後安裝,里面有sample. 容易上手.
我试了一下SpeechSDK中的例子，识别出来的文字与Wav中的文字（wav中的是正常的语速），效果十分不佳，请问有什么办法能够调节一下~~
建議看一下模式識別的資料。語音波形直接比對效果不會很好。可以嘗試用spectrum作對比。更好的方法是選取專業一點的語音特徵如梅爾倒譜係數（MFCC）或線性倒譜特徵（LPCC）。對比用簡單的DTW，都可以做嘗試，網上應該有代碼。