小弟想做一个程序VC6.0的,实现两个wav文件比较的,例如:第一个wav里是"你好",第二个wav里是一句话,如果第二个wav文件里有“你好”这个词,就说明找到了。
    小弟原来没有进行过与音频处理方面的工作,查了一些资料,都是说如何实现音频文件播放的。speech sdk5.1是中文朗读的,能把语音转成文本后在进行比较吗?我应该去看哪方面的信息呢?请高手们给点相关的思路,资料,源码以供研究。

解决方案 »

  1.   

    感覺是要用SAPI SDK, 因為要作語音識別, 模式匹配.我們也在做音頻比較的, 不過我們只是比較波形像不像, 從而判斷學生發音準不準, 跟你做的還是區別很大. 我們只比較波形形狀, 不用識別為文字.
      

  2.   

    我看了一些相关音频/视频的书籍,基本上写的都是不同格式音频的编码规则的。而VC这方面都是只告诉如何放音。没有介绍如何将两个文件进行比较的。用VC6.0来做的话我应该去收集哪些方面的资料呢?能否提供些思路。
      

  3.   


    如果比较波形困难的话,可否通过SpeechSDK 5.1转成文本呢?那位有关于SpeechSDK在VC6.0上应用的资料呢?
      

  4.   

    下載SpeechSDK後安裝,里面有sample. 容易上手.
      

  5.   

    我试了一下SpeechSDK中的例子,识别出来的文字与Wav中的文字(wav中的是正常的语速),效果十分不佳,请问有什么办法能够调节一下~~
      

  6.   

    建議看一下模式識別的資料。語音波形直接比對效果不會很好。可以嘗試用spectrum作對比。更好的方法是選取專業一點的語音特徵如梅爾倒譜係數(MFCC)或線性倒譜特徵(LPCC)。 對比用簡單的DTW,都可以做嘗試,網上應該有代碼。