天天看點

.net 開發的Excel 1.0.0.5版 程式

1.2.2 語音編碼

語音編碼的目的是在保證一定語音品質的前提下,盡可能降低編碼比特率,以節省頻率資源。

        語音編碼技術的鼻祖:

        研究開始于1939年軍事保密通信的需要,貝爾電話實驗室的homer dudley提出并實作了在低頻帶寬電話電報電纜上傳輸語音信号的通道聲碼器。

        20世紀70年代:國際電聯(itu-t,原ccitt)64kbit/s脈沖編碼調制(pcm)語音編碼算法的g.711建議,它被廣泛應用于數字通信、數字交換機等領域,進而占據統治地位。

        1980年:美國政府公布了一種2.4kbit/s的線性預測編碼标準算法lpc-10,這使得在普通電話帶寬中傳輸數字電話成為可能。itu-t也于20世紀80年代初着手研究低于64kbit/s的非pcm編碼算法,并于1984年通過了32kbit/s adpcm語音編碼g.721建議,它不僅可以達到與pcm相同的語音品質,而且具有更優良的抗誤碼性能。1988年美國又公布了一個4.8kbit/s的碼激勵線性預測(celp)編碼算法。與此同時,歐洲也推出了一個16kbit/s的規則脈沖激勵線性預測(rpe-lpc)編碼算法。

       20世紀90年代:随着網際網路在全球範圍的興起,人們對能在網絡上傳輸語音的voip技術興趣大增,由此,ip分組語音通信技術獲得了突破性進展和實際應用。

       20世紀90年代中期到現在,第三代移動通信技術逐漸成熟并走向商用,變速率語音編碼和帶寬語音編碼得到了迅速的發展,不斷有新的國際标準和地區标準公布。

       語音編碼技術主要有兩個努力的方向:一是中低速率的語音編碼的實用化及如何在實用化過程中進一步提高其抗幹擾、抗噪聲能能力;另一個是如何進一步降低其編碼速率。

1.2.3 語音識别

       與機器進行語音交流,讓機器明白你說什麼,這是人們長期以往夢寐以求的事情。而語音識别技術就是讓機器通過識别和了解過程把語音信号轉變為相應的文本或指令的高科技。根據在不同限制條件下的研究任務,産生了不同的研究研究領域。這些領域包括:

       1) 根據對說話人說話方式的要求,可以分為孤立字語音識别系統、連續字語音識别系統及連續語音識别系統

       2) 根據對說話人的依賴程度可以分為特定人和非特定人語音識别系統

       3) 根據詞彙量大小,可以分為小詞彙量、中等詞彙量、大詞彙量及無限詞彙量語音識别系統

       語音識别工作開始:

       20世紀50年代:at&t貝爾實驗室的audry系統,它是第一個可以識别10個英語數字的語音識别系統。

       1956年:rac實驗室的olson等人也獨立地研制出了10個單音節詞的識别系統,系統采用從帶通濾波器組獲得的                       頻譜參數作為語音的特征。

       1959年:fry和denes等人采用頻譜分析和模式比對進行識别決策建構音素識别器來辨識4個元音和9個輔音。

                      mit林肯實驗室采用聲道的時變估計技術研究10個元音的識别

       20世紀60年代末:重要成果是提出了動态規劃(dp)和線性預測編碼(lpc)分析技術,其中後者較好地解決                                        了語音信号産生模型的問題,對整個語音識别、語音合成、語音分析、語音編碼的研究發展産                                      生了深遠影響。

       20世紀70年代:在理論上,lpc技術得到進一步發展,動态時間規整(dtw)技術基本成熟,特别是提出了矢                                    量量化(vq)和隐馬爾可夫模型(hmm)理論。在實踐上,首先在孤立詞識别方面,由日本學

                                 者sakoe給出了使用動态規劃方法(dp)進行語音識别的途徑——dp算法。itakura基于語音編                                    碼中廣泛使用的lpc技術,通過定義基于lpc頻譜參數的合适的距離測度,成功地将其應用到語                                  音識别中。同時,以ibm為首的一些語音研究機關還着手開展了連續語音識别的研究。

       20世紀70年代末到20世紀80年代初:linda、buzo、gray等人解決了矢量量化碼本生成的方法,并将矢量量化成                                                                   功地應用到語音編碼中,從此矢量量化技術很快被推廣應用到其他領域。

       20世紀80年代開始:語音識别研究進一步走向深入,就是識别算法從模式比對技術轉向基于統計模型的技術,更                                         多地追求從整體統計的角度來建立最佳的語音識别系統。hmm技術就是其中的一個典型技                                           術。

       20世紀80年代中期:重新開始的人工神經網絡(ann)研究,也給語音識别帶來一片新的生機。

       20世紀90年代初期:許多發達國家如美國、日本以及ibm、apple、at&t、ntt等著名公司都為語音識别系統的                                         實用化開發研究投以巨資。

       如今,深度神經網絡(dnn)在語音領域的應用,使得語音識别性能又上了一個新的台階。

1.3 語音信号處理過程的總體結構

.net 開發的Excel 1.0.0.5版 程式

繼續閱讀