基于DSP的語音門鎖設(shè)計與實現(xiàn)(共12頁)

上傳人:文**** 文檔編號:47706887 上傳時間:2021-12-25 格式:DOC 頁數(shù):12 大?。?94KB
收藏 版權(quán)申訴 舉報 下載
基于DSP的語音門鎖設(shè)計與實現(xiàn)(共12頁)_第1頁
第1頁 / 共12頁
基于DSP的語音門鎖設(shè)計與實現(xiàn)(共12頁)_第2頁
第2頁 / 共12頁
基于DSP的語音門鎖設(shè)計與實現(xiàn)(共12頁)_第3頁
第3頁 / 共12頁

下載文檔到電腦,查找使用更方便

20 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《基于DSP的語音門鎖設(shè)計與實現(xiàn)(共12頁)》由會員分享,可在線閱讀,更多相關(guān)《基于DSP的語音門鎖設(shè)計與實現(xiàn)(共12頁)(12頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、精選優(yōu)質(zhì)文檔-----傾情為你奉上 基于DSP的語音門鎖設(shè)計與實現(xiàn) 學(xué)生:xxx 指導(dǎo)教師:xxx 內(nèi)容摘要:本文主要是關(guān)于Speaker Recognition應(yīng)用系統(tǒng)的研究,完成了基于 DSP 的嵌入式語音門鎖的設(shè)計與實現(xiàn)。方案內(nèi),先由TLV320AIC23B 芯片對語音信號進(jìn)行采集、預(yù)處理,再將處理后的信號通過 DMA 送給核心運算器件 DSP。最后由 DSP 提取人的特征,建立數(shù)學(xué)模型并進(jìn)行匹配,最終完成識別。實驗證明本語音門鎖的設(shè)計合理,方案可行,市場應(yīng)用前景甚是廣闊。 關(guān)鍵詞:Speaker Recognition DSP 嵌入式語音門鎖 Design and

2、Implementation of Embedded Phone Lock System Based on Dsp Abstract: This paper is a study on Speaker Recognition applications completed based on the design and implementation of the DSP embedded speech locks. Within the program, on the speech signal, first TLV320AIC23B chip collection, pretreatment

3、, and then the processed signals are sent by DMA to the core operation device DSP. The final characteristics extracted by the DSP, mathematical model and match, the final completion of the identification. Experiments show that the design of the voice locks reasonably feasible, the market prospect is

4、 very broad. Keywords: Speaker Recognition DSP embedded voice locks 1 生物識別技術(shù) 1.1 生物識別技術(shù)概述 在今天這個計算機(jī)及網(wǎng)絡(luò)技術(shù)飛速發(fā)展的時代,信息的安全顯的尤為重要。而確保系統(tǒng)安全的重要前提則是身份的鑒定,在多種電子的領(lǐng)域里都需要準(zhǔn)確的身份鑒定,如:國家安全、司法、電子商務(wù)、電子政務(wù)等。現(xiàn)如今,用于個人身份鑒別主要依靠各種證件和設(shè)置密碼等手段,然而這些手段存在或多或少的缺點,譬如,攜帶不便、易折壞、易丟失遺忘等。所以在這種傳統(tǒng)辨別身份的方法正面臨著淘汰的趨勢之際生物識別技術(shù)備受學(xué)術(shù)界的關(guān)

5、注,并有以之取代傳統(tǒng)身份識別方式之勢。 1.2 生物識別技術(shù)的發(fā)展歷史 生物識別的起源可追溯到古埃及時候,當(dāng)時人們通過測量身高尺寸來鑒別埃及人的身份,像這種通過測量人身體某一部份或者依據(jù)某一身體特征來識別身份的技術(shù)一直延續(xù)了幾百年。而中國和古敘利亞則在公元前7000年到6000年之前,以指紋作為身份鑒別的依據(jù)已經(jīng)開始應(yīng)用??脊虐l(fā)現(xiàn),在這個時代,一些陶藝匠人將指紋留在自己制作的粘土陶器上,這與古時詩人畫家,在自己作品上蓋章留名同性質(zhì),并且在中國的一些重要文件上多是用大拇指按朱砂印。原本是因為當(dāng)時人讀書者甚少,大多不能書寫自己名字,則以這種方式來當(dāng)做簽名,當(dāng)時稱這種行為為畫押。但在19世

6、紀(jì)初,經(jīng)科學(xué)研究發(fā)現(xiàn)指紋具有兩個重要的特征,其一是指紋的唯一特性,即指意兩個不同手指的指紋紋路的式樣是不相同的,其二是指紋紋路的式樣終生不因生長的因素而發(fā)生改變。 這個研究成果使得1896年阿根廷首次將指紋識別在犯罪鑒別中得以正式應(yīng)用,隨后是蘇格蘭在1901年也采用這種方式,20世紀(jì)初其他國家也將之相繼應(yīng)用到了犯罪鑒別中。20世紀(jì)60年代,隨著計算機(jī)的發(fā)展,人們開始著手研究利用計算機(jī)來處理指紋。從那時起,世界許多國家將自動指紋識別系統(tǒng)Automatic Fingerprint Identification System應(yīng)用于法律中,一種自動識別指紋的設(shè)備在60年代末期在FBI得以應(yīng)用,在70

7、年代末期,已經(jīng)有一定數(shù)量的設(shè)備開始在美國大范圍使用。用于商業(yè)的高級生物測定設(shè)備最早開始于20世紀(jì)70年代,一種叫做Identimat的設(shè)備出現(xiàn)了,它通過手的形狀和手指的長度來辨別身份。20世紀(jì)80年代,個人電腦和光學(xué)掃描這兩項技術(shù)的改進(jìn),使得它們作為指紋取像的工具成為現(xiàn)實,從而促使了指紋識別在其他領(lǐng)域的廣泛使用,譬如IC卡的替代。90年代末,精確的比對算法的發(fā)現(xiàn)以及低價位取像設(shè)備的引入及其飛速發(fā)展,為個人身份識別應(yīng)用的增長提供了舞臺。 1.3 生物識別的特點 生物識別技術(shù)之所以能夠作為個人身份鑒別的有效手段,并且在越來越多的領(lǐng)域廣泛應(yīng)用是由它自身的特點所決定的。生物識別技術(shù)具有唯一性、普

8、遍性、穩(wěn)定性和不可復(fù)制性。 生物識別技術(shù)的普遍性即指生物識別所依賴的身體特征基本上是人人與生俱來的,不需要向相關(guān)部門申請或是制作。 唯一性和穩(wěn)定性是指經(jīng)研究和經(jīng)驗表明,每個人的容貌、發(fā)音、虹膜、視網(wǎng)膜、骨架、指紋、掌紋等都與別人不同,并且一般情況下終生不會發(fā)生改變。 不可復(fù)制性:隨著計算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,配制鑰匙、copy密碼卡以及盜取密碼、口令等都變得越發(fā)容易,然而要復(fù)制人的活體指紋、掌紋、面部、虹膜等生物特征就困難得多。 生物識別技術(shù)所具有的這些特性使得生物識別身份驗證方法不依賴各種人造的和附加的物品來證明人的自身,而只要個體存在那么自己就是身份的最好證明物,所以,它不用擔(dān)心丟失,

9、更加不會遺忘,和配置鑰匙和盜用密碼等相比復(fù)制生物體所具備的生物特征就顯得尤為困難,生物識別技術(shù)是一種方便安全的只認(rèn)人不認(rèn)物的保安手段 2 數(shù)字信號處理器 DSP 2.1 數(shù)字信號處理器 DSP的概述 數(shù)字信號處理是指將模擬信號通過采樣進(jìn)行數(shù)字化后的信號進(jìn)行分析、處理、它側(cè)重于理論、算法及軟件實現(xiàn)。它是圍繞著數(shù)字信號處理的理論、實現(xiàn)、應(yīng)用等幾個方面發(fā)展起來的。數(shù)字信號處理的應(yīng)用促進(jìn)了數(shù)字信號處理理論的發(fā)展和提高。反過來,數(shù)字信號處理在理論上的發(fā)展又推動了數(shù)字信號處理應(yīng)用的發(fā)展。而數(shù)字信號處理的理論和應(yīng)用則是通過數(shù)字信號的實現(xiàn)而連接的。數(shù)字信號處理所涉及的范圍極其廣泛,以眾多的學(xué)科為理

10、論基礎(chǔ)。它與網(wǎng)絡(luò)理論、信號與系統(tǒng)、控制論、通信理論、故障診斷等密切相關(guān)。一些新興的學(xué)科,如人工智能、模式識別、神經(jīng)網(wǎng)絡(luò)等,都與數(shù)字信號處理密不可分。它是把許多經(jīng)典的理論體系作為自身的理論基礎(chǔ),同時又使自己成為一系列新興學(xué)科的理論基礎(chǔ)。 DSP(Digital Singnal Processor)是一種獨特的微處理器,是以數(shù)字信號來處理大量信息的器件。其工作原理是將接受的模擬信號轉(zhuǎn)換為0或者1的數(shù)字信號,再對轉(zhuǎn)換后的信號進(jìn)行修改、刪除、強(qiáng)化,并在其他系統(tǒng)芯片中把數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)譯回模擬數(shù)據(jù)或?qū)嶋H環(huán)境格式。它不僅具有可編程性,而且其實時運行速度可達(dá)每秒數(shù)以千萬條復(fù)雜指令程序,遠(yuǎn)遠(yuǎn)超過通用微處理器,在數(shù)

11、字化電子世界中越發(fā)重要的電腦芯片。它的強(qiáng)大數(shù)據(jù)處理能力和高運行速度,是最值得稱道的兩大特色。自DSP芯片問世以來,在20年的時間里,它得到了極為迅速的發(fā)展。世界上生產(chǎn)DSP芯片的廠家主要有:美國的德克薩斯儀器公司(Texas Instruments,簡稱TI)、模擬儀器公司(Analog Devices,簡稱AD)和Motorola公司等,其中應(yīng)用最為廣泛的是TI公司生產(chǎn)的系列DSP芯片。自80年代初TI公司推出第一代產(chǎn)品TMS32010以來,相繼推出了定點和浮點兩大類別多代產(chǎn)品,現(xiàn)已形成了TMS320C2000、TMS320C5000和TMS320C6000三大DSP芯片系列。TI公司的DS

12、P芯片市場大約占全世界份額的50%,IT公司已是世界上最大的DSP芯片供應(yīng)商,它的一系列DSP產(chǎn)品已經(jīng)成為當(dāng)今世界上最有影響的DSP芯片。 通過 DSP 實現(xiàn)語音門鎖的設(shè)計,在芯片的選擇上將采用 TI 公司的TMS320C5402 芯片,因為該芯片在各種語音應(yīng)用領(lǐng)域被廣泛應(yīng)用,而且它比該系列的其他芯片相比,具有更快的運算速度、更高的性能同時低功耗低價格和性價比高等特點。 2.2 DSP的特點 DSP的結(jié)構(gòu)是針對DSP算法模型進(jìn)行構(gòu)造的,所有的DSP都包含有DSP算法的特征。即是, 單周期快速運算,能取兩個以上操作數(shù),允許任意計算次序,保證快速的乘累加運算(MAC);能產(chǎn)生循環(huán)尋址和位翻

13、轉(zhuǎn)尋址等信號處理算法需要的特殊尋址;有相應(yīng)的硬件循環(huán)緩沖區(qū),能執(zhí)行零開銷的循環(huán)和轉(zhuǎn)移操作; 具有串口、DMA控制器、定時器等豐富的外設(shè)資源。因此,數(shù)字信號處理的上述特點要求DSP必須是專門設(shè)計的,典型DSP的設(shè)計要滿足,不論是語言信號,還是圖像信號處理算法運算量大,要求速度快且實時;信號處理算法通常需要執(zhí)行大量的乘法和累加運算,具有某些特定模式,要求專門的接口。大部分時間信號處理算法花在執(zhí)行相對小循環(huán)的操作上。 3 基于DSP的語音門鎖系統(tǒng) 本章介紹了基于矢量量化的說話人識別原理,對于其中的幾個方面的問題做了進(jìn)一步的探索。編程實現(xiàn)了算法的各個子程序,在編程過程中做了相關(guān)的實驗充分考慮程序

14、運行時間、精度以及存儲量等因素,對系統(tǒng)的識別效果也進(jìn)行了實際測試。通過大量比較篩選,確定出最優(yōu)的算法,應(yīng)用于語音門鎖中。 3.1 基于DSP的語音門鎖系統(tǒng)概述 語音門鎖系統(tǒng)采用一種高效的數(shù)據(jù)壓縮技術(shù),這種技術(shù)被稱作矢量量化技術(shù),下面對該技術(shù)做詳細(xì)介紹。 矢量量化(VQ —Vector Quantization)是將若干個標(biāo)量數(shù)據(jù)組構(gòu)成一個矢量,然后在矢量空間內(nèi)將其整體量化,這樣既壓縮了數(shù)據(jù)又不會損失多少信息。矢量量化將N維空間RN中的矢量按某種準(zhǔn)則用 N 維空間中的矢量{i| i=1,2,...,K } 表示。 :輸入矢量 i:

15、量化矢量 {i| i=1,2,...,K }:碼書或碼本 K:碼書容量 i:碼字 對語音信號,在已知訓(xùn)練數(shù)據(jù)的情況下,VQ的準(zhǔn)則是:給定的碼本容量為 K時,使量化最小失真。圖 3-1 給出了基于 VQ 的說話人識別系統(tǒng)框圖。 圖3-1 基于矢量量化的說話系統(tǒng)框圖 識別結(jié)果 識別 訓(xùn)練 語音信號 預(yù)處理 特征提取 產(chǎn)生碼書 碼書存儲 相識度匹配 判別邏輯 對于基于 VQ的說話人識別技術(shù)來說,碼本的產(chǎn)生會直接影響到識別的效果。碼本形成過程是將所提取出的各個特征矢量集合,按照某種準(zhǔn)將具有相似特征的矢量歸到一個集合里,用一個具有代表性的矢量來表示。VQ

16、碼本形成的基礎(chǔ)是初始碼本的選擇,目前在算法的 DSP 實現(xiàn)過程中,初始碼本的選擇采用了一種在訓(xùn)練數(shù)據(jù)中找到距離最遠(yuǎn)的 K個矢量,這種方法便于 DSP 實現(xiàn)。碼本設(shè)計采用 LBG 算法,LBG 算法是 Y.Linde、A.Buzo、R.M.Gray 三人在1980提出的,LBG是基于最近鄰法則把訓(xùn)練序列分配到與它歐式距離最小的碼字的簇中,從而形成很多個子集,計算各子集的形心和平均失真,一直迭代計算,并不停地對碼本進(jìn)行修改直到性能滿足要求或不能再改進(jìn)為止。 3.2 空胞腔處理 在此主要討論基于VQ說話人識別模型的LBG(Linde、Buzo、Gray)算法中的空包腔處理問題。所給方法的優(yōu)點首

17、先是在分裂大包腔時選擇子包腔碼字更具有代表性,從而使得系統(tǒng)在重新聚類中避免再次出現(xiàn)空包腔的可能性;其次,該方法對于系統(tǒng)沒有信息冗余的情況下,可避免信息的損失,對保持矢量在空間分布的完備性有一定的意義為了對空包腔處理作出更清楚地說明,圖3-2中給出加入空包腔的LBG算法流程。圖中pow(10,n)和delta(m)可以分別表示為10n,(d(m)-d(m-1))/d(m)。首先為了讓每個碼字矢量都能對話者特征具有代表性,將所含矢量數(shù)目符合下式的胞腔定義為空胞腔。 (3.3.1) 式中,K 為比例因子,一般取為 0

18、.2,用于調(diào)整空胞腔中所含矢量的個數(shù)。通常空包腔的處理并不認(rèn)為是絕對空(矢量數(shù)為 0),實際上這種情況是不可能的。設(shè)空包腔限為num ,聚類過程中一次出現(xiàn)v個空包腔,若視空包腔為絕對空,則迭代n次損失的矢量數(shù)最壞情況為 0(n v num )級。在確定了空包腔限后,對碼本中的空包腔進(jìn)行逐個處理,其步驟為: (1) 對任一空包腔碼字,找到碼本中與其最臨近的碼字,將該空包腔與其 最臨近碼字胞腔合并; (2) 找到碼本中得分最大的包腔,設(shè)第j個包腔內(nèi)的矢量數(shù)為 n ,碼字為 Cj ,得分score 遵循的準(zhǔn)則 (3.3.2)

19、 (3.3.3) 其中,index 是最大包腔下標(biāo)號, codeBookLen gth是碼本長度; (3) 計算得分最大包腔的形心 centroid 。 實驗2: 空包腔處理對聚類效果的影響 實驗采用的訓(xùn)練語音長度為 6s,訓(xùn)練內(nèi)容均為“開門”,說話人個數(shù)選擇為 2 個人(1 男,1 女),碼本容量為 16,識別所用的語音特征采用 54 維組合特征,分別為 16 維 LPCC、18 維 MFCC、20 維ΔMFCC,圖 3-3 給出了男生和女生訓(xùn)練語音采用空包腔處理前后碼字聚類的對比情況,其中圖形的橫坐標(biāo)為碼本容量,縱坐標(biāo)為碼本包腔聚類的碼字個數(shù)。

20、 開始訓(xùn)練序列X失真閥值 Epsilon=pow(-10,6) 初始化碼本codeWord數(shù)組令 d(0)=pow(10,9) 將訓(xùn)練序列劃分為m個胞腔 有空胞腔否? 空胞腔處理 計算平均失真 d(m)及相對失真 delta(m) delta≤epsilon? 計算各胞腔型心作為新的碼字矢量 m=m+1 結(jié)束 Y N 圖3-2 改進(jìn)的LBG算法流程圖 從圖 3-3 可以看出: (1) 空包腔處理后每個胞腔聚類的碼字個數(shù)較之處理之前更為均勻,代表 說話人特征的更充分; (2) 在分裂大包腔時選擇子包腔碼字更具有代表性,從而使得系統(tǒng)在重新 聚類中避免再次

21、出現(xiàn)空包腔的可能性; (3) 對于系統(tǒng)沒有信息冗余的情況下可避免信息的損失,對保持矢量在空 間分布的完備性有一定的意義。 圖3-3空包腔處理前后各胞腔聚類的碼字個數(shù)對比圖 3.3 閾值歸一化處理 由于人的語音是隨著生理、心理和健康的狀況變化的,如果說話人識別系統(tǒng)的訓(xùn)練時間與使用時間相差過長,就會使系統(tǒng)的性能明顯下降。為了減小說話人語音變化對系統(tǒng)性能的影響,提出了一種歸一化閾值的 VQ 說話人識別算法。使用一個參考碼本,通過定義語音與碼本的失真相對于參考碼本的變化量(相對失真),來實現(xiàn)閾值的歸一化?;陂撝禋w一化的 VQ 說話人識別系統(tǒng)的實現(xiàn)過程包括訓(xùn)練過程(圖3-4)、識別過程

22、、 提取特征矢量,得到特征矢量集 通過 LBG 算法生成碼本 修正優(yōu)化碼本 存儲碼本 圖3-4訓(xùn)練過程 2、識別過程 (1) 從測試語音提取特征矢量序列 (2) 由每個模板依次對特征矢量進(jìn)行矢量量化,計算各自的平均量化誤差 (3) 根據(jù)設(shè)定的參考碼書,對失真進(jìn)行閾值歸一化處理 (4) 利用閾值歸一化后處理產(chǎn)生的三個失真進(jìn)行識別判斷 ① 設(shè)置性別標(biāo)志位 sex,初始值為 0; sex=0 未定 sex=1男生 sex=2女生 ② 設(shè)置識別成功標(biāo)志位 flag,初始值為 1; flag=1 成功 flag=0 失敗 ③ 設(shè)置結(jié)果標(biāo)志位 result;

23、result=1 測試語音與男生模板距離最近 result=2 測試語音與男生模板距離最近 result=3 測試語音與碼本距離最近 圖 3-5 閾值歸一化的判決流程 ④ 根據(jù)圖 3-5 給出的判決流程進(jìn)行識別判斷,圖中 cons1=100,cons2=500,由實驗測得,threshold 由訓(xùn)練程序獲得。 第四章 基因特征在門鎖系統(tǒng)中的應(yīng)用 目前基音提取的算法主要有時域和頻域兩種:時域的自相關(guān)、AMDF、CAMDF 容易受到噪聲的干擾;AWAC、ICWAF 算法中的除法在 DSP 實現(xiàn)時會引起精度的損失;頻域的 SIFT(簡化逆濾波)求取 LPC 殘差信號的 DS

24、P 程序需要很大的存儲空間、導(dǎo)致程序運行的速度降低;而基于 CEPSTRUM(倒譜)的基音特征提取算法易實現(xiàn),且算法屬于頻域提取,抗噪聲性強(qiáng),適合在 DSP系統(tǒng)中應(yīng)用。 4.1 基于倒譜的基因提取法 基于倒譜的基音提取算法,首先要計算語音信號的倒譜特征,對于給定的一個語音信號 x(n),其倒譜定義為其頻譜的絕對值取自然對數(shù)后的傅里葉逆變換。即 (4.1.1) 由于語音信號 x (n)可看作是聲門脈沖激勵 g(n)經(jīng)聲道響應(yīng) v (n)濾波而得,即 s ( n)= g(n)?v(n)

25、 (4.1.2) 倒譜域中的基音信息和聲道信息可以別看做是相對分離的。采用倒濾波的方法可以分離并恢復(fù)出 e (n)和 v (n)。對于清音語音,倒譜域中不存在基音特征點。因而根據(jù)激勵 e (n)及其倒譜的特征可以求出濁音語音的基音周期?;诘棺V的基音提取算法在 DSP 系統(tǒng)的實現(xiàn)仍然需要解決幾個問題: (1) 幀長需擴(kuò)大一倍 語音的基音變化范圍是 2ms~20ms,采樣率為 8kHz 時,基音的變化范圍是 16~160 個采樣點。基音提取幀長應(yīng)至少是基音周期的 2倍,否則會影響基音的提取精度;以前使用的語音幀長為

26、256 個采樣點,而基音提取幀長需至少為基音周期的 2 倍,所以將語音幀擴(kuò)大一倍,變?yōu)?512 個采樣點。擴(kuò)大后的語音幀為當(dāng)前256 點幀與前一 256 點幀合并所得; (2) 基音的存儲位置 為了便于平滑處理,需要單獨開辟空間存儲; (3)與原有特征組合由于原有的兩幀能提取一個基音,進(jìn)行組合時曾考慮只在偶數(shù)幀的特征中加入基音,但是這樣會影響最終的識別效果;考慮將當(dāng)前要提取基音特征幀與前一幀語音合并來提取所有訓(xùn)練、識別幀數(shù)的基音,再將其與原有的特征進(jìn)行組合,其中聯(lián)合因子 w,即組合后的特征為feature=feature*(w^0.5)+pitch*((1-w)^0.5)其中 featu

27、re 為原有的語音特征, pitch為提取出的基音周期。 第五章 基于DSP實現(xiàn)的語音門鎖系統(tǒng)的測試結(jié)果 5.1 不同處理方法組合對識別效果的影響 在 DSP 實際系統(tǒng)中,分別對采用不同處理方法組合的識別率進(jìn)行測試,在進(jìn)行 DSP 實際系統(tǒng)測試時,任意選擇實驗室中的 6 名用戶(3 男,3 女)進(jìn)行訓(xùn)練,訓(xùn)練和識別的語音都是“開門”,冒認(rèn)人數(shù)為 8,對當(dāng)天的語音進(jìn)行開集說話人識別測試,實際結(jié)果如表 5-1 所示。 如表 5-1 所示,在聲刺激初始碼本生成方法基礎(chǔ)上,加入空包腔處理使得系統(tǒng)的誤識率有所降低;閾值歸一化的識別方法使系統(tǒng)的錯誤拒絕率進(jìn)一步降低;將提取出的基音特征與原有特征

28、組合作為說話人的語音特征進(jìn)行識別時,系統(tǒng)保持了比較低的錯誤拒絕率。 5.2 不同處理方法對存儲量和運行時間的影響 針對上述實驗 中采用的不同處理方法,分別對實際所實現(xiàn)系統(tǒng)的部分指標(biāo)進(jìn)行比較。取參考說話人的個數(shù)為 M=10,表 5-2 所示為采用不同方法時的程序存儲量和運行時間(設(shè) DSP 時鐘為 20MHz)。下面給出程序存儲量和運行時間分析。 對加入基音的特征提取所占用存儲量和運行時間分析如下(設(shè)需要計算的特征參數(shù)的幀數(shù)均為 N=209): (1) 在進(jìn)行 LPCC+MFCC+ΔMFCC+Pitch 組合特征計算時,對于 MFCC 動 靜態(tài)組合特征,除了 N 幀 MFCC 動靜

29、態(tài)組合特征所需的存儲空間外,還有計 算ΔMFCC 時需要保存的 40 個常數(shù),需要使用 40*N+239+190+40 個單元,即 需要 23269 個單元,約 22.7K。還要為 LPCC 和 Pithc 保存空間,需要 17*N 個 單元,約 3.553K。在進(jìn)行說話人的碼本存儲時,需要的存儲單元為 55*16*M 個,即 880 個,約 0.880K。 (2) 對參考說話人個數(shù)為 N=1 的系統(tǒng)各部分程序執(zhí)行時間進(jìn)行統(tǒng)計,得到 各部分程序的平均執(zhí)行時間。由于在實際系統(tǒng)中,設(shè)定的采樣率為 8kHz,則 采樣一幀語音信號需要 32ms,由表 5-8 可見,LPCC+MFCC+Δ

30、MFCC+Pitch 組合特征提取時間為 9.0171ms,小于 32ms,因此可以滿足系統(tǒng)的實時性要求。 第六章 總結(jié) 本文主要對說話人識別系統(tǒng)中的基音特征提取部分進(jìn)行了研究,介紹了傳 統(tǒng)的基音提取算法,并對各種方法進(jìn)行仿真,分析了各自的優(yōu)缺點;同時提出 了一種新的基于搜索試探平滑的 ICWAF 帶噪語音基音提取算法,該算法在較 低信噪比下能夠提取出帶噪語音的基音周期。并與同課題組的同學(xué)共同完成了 基于 DSP 的說話人實時識別系統(tǒng),利用數(shù)字信號處理器 DSP 對系統(tǒng)的各部分 算法進(jìn)行實現(xiàn),該系統(tǒng)目前已應(yīng)用于汽車語音控制門鎖中。本文所做的主要工 作如下: (1) 對生物

31、識別技術(shù)和說話人識別技術(shù)的發(fā)展和現(xiàn)狀進(jìn)行了概述,并指出 了數(shù)字信號處理器 DSP 在語音信號處理中的應(yīng)用; (2) 介紹了說話人識別原理、基音周期的相關(guān)知識,同時概括地介紹了利 用 DSP 進(jìn)行算法實現(xiàn)的軟件基礎(chǔ); (3) 對傳統(tǒng)的基音特征提取算法進(jìn)行了研究,并對不同方法進(jìn)行了比較。 給出仿真結(jié)果,對各自的優(yōu)缺點進(jìn)行了評價; (4) 提出了一種基于搜索試探平滑的 ICWAF 帶噪語音基音提取算法,并 驗證了其在低信噪比下的有效性; (5) 完成了說話人識別系統(tǒng)的 DSP 實現(xiàn),實現(xiàn)說話人實時識別系統(tǒng) ,對 各部分程序進(jìn)行調(diào)試,并給出對系統(tǒng)部分指標(biāo)的實際測試結(jié)果,將算法應(yīng)用到

32、 汽車語音控制門鎖中。 致謝 至此課題設(shè)計完成之際,回顧這一路走來的點點滴滴。首先,承蒙xxx老師的悉心栽培,孫老師在的學(xué)習(xí)和課題設(shè)計中,從理論到實踐給我大量的、極其有益的建議和實際的指導(dǎo),并在課題設(shè)計的撰寫和審稿中傾注了大量的心血。他誨人不倦的精神和對我的諄諄教導(dǎo),使我受益匪淺;他嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度、積極的進(jìn)取精神、廣博的知識和平易近人的工作作風(fēng)將使我受益終身。其次,在論文的選題及研究過程中得到了xxx的 大力支持和熱心指導(dǎo),并在學(xué)習(xí)上與生活上給予我無微不至的關(guān)懷和幫助,在此向他們表示深深的感謝!在論文的準(zhǔn)備和實驗過程中得到了同課題組成員xxx、xxx的無私幫助和支持,在此向他們表示真心的

33、感謝!感謝信號檢測處理實驗室的師兄師姐師弟師妹們在論文完成過程中與他們進(jìn)行了許多有益的探討;同時數(shù)字信號處理實驗室魏小莉老師為本論文的實驗工作給予了有利的幫助。在此一并表示誠摯的感謝!感謝杜鵑在論文寫作過程中給予的幫助。最后,感謝所有教育過我和幫助過我的老師們,你們的諄諄教導(dǎo)是我一生中最寶貴的財富!感謝我所有的同學(xué)和朋友們,一起生活和工作學(xué)習(xí)的美好時光里,你們所給予的真誠鼓勵和無私幫助是我終生難忘的!生活上得到了眾多老師、同學(xué)和朋友們的熱心幫助和大力支持。在此,我要向你們表示我最誠摯的謝意! 參考文獻(xiàn) 1] 王仁華,何林順,黎建寧. 等方差加權(quán)倒譜失真測度及其在說話人識別中的應(yīng)用[J].

34、 電子學(xué)報. 1992(08) [2] 何立民. 嵌入式系統(tǒng)的定義與發(fā)展歷史[J]. 單片機(jī)與嵌入式系統(tǒng)應(yīng)用. 2004(01) [3] 甄斌,吳璽宏,劉志敏,遲惠生. 語音識別和說話人識別中各倒譜分量的相對重要性[J]. 北京大學(xué)學(xué)報(自然科學(xué)版). 2001(03) [4] 蔣剛毅,張禮和,鄭義. 語音信號的矢量量化碼書特性研究[J]. 電子學(xué)報. 1995(11) [5] 邵央,劉丙哲,李宗葛. 基于MFCC和加權(quán)矢量量化的說話人識別系統(tǒng)[J]. 計算機(jī)工程與應(yīng)用. 2002(05) [6] 李霄寒,戴蓓倩,方紹武,劉鳴. 高階MFCC的話者識別性能及其噪聲

35、魯棒性[J]. 信號處理. 2001(02) [7] 張俐,李晶皎,顧樹生. 模糊聚類在自適應(yīng)矢量量化碼本訓(xùn)練中的應(yīng)用[J]. 計算機(jī)研究與發(fā)展. 2000(06) [8] 李葦營,易克初,胡征. 神經(jīng)網(wǎng)絡(luò)與HMM構(gòu)成的混合網(wǎng)絡(luò)在語音識別中應(yīng)用的研究[J]. 電子學(xué)報. 1994(10) [9] 何振亞,顧明亮,王太君,史笑興. 語音信號的主分量特征[J]. 應(yīng)用科學(xué)學(xué)報. 1999(04) [10] 胡光銳,韋曉東. 基于倒譜特征的帶噪語音端點檢測[J]. 電子學(xué)報. 2000(10) [11] 蘇明武. [D]. 哈爾濱工程大學(xué) 2005 [12] 王秀麗. [D]. 吉林大學(xué) 2006 [13] 陳超. [D]. 西安理工大學(xué) 2006 [14] 張鵬. [D]. 吉林大學(xué) 2007 [15] 張營. [D]. 吉林大學(xué) 2007 [16] 牛景濤. [D]. 西北工業(yè)大學(xué) 2003 [17] 張坤. [D]. 吉林大學(xué) 2004 [18] 龐雄昌. [D]. 西安電子科技大學(xué) 2004 專心---專注---專業(yè)

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!