欧美aⅴ在线,国产手机精品一区二区,日韩国产欧美一区二区三区,精品视频在线观看视频免费视频,欧美在线小视频,精品一区视频

利用隱空間投影算法的模型自適應方法

放大字體  縮小字體 發布日期:2014-10-21     來源:[標簽:出處]     作者:[標簽:作者]     瀏覽次數:129
核心提示:
摘  要:為了降低語音識別系統中噪聲的影響,提出一種利用隱空間投影算法的模型自適應方法。該方法利用狀態間的相關性提取出反映碼本和待識別語音共同特性的基矢量。由于語音與噪聲是相互獨立的,因此,當語音識別系統中有噪聲存在時,認為不能用基矢量表示的那部分余量就是噪聲。與本征音方法相比,該方法可以有效地降低噪聲對語音識別系統的影響。該方法在提取基矢量時利用了自適應教據,并且節省了存儲空間。實驗結果表明:該方法在噪聲環境下相對于最大似然線性回歸自適應方法有4~9百分點的提高,相對于最大后驗概率和本征音方法有更大的提高。
關鍵詞:信息處理;說話人自適應;隱空間投影;空間相關性

    語音識別技術近些年來取得了很大的進展,得到了廣泛的應用,但是,穩健性問題仍然是語音識別中一個嚴重的問題。所謂的穩健性是指語音識別系統在各種條件下都能保持較高識別率的這樣一種性質,穩健性問題的解決將是推動語音識別技術實用化的一個關鍵因素。模型自適應是一種解決穩健性問題比較有效的方法,通過利用少量的待識別語音更新碼本,使得自適應后的碼本更接近于待識別的語音的特性,同時使得自適應后的碼本更接近于識別環境。
    聲學碼本的各個狀態之間是相互關聯的,某些狀態間存在著很強的相關性,這種相關性被稱為“空間相關性。由于噪聲與語音信號是統計獨立的,語音信號的相關性是噪聲所不具備的,因此,可以利用語音信號的空間相關性提高語音識別系統的穩健性。
    為了減弱噪聲對語音識別系統的影響,本文提出了一種利用隱空間投影projection to latentstructure(PLS)的模型自適應方法,該方法利用聲學狀態間的相關性,通過模型自適應降低噪聲對語音識別系統的影響。
    目前比較有效的自適應技術有最大似然線性回歸(maximum likelihood linear regression,MLLR)、最大后驗概率(maximum a posterior,MAP)和本征音(eigenvoice,EV)等幾種,MLLR利用期望值最大(expectation maximization,EM)算法使得自適應數據的似然值最大,MAP利用最大后驗概率更新當前碼本參數。EV算法利用主分量分析(principal componentanalysis,PCA)來提取出一組基,用這組基來表示碼本的性質,由于碼本的狀態間存在著相關性,因此,可以用較少的基來表示碼本的特性,然后根據待識別說話人的特性調整各個基的系數;但是,由于這些基是從訓練數據中提取出來的,當碼本訓練數據有限時,它可能不能充分地反映待識別的說話人的特性,或者說待識別說話人與碼本之間的相關性。PLS方法則可以解決這個問題,它與EV算法的主要區別在于,PLS方法在提取基矢量的過程中利用了待識別的說話人數據。由于噪聲與語音是統計獨立的,因此,可以認為待識別說話人數據中不能用這組基線性表示的余量就是噪聲。

1 PLS模型自適應
   
如果用X表示碼本,Y表示待識別語音(來自同一說話人),PLS模型則要尋找一組基矢量ti,這組基矢量既可以用來表示X,也可以用來表示Y,即X和Y均表示成隱變量ti的線性變換。當有噪聲存在時,不能用基矢量的線性組合表示的那部分語音就是噪聲。表示如下:


其中:X是K×N維矩陣;Y是K×M維矩陣,K表示特征維數,N表示碼本狀態個數,M表示說話人統計量包含的狀態數目(M≤N);ti是K×1維的列矢量,ti的個數用A來表示,即i=1,2,…,A;pi是N×1維的列矢量;ri是M×1維的列矢量。這里的pi和ri分別表示ti在X中及Y中的權重,矩陣E和F表示預測誤差矩陣,那么噪聲就表示為誤差矩陣F。

1.1 基向量的求解
   
假設從兩組變量中分別提取成分t和u,t是自變量X的一個線性變換t=Xw,u是因變量X的一個線性變換u=Yv。
    欲使得t和u的相關程度達到最大,即可以通過讓t和u的內積最大來實現,即一個條件極值問題:


    利用Langrange乘數法,可知當t是矩陣的最大特征值對應的特征向量時,u是矩陣的最大特征值對應的特征向量時,t和u的相關程度達到最大。

1.2 PLS說話人自適應算法計算步驟
   
根據上面給出的基向量求解方法,可以給出下面的PLS說話人自適應算法的計算步驟。
    步驟l變量去均值歸一化處理,X和Y的各個分量都要去均值歸一化,設Xo和Yo分別表示經過歸一化和去均值處理后的矩陣。
    下面用Xi、Yi、ti、pi、ri分別表示第i次迭代得到的自變量、因變量、基矢量、自變量系數、因變量系數,其中i=1,2,…,A,A表示基矢量的個數。
    步驟2 又分為3步。

    步驟3 利用Yi更新碼本中相應狀態的均值。
    與EV算法相比,PLS利用了待識別說話人的數據提取基矢量,因此,它所提取出的基矢量能反映待識別的說話人的特性,可以用于說話人自適應。此外,當待識別的語音中含有噪聲時,由于這組基也是反映碼本特性

工博士工業品商城聲明:凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與商城(www.lmelshi.com)聯系,本網站將迅速給您回應并做處理。
聯系電話:021-31666777
新聞、技術文章投稿QQ:3267146135  投稿郵箱:syy@gongboshi.com
主站蜘蛛池模板: 99ri在线精品视频| 亚洲精品在线影院| 国产宾馆视频| 欧美一区二区三区香蕉视 | 亚洲免费在线观看视频| 欧美视频在线免费| 久久欧洲视频| 久久中文字幕免费视频| 亚洲欧美成人综合| a在线视频| 亚洲国产精品综合一区在线| 99在线观看视频免费精品9| 亚洲成人手机在线| 玖玖国产精品视频| 成年视频网站| 最新国产大片高清视频| 日韩欧美亚洲视频| 精品成人免费视频| 伊人久久大香线蕉综合电影网| 欧美大片在线观看成人| 收集最新中文国产中文字幕 | 欧美综合伊人久久| 伊人热人久久中文字幕| 五月天伊人| 欧美成人高清在线电影免费看| www伊人网| 亚洲国产网址| 欧美精品第56页在线视频观看 | 春色校园综合网| 色在线视频免费| 成年网站在线| 国产精彩视频在线| 亚洲剧情在线| 黄色短文| www久久com| 精品午夜久久影视| 亚洲欧美视频一区二区| 日本一区二区三区在线看 | 伊人99在线| 色日本在线| 欧美日韩成人在线|