漢語普通話發(fā)音質(zhì)量自動評測方法研究.pdf_第1頁
已閱讀1頁,還剩156頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、發(fā)音質(zhì)量自動評測(以下簡稱“評測”)是計(jì)算機(jī)輔助語言學(xué)習(xí)及口語考試中的核心技術(shù)問題,其研究成果對提高學(xué)習(xí)者學(xué)習(xí)的靈活性和滿意度,減少人工閱卷的主觀性和不穩(wěn)定性,降低投入成本,提高實(shí)效性,具有重要的理論意義和科學(xué)價(jià)值,應(yīng)用前景廣闊。隨著國內(nèi)普通話的大力推廣和普及,以及國外漢語學(xué)習(xí)熱潮的快速興起,針對漢語普通話的評測技術(shù)實(shí)際需求強(qiáng)勁,且更具特色和挑戰(zhàn)性,有必要深入系統(tǒng)地研究。
  漢語是一種單音節(jié)聲調(diào)語言,每個音節(jié)包括聲母、韻母和聲調(diào)

2、三部分,音節(jié)間界限較分明,有鮮明的輕重音和兒化音。漢語音節(jié)的三元結(jié)構(gòu)及音韻特點(diǎn)與英語語音差異較大,需要結(jié)合漢語特點(diǎn),在表征、建模和計(jì)算等方面進(jìn)行針對性研究和創(chuàng)造性方法改進(jìn)。此外,現(xiàn)有主流評測方法在基本發(fā)音單元(聲韻母、聲調(diào)等)評測上的準(zhǔn)確性還不夠理想,無法滿足精細(xì)評測任務(wù)和較高水平說話人評測任務(wù)的實(shí)際需求,需要在聲學(xué)建模和置信度計(jì)算等方面進(jìn)行改進(jìn),以提高聲學(xué)模型的精度和評測模型的準(zhǔn)確度。
  本文重點(diǎn)研究母語人群的漢語普通話評測方

3、法。在聲韻母評測方面,針對當(dāng)前主流的發(fā)音良好度(Goodness of pronunciation,GOP)算法存在的切分不準(zhǔn)、計(jì)算精度低、模型間區(qū)分性差等問題,提出一種基于音素混淆概率矩陣的評測方法。該方法通過計(jì)算音素混淆概率矩陣來構(gòu)建每個音素的混淆音素集合,一方面利用混淆音素集合建立音素混淆限制識別網(wǎng)絡(luò),提高音素段切分的準(zhǔn)確性;另一方面,引入音素混淆先驗(yàn)概率,把混淆音素集合作為后驗(yàn)概率的計(jì)算空間,提高計(jì)算精度和模型間的區(qū)分性。為擴(kuò)大

4、發(fā)音的評測范圍,提高聲學(xué)模型的覆蓋范圍,提出一種基于擴(kuò)展發(fā)音空間的評測方法。該方法利用錯誤發(fā)音樣本數(shù)據(jù),擴(kuò)展標(biāo)準(zhǔn)發(fā)音空間,對標(biāo)準(zhǔn)發(fā)音的各類發(fā)音錯誤進(jìn)行精細(xì)建模,并在這個擴(kuò)展后的發(fā)音空間內(nèi)進(jìn)行后驗(yàn)概率計(jì)算,計(jì)算更加準(zhǔn)確和有效。同時,針對包含錯誤發(fā)音的數(shù)據(jù)獲取容易,但標(biāo)注困難,且工作量巨大的問題,設(shè)計(jì)對錯誤發(fā)音樣本聚類的非監(jiān)督學(xué)習(xí)方法,以及發(fā)音模型的自動更新方法,來持續(xù)提高評測模型的準(zhǔn)確性。鑒于上述方法都是單維置信度計(jì)算加閾值判斷還不夠魯棒

5、,提出一種基于系統(tǒng)融合的多維置信度的評測方法。該方法依次計(jì)算待評測語音段相對于其對應(yīng)音素的混淆音素集合中所有音素的后驗(yàn)概率和錯誤音素集合中所有音素的后驗(yàn)概率,并把它們組合起來,形成一個多維置信度向量,作為一種新的評測特征,為各個音素分別訓(xùn)練出不同發(fā)音質(zhì)量的分類器,實(shí)現(xiàn)對聲韻母發(fā)音質(zhì)量的再評測,人機(jī)相關(guān)系數(shù)達(dá)到0.893,超過了人工評測的平均水平。
  在聲調(diào)評測方面,針對聲調(diào)相關(guān)基頻特征的有效獲取和多層次利用,提出一種基于系統(tǒng)融合

6、的多維置信度的聲調(diào)評測方法。在語音幀層級上,把基頻特征及其一階、二階差分加入到39維梅爾倒譜系數(shù)中去,共42維,以聲母和帶調(diào)韻母為發(fā)音單元,采用嵌入式訓(xùn)練方式,建立嵌入式聲調(diào)模型。在音節(jié)層級上,提取當(dāng)前音節(jié)和其前面、后面音節(jié)的基頻特征及它們的統(tǒng)計(jì)特征,共12維,選擇高斯混合模型(Gaussian Mixture Model,GMM)做分類器,建立顯式聲調(diào)模型。把利用嵌入式聲調(diào)模型計(jì)算出的5種聲調(diào)的后驗(yàn)概率和利用顯式聲調(diào)模型計(jì)算出的5種聲

7、調(diào)的后驗(yàn)概率組合起來,形成一個10維的多維置信度向量,作為一種新的評測特征,為各個聲調(diào)分別訓(xùn)練出不同發(fā)音質(zhì)量的分類器,實(shí)現(xiàn)對聲調(diào)發(fā)音質(zhì)量的再評測。實(shí)驗(yàn)結(jié)果表明,上述方法有效融合兩種建模方式的互補(bǔ)性,同時利用長時語段和短時語段的特征信息,且不需要考慮閾值選取,具有更好的魯棒性和適應(yīng)性,有效提高了聲調(diào)評測方法的準(zhǔn)確性,人機(jī)相關(guān)系數(shù)達(dá)到0.899,超過了人工評測的平均水平。
  在漢語兒化音評測方面,針對國家普通話水平測試中對兒化音的考

8、評要求,提出一種基于分類思想的兒化音評測方法。深入分析兒化音的發(fā)音規(guī)律和特色,提取共振峰、發(fā)音置信度、時長等代表性特征,采用集成學(xué)習(xí)方式,改進(jìn)傳統(tǒng)的AdaBoost算法,每次迭代時,同一基分類器會根據(jù)不同分類類別分別更新權(quán)值,在權(quán)值計(jì)算時增加一個與類別先驗(yàn)概率和類別數(shù)目相關(guān)的正數(shù)項(xiàng),大大降低算法對基分類器的精度要求,并特別適合數(shù)據(jù)分布不平衡的多類分類問題,實(shí)現(xiàn)對兒化音的發(fā)音質(zhì)量狀況進(jìn)行有效分類,分類效果明顯優(yōu)于傳統(tǒng)的AdaBoost集成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論