高維生物數據的分類與預測研究.pdf_第1頁
已閱讀1頁,還剩147頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近幾年,隨著生物科學技術的飛速發(fā)展,產生出大量的生物數據。例如基因芯片技術大大加速了生物實驗的進行,并隨之產生了涉及數千維特征的基因表達數據,如何有效的處理和分析所產生的高維數據越來越引起研究者們的廣泛關注。對于蛋白質數據,同樣也面臨這樣的問題,為了更好地描述一個龐大的蛋白質信息數據,需要大量的高維數據和信息。但是最初研究人員提出的用來描述蛋白質序列信息的方法比較簡單,得到的特征所包含的序列信息量很少,所以特征的維數不是很高,例如氨基酸

2、的組成的特征描述方法。隨著研究的不斷深入,為了更好的描述蛋白質序列,表達方法中考慮了氨基酸的各種物理化學性質,即產生了偽氨基酸組成等方法?,F今,隨著蛋白質信息的增加以及各種蛋白質數據庫的建立與完善,利用蛋白質數據庫信息以及進化信息來描述蛋白質序列的特征表達方法被提出,典型的方法包括二肽組成、位置特異性分數矩陣(PSSM)、功能域組成、基因本體(Go)等。它們雖然比較全面的表達了蛋白質序列的各種結構和功能信息,但表達后相應特征的維數也隨之

3、增大,涉及到的特征維數已從幾十維增加到幾百維、甚至幾千維。隨著維度(特征數)的增加,數據之間的冗余性和不相關性都隨之增大,這樣會帶來很多問題,例如對于某些數據分析算法,算法的計算復雜性會迅速增加。因此研究者們開始考慮有效的降低數據的冗余性及計算復雜度的理論和方法,維數約簡算法即對高維數據降維的方法,是解決該問題的一種有效途徑。通過降維約簡了大量的冗余信息,但原數據中的重要信息被保留了下來。許多實驗結果都證明采用降維方法不但使得預測系統(tǒng)得

4、到簡化,同時還提高了分類性能。
   本論文基于線性子空間降維方法來預測蛋白質數據的類別,其有效性通過模型評估方法得以驗證。但是線性假設的內在不足使得線性降維方法無法揭示出數據集合中所含有的非線性結構性,而現實中所獲得的真實數據集合更多的是呈現出非線性的結構,如本文研究的生物數據就是一種復雜的非線性結構數據。故為了彌補線性降維方法的不足,有效的探求數據集的內在非線性結構,線性子空間預測方法被推廣到高維特征空間,開發(fā)出基于核方法的

5、蛋白質數據分類預測算法。但是核函數不利于人的感知和直接理解,流形學習降維算法的提出彌補了它的不足。最近,產生了一種新的降維方法一最大方差映射方法。它結合了流形學習和線性降維方法的優(yōu)點,采用該方法預測蛋白質的類別取得了較高的預測準確率。最后針對經典等距離映射(Isomap)降維算法的不足之處,提出了相應的改進算法MDM-Isomap,即基于最小最大距離度量準則(MDM)的降維算法。通過人臉識別實驗進一步證明了該改進算法的有效性。
 

6、  本文的主要貢獻在于:
   1.本文提出采用線性子空間降維方法來預測蛋白質亞細胞位置和四級結構。首先提取蛋白質數據的序列特征生成屬性向量。屬性向量的維數一般都很高,它能全面的描述蛋白質序列信息的同時,也帶來了“維數災難”問題,使得蛋白質亞細胞預測系統(tǒng)的復雜度很高。為了解決這一問題,我們采用了線性子空間的降維方法從中提取出重要的低維的特征向量,然后在降維后的低維特征向量上再進行分類預測,最后預測結果表明采用該方法不但使得生物

7、預測系統(tǒng)得到簡化,還提高了預測性能。
   2.考慮到線性降維方法對數據的假設過于苛刻,需要滿足線性結構,而生物數據大多呈現出非線性的結構特點,所以這里將所提出的線性子空間方法推廣到高維特征空間,形成基于核方法(非線性降維方法)的蛋白質亞細胞位置預測算法。經實驗證明了這種方法的有效性,預測準確率高于基于線性子空間降維算法的預測方法。
   3.充分挖掘流形學習算法與線性降維算法的優(yōu)點,以將兩種方法的相結合為切入點,本文采

8、用線性與非線性方法相結合的算法-最大方差映射方法(MVP)來預測膜蛋白的類別。它繼承了線性判別分析算法(LDA)的最大化類間距離和最小化類內距離的思想,并在此基礎上考慮了樣本的局部幾何特征,將其延伸為最大化類間的幾何特征和最小化類內的幾何特征。MVP方法的優(yōu)點在于與傳統(tǒng)的線性判別分析算法相比,它考慮了樣本的空間幾何結構信息,與基本的流形學習算法相比,它又具備判別能力,對解決分類問題的特征降維,尤其是膜蛋白的分類預測問題非常有效。

9、   4.對比了各種降維算法在蛋白質數據分類預測中的結果,總結出了各種降維算法的優(yōu)點和缺點。針對等距離映射算法(Isomap)的鄰域大小難以有效選取的問題提出了相應的改進算法,即基于最小最大距離度量準則(MDM)的降維算法MDM-Isomap。采用這種新的度量算法替代原始的歐式距離度量算法使得選擇的近鄰更加準確更能反應流形的本質特點。通過人臉識別實驗也證明了這種方法的有效性,預測準確率高于經典的Isomap降維方法。
   5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論