基于基因表達譜的腫瘤基因及其網絡結構研究.pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、人類基因組計劃的實施,產生了大量的生物醫(yī)學數(shù)據。生物信息學是基于信息科學的理論和方法,利用計算機技術,分析和研究生物醫(yī)學數(shù)據的新興學科?;诨虮磉_譜,在分子水平上對腫瘤進行分析和研究,是當前生物信息學研究的重要課題。本文應用人工智能的方法,對腫瘤基因表達譜進行了分析和研究,取得的研究成果主要有: 第一:提出了一種腫瘤基因表達數(shù)據殘缺值處理的方法。本文以GEO數(shù)據庫中的GSE4045系列結腸癌數(shù)據為研究對象。設定數(shù)據中樣本的殘缺

2、值個數(shù)閾值為α,去掉殘缺值個數(shù)大于α的樣本,殘缺值等于與殘缺值樣本類別相同的同一基因的均值。對處理后的數(shù)據進行聚類分析,結果顯示出很好的聚類有效性。 第二:本文建立了一種通過評價備選特征基因子集的分類性能來確定腫瘤基因表達數(shù)據特征基因的方法,并基于胃癌基因表達譜提取了胃癌特征基因集合。首先應用分類信息指數(shù)、Relief、T檢驗、秩和檢驗算法,通過“腫瘤基因表達數(shù)據殘缺值的處理-數(shù)據標準化-搜索差異表達基因-去冗余分析”等步驟,提

3、取數(shù)據中的備選特征基因,再采用SVM分類器評價備選特征基因子集對樣本的分類正確率。分類正確率最高,元素個數(shù)最多的備選特征基因子集即為特征基因。本文以Hippo.Y等提供的胃癌基因表達數(shù)據為研究對象,應用本標準確定了特征基因提取的算法和可有效應用于聚類分析的特征基因。分析結果可視化程度好,可解釋性強,具有很好的統(tǒng)計學和生物學意義。 第三:應用邊介數(shù)聚類算法提取了結腸癌基因網絡的模塊結構,并用模塊度函數(shù)對聚類效果進行了定性評價。邊介

4、數(shù)聚類算法是一種基于圖論的算法,計算網絡中通過某條邊的最短路徑的條數(shù)即邊介數(shù),找出邊介數(shù)最大的邊并將其刪除,從而使網絡逐步聚成不同的子網絡。這些子網絡對應生物網絡的功能模塊。本文首先對聚類的有效性進行了研究,利用模塊度函數(shù)比較了已知聚類結果的Zachary空手道俱樂部網絡的邊介數(shù)聚類和層次聚類的結果,證明了邊介數(shù)聚類算法的有效性,也解決了無監(jiān)督聚類算法需要設定聚類數(shù)的問題。本文采用的邊介數(shù)聚類算法借鑒了Girvan和Newman提出的社

5、區(qū)發(fā)現(xiàn)算法。利用邊介數(shù)聚類算法對GSE4045系列結腸癌數(shù)據進行了分析,通過檢索GO數(shù)據庫驗證了邊介數(shù)聚類所得基因模塊具有相似或相同的功能類,從而進一步證明了算法的可行性和有效性。 本文的研究工作得到了國家自然科學基金(No.60234020)的支持,相關研究成果已被DCDIS國際期刊(SCI刊源)、WCCI2008(EI刊源)和中文核心期刊《北京工業(yè)大學學報》正式錄用。本文研究工作的意義在于通過發(fā)現(xiàn)相似性預測未知基因的功能,為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論