版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、腫瘤是人類面臨的一大災(zāi)難,任何有關(guān)腫瘤的檢測、診斷和治療的研究,毫無疑問都具有重要的意義。不同腫瘤亞型具有不同的特征,從基因水平上觀測,它們分別由單種或多種基因表達及其相互作用所控制,具有不同的基因表達特征,但它們往往難于用臨床特征進行區(qū)分。基因芯片技術(shù)的出現(xiàn),為科學(xué)家在分子水平上研究腫瘤現(xiàn)象提供了一個強有力的工具,比如可以用來研究正常組織與腫瘤組織的區(qū)別。基于基因表達數(shù)據(jù)的腫瘤亞型多類別分類與分析,正是試圖從基因水平上對不同的腫瘤或亞
2、型進行分類和分型。 由于基因芯片表達數(shù)據(jù)具有高維、高噪音、高相關(guān)性等特點,使得基于基因芯片表達數(shù)據(jù)的模式分類問題仍然面臨許多困難。例如,檢測基因的數(shù)目相對于樣本的數(shù)目非常大,其中大量與疾病組織樣本無關(guān)的基因的表達不僅降低分類器的性能,還會增加機器學(xué)習(xí)的時間和空間復(fù)雜度。本文圍繞著這些問題,充分利用已有的基因表達數(shù)據(jù),從基因水平上研究對腫瘤多類別進行分類的方法,主要開展了以下兩方面有新意的研究工作: 1.特征基因選擇方法的
3、研究用特征選擇的方法對基因進行篩選來剔除無關(guān)基因,減少基因指標的個數(shù),不僅可以提高分類器的性能,而且還為尋找對疾病有鑒別力的特征基因排除了大量無關(guān)基因的干擾,因此選擇出來的特征基因可以更有效地用來對疾病進行珍斷。一個較優(yōu)的算法選擇出的特征基因子集,不僅應(yīng)該對疾病類別有較強的鑒別力,還應(yīng)該對不同的分類器算法具有較強的魯棒性。從這個原則出發(fā),本文提出了一種基于標準差分布差異(Standard Deviation Error Distribu
4、tion,SDED)的特征基因選擇算法。該算法基于一個直觀的假設(shè):即特征基因表達水平在不同類間和相同類內(nèi)具有不同的概率分布,類間標準差相對較大,而類內(nèi)標準差則盡可能小。結(jié)合基因在類內(nèi)和類間表達標準差分布差異情況,即可對基因進行打分,從而選擇出具有生物學(xué)意義及有利于分類判別的特征基因。通過對比GS2和CHO算法對4個不同白血病基因表達數(shù)據(jù)集進行的實驗分類結(jié)果,表明SDED算法能選擇出有利于分類預(yù)測結(jié)果的特征基因,預(yù)測精度分別比GS2和CH
5、O算法高出0.8-4.2%和1.6-8.4%。同時通過統(tǒng)計所選特征基因在OMIM和KEGG兩大數(shù)據(jù)庫中的注釋情況,說明SDED算法可以選擇出的具有重要生物學(xué)意義的腫瘤相關(guān)特征基因的數(shù)量,要比這兩種算法高出4.0%和6.1%左右。 2.腫瘤亞型多類別分類方法研究利用支持向量機、人工神經(jīng)網(wǎng)絡(luò)和決策樹等模式分類方法對基因表達數(shù)據(jù)進行疾病及疾病亞型的識別已取得了一定的成果。對于雙類別的研究已取得很好的進展,但在多類別分類問題上,存在預(yù)測
6、精度不高,實驗效率不夠理想,所選特征基因生物學(xué)意義不明顯等問題。針對多類別分類問題,主要有兩種策略:一種是將多類別問題分解為雙類別,該類型算法的主要弊端是隨著類別數(shù)的增加,分類器的數(shù)目指數(shù)增長,計算量也因此大大增加。第二種類型的分類器則可以自然的擴展到多類別分類問題,如判別式方法。判別式是基于數(shù)據(jù)標準正態(tài)分布的假設(shè),其數(shù)學(xué)計算并不復(fù)雜,但主要針對線性關(guān)系的問題。針對判別式方法的局限性以及基因表達數(shù)據(jù)噪聲強,波動大,在大量數(shù)據(jù)的背后還有很
7、多相關(guān)變量不能被直接觀測到等特點,本文提出了一種基于簡單高斯混合模型(Simple Gaussian Mixture Model,SGMM)的多類別判別方法,該方法結(jié)合了判別式算法以及高斯混合模型的優(yōu)點,從而保留了更多有利多類別分類的信息。通過用4個不同的白血病基因表達數(shù)據(jù)集進行測試,并用留一法交叉驗證得到的分類結(jié)果表明,利用簡單高斯混合模型的分類器,能夠取得比最近鄰算法高2%左右的預(yù)測精度,同時與支持向量機的分類效果相當(dāng),但其計算復(fù)雜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于基因表達譜數(shù)據(jù)的腫瘤分類研究.pdf
- 基于基因表達數(shù)據(jù)的腫瘤分類算法研究.pdf
- 基于基因表達譜的腫瘤數(shù)據(jù)分類研究.pdf
- 基于ELM的腫瘤基因表達數(shù)據(jù)分類算法研究.pdf
- 基于腫瘤基因表達譜數(shù)據(jù)的分類算法研究.pdf
- 基于流形學(xué)習(xí)的腫瘤基因表達數(shù)據(jù)分類研究.pdf
- 基于基因微矩陣表達數(shù)據(jù)的乳腺腫瘤的分類研究.pdf
- 基于基因表達譜的腫瘤分類特征基因選擇研究.pdf
- 基于多特征的集成分類器在基因表達數(shù)據(jù)分類中的應(yīng)用.pdf
- 一種基于ROC分析的多類別分類方法.pdf
- 基于基因表達數(shù)據(jù)的腫瘤預(yù)測模型研究.pdf
- 基因分類及基因表達數(shù)據(jù)分析方法的研究.pdf
- 基于基因表達數(shù)據(jù)的樣本分類研究.pdf
- 基于稀疏性理論的腫瘤基因表達譜分類.pdf
- 基于多源信息融合的基因表達數(shù)據(jù)聚類分析.pdf
- 基于鄰域粗糙集的腫瘤基因表達譜數(shù)據(jù)分析.pdf
- 分析基因表達數(shù)據(jù)解決疾病分類問題.pdf
- 基于基因表達譜數(shù)據(jù)的癌癥分類研究.pdf
- 基于流形學(xué)習(xí)和多任務(wù)學(xué)習(xí)的腫瘤基因表達數(shù)據(jù)分類方法研究.pdf
- 腫瘤基因表達譜分類的特征基因選擇研究.pdf
評論
0/150
提交評論