廣義灰色分析體系建模的基本問題及其模型集群分析研究.pdf_第1頁
已閱讀1頁,還剩166頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、技術(shù)進(jìn)步與革新往往以一種明顯而有效的方式促進(jìn)科學(xué)的發(fā)展。在最近20年里,現(xiàn)代分析儀器與計算機技術(shù)得到了迅猛的發(fā)展,使得分析化學(xué)領(lǐng)域樣本量測,數(shù)據(jù)采集與數(shù)據(jù)分析的手段發(fā)生了革命性的變化,極大的促進(jìn)了分析化學(xué)與系統(tǒng)生物學(xué)研究與發(fā)展。當(dāng)今化學(xué)與生命科學(xué)研究中的樣本往往具有極高的復(fù)雜性,其物質(zhì)組成、物質(zhì)含量、物質(zhì)間的相互作用及物質(zhì)與其含量在時間方向上的動態(tài)變化,在很大程度上都是未知的。此類樣本首先為分析化學(xué)家提出了極大挑戰(zhàn)。幸運的是,高通量分析

2、儀器的產(chǎn)生和發(fā)展使得分析化學(xué)家能夠同時從成千上萬個分析通道(光譜的波長,質(zhì)譜的質(zhì)荷比或者基因芯片中的基因)獲取實驗樣本的數(shù)據(jù),進(jìn)而可采用數(shù)學(xué)或者統(tǒng)計學(xué)方法對數(shù)據(jù)進(jìn)行分析,以期獲得有價值的化學(xué)或生物信息。此類分析體系的建模尚無可靠的物理或者化學(xué)規(guī)律可依,而且模型線性或者非線性未知,其解析具有很高的挑戰(zhàn)性,梁逸曾教授將其稱為廣義灰色分析體系(Generalized Gray Analytical Systems)。而且,注意到此類體系的量測

3、變量個數(shù)p往往非常大,少則上百,多則百萬,同時由于樣本采集或者實驗成本等原因,樣本的數(shù)量n往往相對非常少。這就產(chǎn)生了著名的“l(fā)arge p,small n”難題,它又為廣義灰色分析體系的解析提出了新的問題。我們認(rèn)為,廣義灰色分析體系的解析目前仍存在三個基本問題:模型評價、變量選擇與模型應(yīng)用域的定義。這三個基本問題仍屬于統(tǒng)計學(xué)領(lǐng)域和化學(xué)計量學(xué)領(lǐng)域尚未很好解決的問題。對于這三個問題的解答,目前的方法大都是建立在單個數(shù)據(jù)及單個模型的基礎(chǔ)上的,

4、并沒有考慮到樣本的變化和變量的變化對分析結(jié)果的影響。因此,采用此類方法得到的分析結(jié)果(如模型評價結(jié)果,篩選出的變量或模型應(yīng)用域)仍值得商榷。針對此問題,我們自主提出了復(fù)雜數(shù)據(jù)分析的全新的一般性思路,即模型集群分析(Model Population Analysis,MPA)?;贛PA的數(shù)據(jù)分析方法可望解決現(xiàn)有的模型評價、變量選擇以及模型應(yīng)用域分析方法的缺陷。借助于MPA這個思路平臺,我們主要研究并建立了新型的基于統(tǒng)計分布的模型評價與變

5、量選擇算法并在模擬和實驗數(shù)據(jù)上進(jìn)行了全面的驗證,獲得了令人滿意的結(jié)果。另外,我們亦對模型應(yīng)用域進(jìn)行了初步的探索。本論文研究內(nèi)容主要包括四個部分:模型集群分析(第二章),模型評價(第三章),變量選擇(第四到九章)與模型應(yīng)用域(第十章),簡述如下:
  一、首先提出了模型集群分析的產(chǎn)生背景及其基本要素。任何基于數(shù)據(jù)的模型都勢必受到樣本和變量的影響,因此變量選擇也會受到相應(yīng)的影響。然而,文獻(xiàn)報道的變量選擇方法往往都是基于單個數(shù)據(jù)和單個模

6、型的,而未考慮到樣本變化和變量的變化所帶來的影響。通過不斷的改變樣本和變量而建立多個模型,我們發(fā)現(xiàn),變量的重要性呈現(xiàn)出一穩(wěn)定的統(tǒng)計分布,此分布證實了變量重要性的不確定性,反映了數(shù)據(jù)的變化對分析目標(biāo)產(chǎn)生的影響,為理解數(shù)據(jù)和建立模型提供了全面的信息。據(jù)此,我們認(rèn)為基于對一大群模型的統(tǒng)計分析,可望能夠為建立和發(fā)展新型的化學(xué)計量學(xué)算法提供新的思路?;谶@些認(rèn)識和理解,我們提出了模型集群分析,其主要思路就是通過蒙特卡洛采樣,利用一大群子模型來考察

7、數(shù)據(jù)的內(nèi)在性質(zhì),最終獲取我們感興趣的參數(shù)(樣本空間,變量空間,參數(shù)空間與模型空間)的統(tǒng)計分布,從而實現(xiàn)對有限樣本的最大信息獲取。從這一角度看來,模型集群分析與貝葉斯分析有類似功效,通過強調(diào)參數(shù)分布,與單模型分析形成了強烈對比。簡言之,模型集群分析用時間換取空間,從不同的側(cè)面對數(shù)據(jù)進(jìn)行分析,對信息進(jìn)行提取,與蘇軾的詩句“橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同”不期而合。(第二章)
  二、基于模型集群分析,我們提出了模型預(yù)測能力的統(tǒng)計比較方

8、法。模型比較是化學(xué)計量學(xué)中的重要研究內(nèi)容。然而,在當(dāng)前已發(fā)表的大多數(shù)科研論文中,對模型預(yù)測能力的比較僅僅建立在一個單獨的測試集或者固定樣本分組后的單次交互檢驗上。顯而易見,這樣的比較具有得出錯誤結(jié)論的風(fēng)險。利用MPA的思想,通過不斷改變測試集或者改變訓(xùn)練集的樣本劃分,獲取了不同變量集的測試預(yù)測誤差或者交互檢驗誤差的分布。對它們的分布進(jìn)行統(tǒng)計檢驗,最終得到可靠的結(jié)論。將此方法應(yīng)用于近紅外數(shù)據(jù)和代謝數(shù)據(jù)的分析,結(jié)果顯示此方法能夠避免得出錯誤

9、結(jié)論的風(fēng)險,顯著提高了變量預(yù)測能力比較的可靠性。(第三章)
  三、基于模型集群分析,我們建立了子窗口重排分析(SubwindowPermutation Analysis,SPA)的變量選擇方法。此方法的基本假設(shè)是有信息變量在重排后會引起模型預(yù)測精度的顯著降低,而無信息變量由于不能提供分類信息,因此是否重排對模型預(yù)測精度無明顯影響。首先通過蒙特卡洛技術(shù)同時從樣本和變量空間采樣,獲取N個子訓(xùn)練集和N個子測試集,利用偏最小二乘線性判別

10、分析建立N個分類模型。繼計算每個變量重排前后在測試集上的模型預(yù)測誤差,最終獲取重排前后的兩組預(yù)測誤差。通過對這兩組預(yù)測誤差的差異進(jìn)行統(tǒng)計檢驗,實現(xiàn)對變量重要性的可靠的評價。將此方法應(yīng)用于Ⅱ型糖尿病和兒童超重的代謝數(shù)據(jù)分析,結(jié)果顯示篩選出的少數(shù)幾個重要代謝物不但能夠顯著提高模型預(yù)測精度,而且亦從文獻(xiàn)報道中得到了生物學(xué)的驗證。(第四章)
  四、基于模型集群分析,我們設(shè)計了專門適用于支持向量機(SupportVector Machin

11、es, SVM)的變量選擇方法。基于結(jié)構(gòu)風(fēng)險最小化的SVM模型在各個領(lǐng)域得到了廣泛的應(yīng)用,但適于SVM的變量選擇的方法鮮有報道。表征 SVM預(yù)測性能的核心參數(shù)為其模型的間隔(margin),間隔大的SVM模型具有更低的結(jié)構(gòu)風(fēng)險與較優(yōu)的泛化性能?;诖诵再|(zhì),我們提出了間隔影響分析(Margin Influence Analysis,MIA)方法。我們通過變量空間的蒙特卡洛采樣建立N個SVM模型并計算相應(yīng)的N個間隔。然后,根據(jù)模型是否含有某

12、個給定變量,將所有模型分為兩組,相應(yīng)的間隔也分為兩組。通過對這兩組分布進(jìn)行統(tǒng)計檢驗,篩選出能夠顯著增加SVM的間隔的變量。將此方法應(yīng)用于兩組基因表達(dá)數(shù)據(jù)的分析,得到了具有競爭力的結(jié)果。(第五章)
  五、利用模型集群分析的思想,我們發(fā)展了競爭自適應(yīng)重加權(quán)采樣(Competitive Adaptive Reweighted Sampling,CARS),提出采用預(yù)測誤差分布對CARS選出的變量集進(jìn)行更加全面的評價,可望得到可靠的結(jié)果

13、。實驗表明,CARS方法具有篩選出較優(yōu)的變量組合的能力,能夠顯著改善模型的預(yù)測性能。(第六章)
  六、利用模型集群分析的思路,提出了研究變量的條件重要性的一種方法。首先在變量空間進(jìn)行采樣,得到N個子數(shù)據(jù)集,建立N個子模型,并計算每個模型的預(yù)測誤差。對于每個變量,抽取含有此變量的最好的一部分(如5%)模型。采用這組最優(yōu)模型的預(yù)測誤差的中位數(shù)的倒數(shù)作為變量的條件重要性的評價指標(biāo),該指標(biāo)能夠反映出某個變量在別的變量存在時的重要性。利用

14、此方法,分析了來源于芬蘭青少年心血管疾病研究項目中的代謝綜合征數(shù)據(jù)和動脈粥樣硬化數(shù)據(jù),發(fā)現(xiàn)此方法能夠有效篩選出僅與別的變量共存時才能表現(xiàn)出預(yù)測能力的變量。生物學(xué)檢驗表明該方法適合于生物標(biāo)記物的篩選。(第七章)
  七、利用模型集群分析的思路,并結(jié)合逆跳馬爾科夫蒙特卡洛(RJMCMC)的想法,提出了一種非常適合于在高維空間中搜索變量組合的方法,稱之為隨機青蛙(Random Frog)。采用了按概率對備選模型進(jìn)行接受的準(zhǔn)則,并提出了一

15、種自適應(yīng)的基于正態(tài)分布的模型維數(shù)轉(zhuǎn)換機制,從而得到N個具有不同維數(shù)的模型。統(tǒng)計分析每個變量在這N個模型中選擇概率,將其作為重要性的評價指標(biāo)。在兩組基因表達(dá)分類數(shù)據(jù)上的測試結(jié)果顯示此方法選出的基因具有很強的分類能力,利用這些基因建立的主成分分析模型亦能將正常樣本和疾病樣本完全分開,充分說明了此方法在揭示判別模式方面極具潛力。(第八章)
  八、利用模型集群分析的思路,提出了變量互補信息網(wǎng)(VariableComplementary

16、Network,VCN),對我們首次提出的變量互補信息這個概念進(jìn)行了定量研究。生命體是一個系統(tǒng),生物變量之間相互依存并共同作用。因此,對變量互補信息的研究具有重要意義?;诙嘧兞磕P偷幕貧w系數(shù),我們提出了變量互補信息的計算公式,并采用圖方法將變量互補信息進(jìn)行了可視化,得到了變量互補網(wǎng)。此網(wǎng)非常直觀的揭示了變量之間的互補關(guān)系,同時也為篩選生物標(biāo)記物提供了一種全新的思路。將此方法應(yīng)用于Ⅱ型糖尿病和老鼠術(shù)后認(rèn)知障礙數(shù)據(jù)的分析,得到了非常漂亮的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論