版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、目的:流式細(xì)胞術(shù)是一種對大量細(xì)胞的物理和化學(xué)特性進(jìn)行快速分析的技術(shù)。通過將熒光標(biāo)記的抗體與細(xì)胞結(jié)合,并對細(xì)胞在激光照射下的光學(xué)信息進(jìn)行分析,流式技術(shù)在細(xì)胞癌變診斷、腫瘤檢測、艾滋病檢測、細(xì)胞免疫表型分析、外周血干細(xì)胞移植及育苗研制等眾多領(lǐng)域得到了廣泛應(yīng)用。然而,在目前流式技術(shù)的應(yīng)用中,流式數(shù)據(jù)的分析仍然采用人工分析方式。人工分析數(shù)據(jù)不僅效率較低,浪費(fèi)資源,而且分析結(jié)果的主觀性較強(qiáng),結(jié)果的可靠性和可重復(fù)性低。隨著流式技術(shù)向著多通道、高通量
2、方向發(fā)展,快速自動(dòng)的數(shù)據(jù)分析平臺(tái)已成為流式技術(shù)發(fā)展的迫切需求。
流式數(shù)據(jù)分析的主要過程是對樣本中細(xì)胞群進(jìn)行劃分,即設(shè)門。人工設(shè)門方法是將多維數(shù)據(jù)逐次投影到二維空間,然后通過劃定區(qū)域?qū)⑼活惣?xì)胞歸為一類。人工設(shè)門主要基于主觀經(jīng)驗(yàn)進(jìn)行區(qū)域設(shè)定,不僅缺乏統(tǒng)一標(biāo)準(zhǔn),而且很難準(zhǔn)確識別含有多維特征的細(xì)胞類群。流式數(shù)據(jù)自動(dòng)設(shè)門在機(jī)器學(xué)習(xí)領(lǐng)域稱為非監(jiān)督聚類,針對這一過程目前雖然提出了一些自動(dòng)聚類算法,然而由于流式技術(shù)檢測樣本的多樣性,許多流式
3、數(shù)據(jù)通常包含了一部分?jǐn)?shù)量稀少且高度非對稱分布的類群,對于這些類群,目前的聚類算法無法進(jìn)行準(zhǔn)確識別。另外,由于流式技術(shù)的多參數(shù)特點(diǎn),流式數(shù)據(jù)通常包含了多個(gè)維度的特征信息。對于多維度流式數(shù)據(jù),目前的算法主要通過先將數(shù)據(jù)投影或降維到二維空間,然后進(jìn)行聚類分析。降維或投影的過程不僅可能丟失一部分?jǐn)?shù)據(jù)特征,而且其分析過程需要人工操作,其屬于一種半自動(dòng)聚類算法。
綜上所述,有必要對流式數(shù)據(jù)細(xì)胞類群自動(dòng)識別算法進(jìn)行研究,實(shí)現(xiàn)多維流式數(shù)據(jù)的直
4、接聚類分析,尤其是數(shù)量稀少且高度非對稱分布類群的準(zhǔn)確分析。
方法:本課題以流式數(shù)據(jù)細(xì)胞類群自動(dòng)識別為目標(biāo),重點(diǎn)解決數(shù)據(jù)中數(shù)量稀少且高度非對稱分布類群的識別,實(shí)現(xiàn)多維流式數(shù)據(jù)的直接聚類分析。課題按照算法設(shè)計(jì)和實(shí)驗(yàn)驗(yàn)證兩個(gè)過程展開研究,主要進(jìn)行了以下工作:
(1)針對數(shù)量稀少且高度非對稱分布類群的識別,提出了偏斜t混合模型聚類算法。通過對混合模型進(jìn)行研究,確定了偏斜t分布為混合模型的分量密度。通過分析偏斜正態(tài)分布的定義方
5、法,以及t分布與正態(tài)分布的轉(zhuǎn)化關(guān)系,定義了一種偏斜t分布概率密度。基于混合模型極大似然估計(jì)及其EM算法的研究,對定義的偏斜t分布混合模型進(jìn)行EM算法推導(dǎo),并得到了EM算法相關(guān)計(jì)算表達(dá)式。針對EM算法計(jì)算可能出現(xiàn)的局部最優(yōu)解問題,提出了一種基于K-means和極大似然的參數(shù)初始化方法,該方法保證EM算法計(jì)算過程收斂到全局最優(yōu)解。
(2)針對目前混合模型方法計(jì)算效率低,無法識別不規(guī)則形狀類群的問題,提出了基于偏斜t混合模型的層次聚
6、類算法。該算法通過類群數(shù)量估計(jì)、偏斜t混合模型聚類和結(jié)果合并三個(gè)主要步驟完成對數(shù)據(jù)的聚類分析。對于數(shù)據(jù)中類群數(shù)量的估計(jì),要求估計(jì)的類群數(shù)必須限制在一個(gè)合理范圍,提出了一種基于直方圖的類群數(shù)量快速估計(jì)算法,該算法利用最大后驗(yàn)概率計(jì)算最優(yōu)組數(shù),并通過直方圖組間頻數(shù)變化趨勢識別類群峰,實(shí)現(xiàn)了流式數(shù)據(jù)中類群數(shù)量的快速估計(jì)。對偏斜t混合模型冗余的聚類結(jié)果,定義了一種類群間相似度判斷準(zhǔn)則,該準(zhǔn)則同時(shí)兼顧類群間的空間距離和類群的空間分布狀態(tài)。對合并過
7、程的結(jié)果,采用兩段回歸擬合方法實(shí)現(xiàn)了結(jié)果的最優(yōu)選擇。
(3)仿真實(shí)驗(yàn)分析。由于前一個(gè)過程的結(jié)果會(huì)影響后一過程的計(jì)算時(shí)間,因此,基于流式數(shù)據(jù)的基本屬性(事件數(shù)、類群數(shù)和維度),首先仿真3組不同屬性的數(shù)據(jù),分析影響算法時(shí)間復(fù)雜度的主要過程。然后,在此基礎(chǔ)上,仿真3組不同屬性的數(shù)據(jù),分析影響算法時(shí)間復(fù)雜度的主要因素。接下來,通過分析兩個(gè)模仿真實(shí)流式數(shù)據(jù)特征的仿真數(shù)據(jù),分別評價(jià)偏斜t混合模型識別不同形狀類群和算法識別數(shù)量稀少且高度非對
8、稱分布類群的有效性。在此過程中,分別對比其他混合模型和非基于概率模型聚類算法的分析結(jié)果。最后,通過分析一個(gè)含有凹形類群的仿真數(shù)據(jù),評價(jià)算法分析不規(guī)則形狀數(shù)據(jù)的有效性。
(4)生物實(shí)驗(yàn)驗(yàn)證。首先進(jìn)行微生物細(xì)胞活性分析實(shí)驗(yàn),通過分析酵母菌細(xì)胞活性實(shí)驗(yàn)中的流式數(shù)據(jù),評價(jià)算法在分析該類型數(shù)據(jù)的有效性。然后進(jìn)行淋巴細(xì)胞亞群分析實(shí)驗(yàn),通過分析CD8+T淋巴細(xì)胞相對計(jì)數(shù)實(shí)驗(yàn)和NK細(xì)胞與B細(xì)胞相對計(jì)數(shù)實(shí)驗(yàn)數(shù)據(jù),評價(jià)算法分析淋巴細(xì)胞亞群數(shù)據(jù)的有
9、效性。三個(gè)實(shí)驗(yàn)數(shù)據(jù)分析過程中,同時(shí)對比目前其他基于概率模型的算法和非基于概率模型算法的分析結(jié)果。
結(jié)果:(1)仿真實(shí)驗(yàn)結(jié)果:通過對三組(共30個(gè))不同屬性的數(shù)據(jù)進(jìn)行分析,并記錄三個(gè)過程的計(jì)算時(shí)間,得出偏斜t混合模型EM算法的計(jì)算時(shí)間占據(jù)了算法計(jì)算的主要時(shí)間,約為97%。通過采用偏斜t混合模型對三組(共60個(gè))不同屬性的數(shù)據(jù)進(jìn)行分析,得出偏斜t混合模型EM算法計(jì)算時(shí)間與數(shù)據(jù)中包含的事件數(shù)和類群數(shù)成線性關(guān)系,與數(shù)據(jù)的維度成平方關(guān)系
10、。并且,對于通常條件下的流式數(shù)據(jù)(p<20,g<20,n<50000),算法計(jì)算時(shí)間主要與數(shù)據(jù)中的類群數(shù)和事件數(shù)相關(guān)。由于其他基于混合模型的聚類算法采用信息準(zhǔn)則識別類群數(shù)量,因此,實(shí)驗(yàn)結(jié)果同時(shí)驗(yàn)證了本文算法相比其他混合模型算法具有更高的計(jì)算效率。在算法有效性評價(jià)實(shí)驗(yàn)中,偏斜t混合模型分析仿真數(shù)據(jù)結(jié)果的F-measure(F值)為:0.99234,高于其他混合模型分析結(jié)果的F值:0.98281,0.97989,0.98302,驗(yàn)證了本文設(shè)
11、計(jì)的偏斜t混合模型識別多種分布形狀類群的能力。本文算法分析含數(shù)量稀少且高度非對稱分布類群的仿真數(shù)據(jù)結(jié)果的F值為0.99899,高于其他算法分析結(jié)果的F值:0.98002,0.98395,0.99264,驗(yàn)證了本文算法識別數(shù)量稀少且高度非對稱分布細(xì)胞群的能力。通過分析包含凹形類群的仿真數(shù)據(jù),驗(yàn)證了本文算法識別數(shù)據(jù)中不規(guī)則分布類群的能力。
(2)生物實(shí)驗(yàn)結(jié)果:以直接聚類方式對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,本文算法分析酵母菌細(xì)胞活性檢測實(shí)驗(yàn)數(shù)據(jù)
12、結(jié)果的F值為0.91637,高于其他算法分析結(jié)果的F-measure值(F值):0.78126、0.81928、0.89472、0.76438,驗(yàn)證了本文算法分析該類型數(shù)據(jù)的有效性;本文算法分析CD8+T淋巴細(xì)胞亞群相對計(jì)數(shù)流式數(shù)據(jù)結(jié)果的F值為0.95642,高于其他算法分析結(jié)果的F值:0.78453、0.88642、0.89013、0.89691;本文算法分析B細(xì)胞和NK細(xì)胞相對計(jì)數(shù)流式數(shù)據(jù)結(jié)果的F值為0.95807,高于其他算法分析
13、結(jié)果的F值:0.80149、0.90826、0.92682、0.93041,驗(yàn)證了本文算法分析淋巴細(xì)胞亞群數(shù)據(jù)的有效性。三個(gè)實(shí)驗(yàn)的結(jié)果驗(yàn)證了本文算法直接分析多維流式數(shù)據(jù)結(jié)果的可靠性。
結(jié)論:相比基于概率模型的軟聚類算法,本文提出的算法不僅能夠準(zhǔn)確識別數(shù)據(jù)中凹形及不規(guī)則分布類群,而且分析時(shí)間少于其他算法。相比非基于概率模型的硬聚類算法,本文提出的算法不僅能夠識別數(shù)量稀少且呈現(xiàn)高度非對稱性的類群,而且實(shí)現(xiàn)了多維流式數(shù)據(jù)的直接聚類分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于衛(wèi)星數(shù)據(jù)的對流初生自動(dòng)識別研究.pdf
- 基于蟻群算法的混合聚類算法研究.pdf
- 基于線性判別分析的赤潮藻類流式圖像自動(dòng)識別研究.pdf
- 基于圖像的工業(yè)物料自動(dòng)識別算法研究.pdf
- 尿沉渣自動(dòng)識別算法研究.pdf
- 尿沉渣圖像自動(dòng)識別算法的研究.pdf
- 車輛牌照號碼的自動(dòng)識別算法研究.pdf
- 基于圖像工程的路面破損自動(dòng)識別算法研究.pdf
- 車牌自動(dòng)識別算法的研究與實(shí)現(xiàn).pdf
- 心律失常自動(dòng)識別算法的研究.pdf
- 印鑒自動(dòng)識別系統(tǒng)算法研究.pdf
- 基于視頻圖像的交通事件自動(dòng)識別算法研究.pdf
- 基于混合模型的聚類算法研究.pdf
- 基于蟻群算法的混合屬性數(shù)據(jù)集聚類方法的研究.pdf
- 心音信號自動(dòng)識別算法的研究.pdf
- 指紋自動(dòng)識別系統(tǒng)算法研究.pdf
- 指紋自動(dòng)識別系統(tǒng)的算法研究.pdf
- 車牌自動(dòng)識別系統(tǒng)的算法研究.pdf
- 基于數(shù)字圖像處理的列車故障自動(dòng)識別算法研究.pdf
- 典型人造目標(biāo)自動(dòng)識別算法研究.pdf
評論
0/150
提交評論