版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、乳腺癌是女性最常見的惡性腫瘤之一,而且也是婦女惡性腫瘤主要的死亡因?yàn)橹弧H橄侔┒喟l(fā)于西方歐美國家,盡管死亡率已經(jīng)逐漸得到控制并有所下降,但發(fā)病率一直居高不下。近年來,原為乳腺癌低發(fā)區(qū)的亞洲國家發(fā)病率也呈逐年升高的趨勢。乳腺癌嚴(yán)重威脅著婦女的健康,但乳腺癌病因相當(dāng)復(fù)雜,與遺傳因素、激素、免疫及各種環(huán)境因素(理化、生物因子、生活方式等)有關(guān)。
影響乳腺癌的預(yù)后因素很多,從病理角度分析,腫瘤的組織病理學(xué)類型和組織學(xué)分級是重要的
2、預(yù)后因素。由于乳腺癌組織學(xué)分級能夠提供重要的預(yù)后信息,在臨床上早已得到醫(yī)學(xué)工作者的認(rèn)可。目前應(yīng)用得最廣泛的乳腺癌分級方法是B-R分級,也被稱為諾丁漢分級系統(tǒng)。這個(gè)分級方法以腫瘤細(xì)胞的形態(tài)學(xué)和細(xì)胞學(xué)特征作為評價(jià)依據(jù),綜合腺管形成的程度、細(xì)胞核的多形性和核分裂計(jì)數(shù)3個(gè)方面的得分,將乳腺癌分為Ⅰ級(G1,高分化,生長慢),Ⅱ級(G2,中分化),Ⅲ級(G3,低分化,高度增生)惡性腫瘤。對大量病人進(jìn)行的多變量分析表明,未治療G1病人的5年生存率為
3、95%,而G2和G3的乳腺癌5年生存率則分別只有75%和50%。
腫瘤的基因組表達(dá)模式反映了腫瘤的生物學(xué)特性,基因表達(dá)譜可用于區(qū)分無法用病理學(xué)方法區(qū)別的腫瘤類型,為乳腺癌的生物學(xué)研究和預(yù)后提供了一種全新的方法。通過基因芯片表達(dá)數(shù)據(jù)可以獲得與乳腺癌組織學(xué)分級相關(guān)的分類特征,實(shí)現(xiàn)乳腺癌的正確組織學(xué)分類,為乳腺癌的診斷和預(yù)后提供可靠的預(yù)測依據(jù)。已有研究者利用基因芯片分析獲得了乳腺癌預(yù)后的標(biāo)記基因,這種方法比傳統(tǒng)的預(yù)后標(biāo)記能更準(zhǔn)確
4、地判斷乳腺癌的預(yù)后,且在隨后的實(shí)驗(yàn)中也進(jìn)一步證實(shí)了結(jié)果的可靠性。然而,這些研究還存在缺陷,即預(yù)測和驗(yàn)證都采用同一組數(shù)據(jù),進(jìn)一步驗(yàn)證也沒有采用其他數(shù)據(jù)集。另外,基因芯片表達(dá)譜中許多被測基因與樣本的區(qū)分沒有很大關(guān)系。在分類問題中引入這些不必要的基因,將增加分類問題中樣本的維數(shù),導(dǎo)致計(jì)算復(fù)雜度的增加,同時(shí)可能會產(chǎn)生一些不必要的噪聲數(shù)據(jù)。如果存在能將兩類區(qū)分開的較小的基因子集,將有利于生物醫(yī)學(xué)工作者專門研究這些基因的功能,了解其生物意義,開發(fā)基
5、于這些基因的價(jià)格低廉的癌癥診斷芯片。因此,特征提取是DNA微陣列研究的一個(gè)很重要的內(nèi)容,通過特征提取找到足夠少的能夠進(jìn)行有效分類的基因子集是非常必要的。
不同分級對應(yīng)于不同的細(xì)胞分化程度,低分化的腫瘤通常預(yù)后更差。腫瘤細(xì)胞的分化程度基于病理上的組織學(xué)分級分類,雖然低分化的腫瘤預(yù)后更差,然而其中的分子機(jī)制卻仍然不清楚。腫瘤細(xì)胞具有無限增殖維持腫瘤克隆生長的能力,這與干細(xì)胞最重要的特性之一--自我更新能力存在著驚人的相似性,表
6、明腫瘤可能起源于正常干細(xì)胞或者其祖細(xì)胞。目前已經(jīng)發(fā)現(xiàn)很多致癌基因可以干擾正常細(xì)胞的分化,這些基因同樣也可以影響腫瘤細(xì)胞的分化。因此,控制干細(xì)胞功能的某些調(diào)控網(wǎng)絡(luò),可能在某些腫瘤中也同樣發(fā)揮作用。我們通過對不同分化程度乳腺癌基因表達(dá)譜的基因集富集分析,以期發(fā)現(xiàn)不同分化程度的乳腺癌的基因表達(dá)差異,并能用于改善乳腺癌組織學(xué)的分級,從而更好地了解腫瘤細(xì)胞分化的分子機(jī)制及與正常胚胎干細(xì)胞是否存在聯(lián)系。
研究內(nèi)容主要分為三個(gè)部分:
7、r> 第一部分:芯片數(shù)據(jù)質(zhì)量控制
從NCBI共享數(shù)據(jù)庫GEO(http://www.ncbi.nlm.nih.gov/geo/)下載乳腺癌相關(guān)的基因芯片數(shù)據(jù),登錄號為GSE2109、GSE5460、GSE1456和GSE3494。用dChip對芯片數(shù)據(jù)進(jìn)行預(yù)處理,以總熒光強(qiáng)度為中位數(shù)的芯片為基準(zhǔn),對所有芯片進(jìn)行標(biāo)準(zhǔn)化,以PM/MM模式均一化各芯片中所有基因的表達(dá)水平。同時(shí),對有污染的芯片進(jìn)行校正,還原原始芯片掃描圖像
8、,生成芯片質(zhì)量報(bào)告。根據(jù)探針污染率和探針交叉雜交率判別芯片的質(zhì)量,將校正后探針交叉雜交和污染仍大于5%的樣本分樣本和臨床數(shù)據(jù)缺失的樣本排除在下一步分析之外。共有676個(gè)乳腺癌芯片樣本達(dá)到質(zhì)控標(biāo)準(zhǔn),可以用于后期的數(shù)據(jù)分析,GSE2109、GSE5460、GSE1456和GSE3494分別有186、109、147和234個(gè)樣本。
表達(dá)譜的基因表達(dá)值以2為底進(jìn)行對數(shù)轉(zhuǎn)換,選擇PM-only模式分析得出各芯片中所有基因的表達(dá)水平,
9、隨后按以下標(biāo)準(zhǔn)進(jìn)行過濾:0.5<標(biāo)準(zhǔn)差<1000;在>=80%樣本中表達(dá)水平>=7.00,P call>=80%。過濾后共獲得4800個(gè)探針,輸出基因×樣本的原始表達(dá)值的txt文件。用經(jīng)驗(yàn)貝葉斯方法對不同GSE的芯片樣本進(jìn)行校正,以消除不同批次的影響造成的數(shù)據(jù)偏差。然后用jusvsn方法對芯片數(shù)據(jù)進(jìn)行微陣列探針?biāo)綌?shù)據(jù)的變異穩(wěn)定化和校正處理,并通過生成散點(diǎn)圖、箱式圖和中值平滑圖將數(shù)據(jù)可視化,檢查歸一化的效果。結(jié)果表明,經(jīng)過芯片數(shù)據(jù)預(yù)處理
10、,較好地消除了兩組芯片數(shù)據(jù)之間的差異,樣本間偏差不明顯,可以進(jìn)行更深一步的分析。
第二部分:乳腺癌組織學(xué)分級特征基因的獲得
在開源統(tǒng)計(jì)學(xué)語言R2.9.0的環(huán)境下,讀入經(jīng)過濾的芯片表達(dá)值文件,利用Bioconductor中的e1071包,與libsvm連接,用支持向量機(jī)(SVM)學(xué)習(xí)并提取表達(dá)譜中不同組織學(xué)分級的樣本特征。分別采用線性核函數(shù)(linear)、多項(xiàng)式核函數(shù)(polynomial)、徑向基核函數(shù)(r
11、adial basis,RBF)和神經(jīng)網(wǎng)絡(luò)核函數(shù)(sigmoid)四種不同的核函數(shù),以及c-classification,nu-classification,one-classification,eps-classification和no-classification五種不同的類型來比較分類效果,確定使用的核函數(shù)和類型。從GSE2109和GSE5460合并的表達(dá)譜中分別篩選出不同數(shù)量的特征基因,分別計(jì)算出分類準(zhǔn)確率,確定最佳特征基因數(shù)。
12、用留一法交叉驗(yàn)證(leave-one-out Cross-Validation,LOOCV)對提取出來的特征進(jìn)行訓(xùn)練和測試,以判斷測試數(shù)據(jù)的分類情況。同時(shí),使用pamr方法對不同的組織學(xué)分級樣本進(jìn)行分類,和SVM的分類結(jié)果進(jìn)行比較。
將篩選出來的基因作為一個(gè)基因集,生成樣本分類結(jié)果的柱形圖,將分類結(jié)果可視化,檢測分類效果。用ctree的算法在SVM篩選出來的特征基因中生成預(yù)測各個(gè)組織學(xué)分級的基因二分遞歸分割樹;特征基因進(jìn)行
13、KEGG和GO的功能注釋和通路分析。另外,用乳腺癌基因-系統(tǒng)數(shù)據(jù)庫G2SBC(http://www.itb.cnr.it/breastcancer/index.html)進(jìn)行注釋;并以GSE1456、GSE3494進(jìn)行64個(gè)基因的生存分析。
用參數(shù)為線性核函數(shù)和c-classification的SVM,留一法交叉檢驗(yàn)從經(jīng)過質(zhì)控的芯片表達(dá)譜矩陣提取出64個(gè)特征基因,分類準(zhǔn)確率達(dá)到97.6%,優(yōu)于pamr方法。這些基因中大多數(shù)
14、已經(jīng)被實(shí)驗(yàn)證明在乳腺癌中高表達(dá),有些還可以作為乳腺癌預(yù)后的標(biāo)志基因。
第三部分:乳腺癌細(xì)胞分化基因集富集分析
將表達(dá)值的txt文件轉(zhuǎn)換成表達(dá)譜的gct文件后,與芯片注釋文件、C2和BP基因集文件一起讀入GSEA軟件,根據(jù)樣本對應(yīng)的臨床信息,生成表型數(shù)據(jù)文件,進(jìn)行基因集富集分析。參數(shù)選擇1000次隨機(jī),基因集范圍大于15個(gè)基因而小于500個(gè)基因,其他參數(shù)均為默認(rèn)值。由于GSEA每次只能分析兩組樣本,因此,將三個(gè)
15、不同組織學(xué)分級的樣本G1、G2和G3,分別對應(yīng)于高分化、中分化和低分化,進(jìn)行兩兩比較。將人類胚胎干細(xì)胞相關(guān)的生物學(xué)通路按照GSEA通路的格式,制作成gmt格式的基因集文件。按照上述步驟,將基因集范圍最大值調(diào)整至1500個(gè)基因,其他參數(shù)不變,再用GSEA進(jìn)行ES及增殖相關(guān)通路的基因富集分析。
基因集C2、C5和芯片注釋文件HG_U133_Plus_2從分子標(biāo)記數(shù)據(jù)庫(Molecular Signatures Database
16、,MSigDB)下載。C2包含了KEGG、GenMAPP、BioCarta等已知的基因通路,還包括MSigDB自身構(gòu)建的一些生物通路,每條生物通路對應(yīng)于一個(gè)基因集。其中,C2包含了1892個(gè)基因集。C5則是來源于GO(gene ontology)數(shù)據(jù)庫有關(guān)基因本體分析的基因集,本研究僅選用BP基因集進(jìn)行分析。與干細(xì)胞相關(guān)的基因集從已發(fā)表文獻(xiàn)中獲得,其中包括(1)Assou等用統(tǒng)和分析方法收集人類干細(xì)胞表達(dá)譜中高表達(dá)的基因;(2)Boye
17、r等采用CHIP結(jié)合DNA芯片技術(shù)對SOX2,OCT-4,NANOG三個(gè)重要的胚胎干細(xì)胞轉(zhuǎn)錄因子調(diào)控靶基因進(jìn)行了全基因組探查,列出分別受三個(gè)轉(zhuǎn)錄因子調(diào)控的所有靶基因;(3)Fernandez等采用生物信息學(xué)結(jié)合CHIP等技術(shù)對MYC調(diào)控的靶基因進(jìn)行全基因組探查,列出可能受MYC調(diào)控的靶基因集;(4)Ittai Ben-Porath等對上述兩個(gè)研究的四個(gè)轉(zhuǎn)錄因子靶基因進(jìn)行收集整理,并通過工具統(tǒng)一轉(zhuǎn)換成EntrezGene ID格式。另外,
18、還有polycomb靶基因,共13個(gè)基因集,7534個(gè)基因。除此之外,還加上了Ittai Ben-Porath等在GO整理出的細(xì)胞增殖和細(xì)胞周期的基因集。
結(jié)論:通過對來源不同的乳腺癌基因表達(dá)譜分析,提取了64個(gè)與組織學(xué)分級相關(guān)的特征基因,這種方法可以提高組織學(xué)分級的準(zhǔn)確率,具有指導(dǎo)預(yù)后的價(jià)值。同時(shí),組織學(xué)分級與細(xì)胞周期、細(xì)胞分化以及預(yù)后都有著密切的關(guān)系。低分化的乳腺癌細(xì)胞與正常的胚胎干細(xì)胞存在著極高的相似性。這些結(jié)果有助
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 乳腺癌細(xì)胞學(xué)核分級及其和組織學(xué)分級的相關(guān)性研究.pdf
- 乳腺癌復(fù)發(fā)相關(guān)基因的篩選及系統(tǒng)生物學(xué)分析.pdf
- 原代乳腺癌干細(xì)胞富集及基因表達(dá)譜和MicroRNAs差異表達(dá)分析.pdf
- 乳腺癌超聲造影灌注模式及其與病理組織學(xué)分級的相關(guān)性研究.pdf
- 乳腺癌brca基因檢測
- 應(yīng)用基因芯片技術(shù)篩選乳腺癌組織耐藥相關(guān)基因.pdf
- 乳腺癌組織mammaglobin、maspin基因表達(dá)的研究.pdf
- 乳腺癌轉(zhuǎn)移相關(guān)基因篩選及功能研究.pdf
- p73基因、p51基因在乳腺癌組織中的表達(dá)及意義.pdf
- 基于多特征融合的乳腺癌相關(guān)基因預(yù)測方法研究.pdf
- 乳腺癌HER2基因定量檢測及應(yīng)用.pdf
- 乳腺癌流行病學(xué)分析
- 292例乳腺癌臨床及病理特征分析.pdf
- 乳腺癌肺轉(zhuǎn)移相關(guān)基因的研究.pdf
- 利用基因芯片篩選乳腺癌相關(guān)差異表達(dá)基因.pdf
- 乳腺癌組織中Toll樣受體的表達(dá)及青島地區(qū)乳腺癌Toll樣受體基因多態(tài)性的研究.pdf
- 乳腺癌基因芯片數(shù)據(jù)分析及方法學(xué)研究.pdf
- 散發(fā)性乳腺癌相關(guān)基因甲基化及影響因素分析.pdf
- 刺參鹽度調(diào)節(jié)相關(guān)基因的定量表達(dá)及組織學(xué)分析.pdf
- 乳腺癌組織中E-鈣粘連素、survivin基因的表達(dá)及意義.pdf
評論
0/150
提交評論