版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、乳腺癌是女性最常見的惡性腫瘤之一,而且也是婦女惡性腫瘤主要的死亡因為之一。乳腺癌多發(fā)于西方歐美國家,盡管死亡率已經(jīng)逐漸得到控制并有所下降,但發(fā)病率一直居高不下。近年來,原為乳腺癌低發(fā)區(qū)的亞洲國家發(fā)病率也呈逐年升高的趨勢。乳腺癌嚴重威脅著婦女的健康,但乳腺癌病因相當復雜,與遺傳因素、激素、免疫及各種環(huán)境因素(理化、生物因子、生活方式等)有關(guān)。
影響乳腺癌的預后因素很多,從病理角度分析,腫瘤的組織病理學類型和組織學分級是重要的
2、預后因素。由于乳腺癌組織學分級能夠提供重要的預后信息,在臨床上早已得到醫(yī)學工作者的認可。目前應(yīng)用得最廣泛的乳腺癌分級方法是B-R分級,也被稱為諾丁漢分級系統(tǒng)。這個分級方法以腫瘤細胞的形態(tài)學和細胞學特征作為評價依據(jù),綜合腺管形成的程度、細胞核的多形性和核分裂計數(shù)3個方面的得分,將乳腺癌分為Ⅰ級(G1,高分化,生長慢),Ⅱ級(G2,中分化),Ⅲ級(G3,低分化,高度增生)惡性腫瘤。對大量病人進行的多變量分析表明,未治療G1病人的5年生存率為
3、95%,而G2和G3的乳腺癌5年生存率則分別只有75%和50%。
腫瘤的基因組表達模式反映了腫瘤的生物學特性,基因表達譜可用于區(qū)分無法用病理學方法區(qū)別的腫瘤類型,為乳腺癌的生物學研究和預后提供了一種全新的方法。通過基因芯片表達數(shù)據(jù)可以獲得與乳腺癌組織學分級相關(guān)的分類特征,實現(xiàn)乳腺癌的正確組織學分類,為乳腺癌的診斷和預后提供可靠的預測依據(jù)。已有研究者利用基因芯片分析獲得了乳腺癌預后的標記基因,這種方法比傳統(tǒng)的預后標記能更準確
4、地判斷乳腺癌的預后,且在隨后的實驗中也進一步證實了結(jié)果的可靠性。然而,這些研究還存在缺陷,即預測和驗證都采用同一組數(shù)據(jù),進一步驗證也沒有采用其他數(shù)據(jù)集。另外,基因芯片表達譜中許多被測基因與樣本的區(qū)分沒有很大關(guān)系。在分類問題中引入這些不必要的基因,將增加分類問題中樣本的維數(shù),導致計算復雜度的增加,同時可能會產(chǎn)生一些不必要的噪聲數(shù)據(jù)。如果存在能將兩類區(qū)分開的較小的基因子集,將有利于生物醫(yī)學工作者專門研究這些基因的功能,了解其生物意義,開發(fā)基
5、于這些基因的價格低廉的癌癥診斷芯片。因此,特征提取是DNA微陣列研究的一個很重要的內(nèi)容,通過特征提取找到足夠少的能夠進行有效分類的基因子集是非常必要的。
不同分級對應(yīng)于不同的細胞分化程度,低分化的腫瘤通常預后更差。腫瘤細胞的分化程度基于病理上的組織學分級分類,雖然低分化的腫瘤預后更差,然而其中的分子機制卻仍然不清楚。腫瘤細胞具有無限增殖維持腫瘤克隆生長的能力,這與干細胞最重要的特性之一--自我更新能力存在著驚人的相似性,表
6、明腫瘤可能起源于正常干細胞或者其祖細胞。目前已經(jīng)發(fā)現(xiàn)很多致癌基因可以干擾正常細胞的分化,這些基因同樣也可以影響腫瘤細胞的分化。因此,控制干細胞功能的某些調(diào)控網(wǎng)絡(luò),可能在某些腫瘤中也同樣發(fā)揮作用。我們通過對不同分化程度乳腺癌基因表達譜的基因集富集分析,以期發(fā)現(xiàn)不同分化程度的乳腺癌的基因表達差異,并能用于改善乳腺癌組織學的分級,從而更好地了解腫瘤細胞分化的分子機制及與正常胚胎干細胞是否存在聯(lián)系。
研究內(nèi)容主要分為三個部分:
7、r> 第一部分:芯片數(shù)據(jù)質(zhì)量控制
從NCBI共享數(shù)據(jù)庫GEO(http://www.ncbi.nlm.nih.gov/geo/)下載乳腺癌相關(guān)的基因芯片數(shù)據(jù),登錄號為GSE2109、GSE5460、GSE1456和GSE3494。用dChip對芯片數(shù)據(jù)進行預處理,以總熒光強度為中位數(shù)的芯片為基準,對所有芯片進行標準化,以PM/MM模式均一化各芯片中所有基因的表達水平。同時,對有污染的芯片進行校正,還原原始芯片掃描圖像
8、,生成芯片質(zhì)量報告。根據(jù)探針污染率和探針交叉雜交率判別芯片的質(zhì)量,將校正后探針交叉雜交和污染仍大于5%的樣本分樣本和臨床數(shù)據(jù)缺失的樣本排除在下一步分析之外。共有676個乳腺癌芯片樣本達到質(zhì)控標準,可以用于后期的數(shù)據(jù)分析,GSE2109、GSE5460、GSE1456和GSE3494分別有186、109、147和234個樣本。
表達譜的基因表達值以2為底進行對數(shù)轉(zhuǎn)換,選擇PM-only模式分析得出各芯片中所有基因的表達水平,
9、隨后按以下標準進行過濾:0.5<標準差<1000;在>=80%樣本中表達水平>=7.00,P call>=80%。過濾后共獲得4800個探針,輸出基因×樣本的原始表達值的txt文件。用經(jīng)驗貝葉斯方法對不同GSE的芯片樣本進行校正,以消除不同批次的影響造成的數(shù)據(jù)偏差。然后用jusvsn方法對芯片數(shù)據(jù)進行微陣列探針水平數(shù)據(jù)的變異穩(wěn)定化和校正處理,并通過生成散點圖、箱式圖和中值平滑圖將數(shù)據(jù)可視化,檢查歸一化的效果。結(jié)果表明,經(jīng)過芯片數(shù)據(jù)預處理
10、,較好地消除了兩組芯片數(shù)據(jù)之間的差異,樣本間偏差不明顯,可以進行更深一步的分析。
第二部分:乳腺癌組織學分級特征基因的獲得
在開源統(tǒng)計學語言R2.9.0的環(huán)境下,讀入經(jīng)過濾的芯片表達值文件,利用Bioconductor中的e1071包,與libsvm連接,用支持向量機(SVM)學習并提取表達譜中不同組織學分級的樣本特征。分別采用線性核函數(shù)(linear)、多項式核函數(shù)(polynomial)、徑向基核函數(shù)(r
11、adial basis,RBF)和神經(jīng)網(wǎng)絡(luò)核函數(shù)(sigmoid)四種不同的核函數(shù),以及c-classification,nu-classification,one-classification,eps-classification和no-classification五種不同的類型來比較分類效果,確定使用的核函數(shù)和類型。從GSE2109和GSE5460合并的表達譜中分別篩選出不同數(shù)量的特征基因,分別計算出分類準確率,確定最佳特征基因數(shù)。
12、用留一法交叉驗證(leave-one-out Cross-Validation,LOOCV)對提取出來的特征進行訓練和測試,以判斷測試數(shù)據(jù)的分類情況。同時,使用pamr方法對不同的組織學分級樣本進行分類,和SVM的分類結(jié)果進行比較。
將篩選出來的基因作為一個基因集,生成樣本分類結(jié)果的柱形圖,將分類結(jié)果可視化,檢測分類效果。用ctree的算法在SVM篩選出來的特征基因中生成預測各個組織學分級的基因二分遞歸分割樹;特征基因進行
13、KEGG和GO的功能注釋和通路分析。另外,用乳腺癌基因-系統(tǒng)數(shù)據(jù)庫G2SBC(http://www.itb.cnr.it/breastcancer/index.html)進行注釋;并以GSE1456、GSE3494進行64個基因的生存分析。
用參數(shù)為線性核函數(shù)和c-classification的SVM,留一法交叉檢驗從經(jīng)過質(zhì)控的芯片表達譜矩陣提取出64個特征基因,分類準確率達到97.6%,優(yōu)于pamr方法。這些基因中大多數(shù)
14、已經(jīng)被實驗證明在乳腺癌中高表達,有些還可以作為乳腺癌預后的標志基因。
第三部分:乳腺癌細胞分化基因集富集分析
將表達值的txt文件轉(zhuǎn)換成表達譜的gct文件后,與芯片注釋文件、C2和BP基因集文件一起讀入GSEA軟件,根據(jù)樣本對應(yīng)的臨床信息,生成表型數(shù)據(jù)文件,進行基因集富集分析。參數(shù)選擇1000次隨機,基因集范圍大于15個基因而小于500個基因,其他參數(shù)均為默認值。由于GSEA每次只能分析兩組樣本,因此,將三個
15、不同組織學分級的樣本G1、G2和G3,分別對應(yīng)于高分化、中分化和低分化,進行兩兩比較。將人類胚胎干細胞相關(guān)的生物學通路按照GSEA通路的格式,制作成gmt格式的基因集文件。按照上述步驟,將基因集范圍最大值調(diào)整至1500個基因,其他參數(shù)不變,再用GSEA進行ES及增殖相關(guān)通路的基因富集分析。
基因集C2、C5和芯片注釋文件HG_U133_Plus_2從分子標記數(shù)據(jù)庫(Molecular Signatures Database
16、,MSigDB)下載。C2包含了KEGG、GenMAPP、BioCarta等已知的基因通路,還包括MSigDB自身構(gòu)建的一些生物通路,每條生物通路對應(yīng)于一個基因集。其中,C2包含了1892個基因集。C5則是來源于GO(gene ontology)數(shù)據(jù)庫有關(guān)基因本體分析的基因集,本研究僅選用BP基因集進行分析。與干細胞相關(guān)的基因集從已發(fā)表文獻中獲得,其中包括(1)Assou等用統(tǒng)和分析方法收集人類干細胞表達譜中高表達的基因;(2)Boye
17、r等采用CHIP結(jié)合DNA芯片技術(shù)對SOX2,OCT-4,NANOG三個重要的胚胎干細胞轉(zhuǎn)錄因子調(diào)控靶基因進行了全基因組探查,列出分別受三個轉(zhuǎn)錄因子調(diào)控的所有靶基因;(3)Fernandez等采用生物信息學結(jié)合CHIP等技術(shù)對MYC調(diào)控的靶基因進行全基因組探查,列出可能受MYC調(diào)控的靶基因集;(4)Ittai Ben-Porath等對上述兩個研究的四個轉(zhuǎn)錄因子靶基因進行收集整理,并通過工具統(tǒng)一轉(zhuǎn)換成EntrezGene ID格式。另外,
18、還有polycomb靶基因,共13個基因集,7534個基因。除此之外,還加上了Ittai Ben-Porath等在GO整理出的細胞增殖和細胞周期的基因集。
結(jié)論:通過對來源不同的乳腺癌基因表達譜分析,提取了64個與組織學分級相關(guān)的特征基因,這種方法可以提高組織學分級的準確率,具有指導預后的價值。同時,組織學分級與細胞周期、細胞分化以及預后都有著密切的關(guān)系。低分化的乳腺癌細胞與正常的胚胎干細胞存在著極高的相似性。這些結(jié)果有助
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 乳腺癌細胞學核分級及其和組織學分級的相關(guān)性研究.pdf
- 乳腺癌復發(fā)相關(guān)基因的篩選及系統(tǒng)生物學分析.pdf
- 原代乳腺癌干細胞富集及基因表達譜和MicroRNAs差異表達分析.pdf
- 乳腺癌超聲造影灌注模式及其與病理組織學分級的相關(guān)性研究.pdf
- 乳腺癌brca基因檢測
- 應(yīng)用基因芯片技術(shù)篩選乳腺癌組織耐藥相關(guān)基因.pdf
- 乳腺癌組織mammaglobin、maspin基因表達的研究.pdf
- 乳腺癌轉(zhuǎn)移相關(guān)基因篩選及功能研究.pdf
- p73基因、p51基因在乳腺癌組織中的表達及意義.pdf
- 基于多特征融合的乳腺癌相關(guān)基因預測方法研究.pdf
- 乳腺癌HER2基因定量檢測及應(yīng)用.pdf
- 乳腺癌流行病學分析
- 292例乳腺癌臨床及病理特征分析.pdf
- 乳腺癌肺轉(zhuǎn)移相關(guān)基因的研究.pdf
- 利用基因芯片篩選乳腺癌相關(guān)差異表達基因.pdf
- 乳腺癌組織中Toll樣受體的表達及青島地區(qū)乳腺癌Toll樣受體基因多態(tài)性的研究.pdf
- 乳腺癌基因芯片數(shù)據(jù)分析及方法學研究.pdf
- 散發(fā)性乳腺癌相關(guān)基因甲基化及影響因素分析.pdf
- 刺參鹽度調(diào)節(jié)相關(guān)基因的定量表達及組織學分析.pdf
- 乳腺癌組織中E-鈣粘連素、survivin基因的表達及意義.pdf
評論
0/150
提交評論