版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、質(zhì)譜技術(shù)已經(jīng)成為蛋白質(zhì)組學(xué)研究的高通量分析手段和核心工具。目前,用于質(zhì)譜數(shù)據(jù)處理和分析的軟件工具不斷涌現(xiàn),這些工具的應(yīng)用使得基于質(zhì)譜的蛋白質(zhì)組學(xué)研究取得了可喜的成果。
為了能夠開(kāi)發(fā)出有效而又穩(wěn)健的算法和工具,需要獲得標(biāo)準(zhǔn)數(shù)據(jù)集以便比較和驗(yàn)證軟件工具的性能,但這并不是一件容易的事情。在研究中發(fā)現(xiàn),經(jīng)過(guò)仔細(xì)編輯注釋的測(cè)試數(shù)據(jù)集并不多見(jiàn),公開(kāi)的標(biāo)準(zhǔn)數(shù)據(jù)集也很少。甚至為了檢驗(yàn)算法和工具的穩(wěn)健性,數(shù)據(jù)集中還需要包含不同水平的噪聲數(shù)據(jù)?;?/p>
2、于這樣的應(yīng)用需求和研究定位,本文提出了一套質(zhì)譜實(shí)驗(yàn)數(shù)據(jù)仿真的方法。仿真質(zhì)譜數(shù)據(jù)的階段性目的并不是構(gòu)建一個(gè)細(xì)致的質(zhì)譜數(shù)據(jù)生成的物理模型,而是追求仿真數(shù)據(jù)能夠比較合理地與實(shí)驗(yàn)數(shù)據(jù)的特征相似。質(zhì)譜數(shù)據(jù)仿真以蛋白質(zhì)序列為輸入數(shù)據(jù),仿真生成的內(nèi)容主要有消化后得到的酶切肽段、肽段的保留時(shí)間、同位素峰的分布、電荷狀態(tài)、色譜流出曲線、肽段離子質(zhì)荷比信息、碎裂離子質(zhì)荷比信息、背景噪聲以及肽段的可檢測(cè)性等。
本文工作的目標(biāo)是探索實(shí)現(xiàn)一個(gè)仿真原型系
3、統(tǒng),本文主要包括以下幾個(gè)方面的內(nèi)容:
(1)基于馬爾科夫鏈的蛋白質(zhì)酶切概率計(jì)算。本文提出基于馬爾科夫鏈的蛋白質(zhì)酶切概率計(jì)算模型,根據(jù)候選酶切位點(diǎn)附近的氨基酸序列組成信息,計(jì)算候選位點(diǎn)的酶切概率。利用不同的數(shù)據(jù)集對(duì)模型進(jìn)行了測(cè)試,結(jié)果表明,模型具有良好的預(yù)測(cè)效果和穩(wěn)定性。
(2)肽段色譜保留時(shí)間預(yù)測(cè)和色譜峰形仿真。對(duì)肽段色譜過(guò)程的仿真主要包括兩個(gè)部分,即肽段保留時(shí)間的預(yù)測(cè)和色譜峰形的仿真。肽段保留時(shí)間的預(yù)測(cè)使用基于氨基
4、酸保留系數(shù)的模型,同時(shí)考慮了肽段 N端氨基酸和長(zhǎng)度對(duì)肽段疏水性等因素的影響;肽段色譜峰形的仿真使用基于指數(shù)修正高斯函數(shù)模型,并且考慮色譜峰形的不對(duì)稱(chēng)性。模型測(cè)試表明,肽段保留時(shí)間的預(yù)測(cè)值與實(shí)驗(yàn)數(shù)據(jù)的相關(guān)系數(shù)為0.94,色譜峰形的擬合曲線與實(shí)驗(yàn)觀測(cè)數(shù)據(jù)的相關(guān)系數(shù)為0.98。這表明,肽段色譜過(guò)程的仿真與實(shí)驗(yàn)數(shù)據(jù)具有相當(dāng)?shù)南嗨菩浴?br> (3)電噴霧電離過(guò)程中肽段的電荷狀態(tài)預(yù)測(cè)。本文根據(jù)肽段的氨基酸組成,使用線性回歸和多正態(tài)分布相結(jié)合的預(yù)
5、測(cè)模型,預(yù)測(cè)肽段的電荷狀態(tài)。選擇了兩個(gè)不同的數(shù)據(jù)集,采用5倍交叉驗(yàn)證來(lái)測(cè)試模型的性能。結(jié)果表明,模型的預(yù)測(cè)精度達(dá)到96.89%,表現(xiàn)出良好的預(yù)測(cè)能力。在不同的數(shù)據(jù)集間進(jìn)行相互預(yù)測(cè)肽段的電荷狀態(tài)時(shí),預(yù)測(cè)精度略有下降,但仍然達(dá)到88%以上,對(duì)于應(yīng)用來(lái)說(shuō)能夠滿足電荷狀態(tài)預(yù)測(cè)的要求。
(4)基于Logistic回歸的肽段可檢測(cè)性預(yù)測(cè)。本文提出了基于Logistic回歸的肽段可檢測(cè)性預(yù)測(cè)模型,選擇了6個(gè)影響肽段可檢測(cè)性的屬性作為參數(shù),使
6、用了不同的數(shù)據(jù)集和嵌套交叉驗(yàn)證方法對(duì)模型性能進(jìn)行測(cè)試。測(cè)試結(jié)果表明,模型的平均ROC曲線下面積為0.9466,預(yù)測(cè)精度達(dá)到0.87。另外,同其他一些文獻(xiàn)報(bào)道的肽段可檢測(cè)性方法進(jìn)行了比較,結(jié)果表明,模型性能優(yōu)于多數(shù)預(yù)測(cè)方法。
(5)蛋白質(zhì)組學(xué)質(zhì)譜實(shí)驗(yàn)數(shù)據(jù)的仿真生成。在上述局部模型的基礎(chǔ)上,仿真生成了與實(shí)驗(yàn)數(shù)據(jù)特征相似的仿真數(shù)據(jù)。質(zhì)譜實(shí)驗(yàn)數(shù)據(jù)的仿真,主要包括仿真生成胰蛋白酶消化得到的肽段混合列表、預(yù)測(cè)肽段保留時(shí)間和仿真色譜峰流出曲
7、線、仿真計(jì)算肽段離子同位素峰的分布、電荷狀態(tài)、肽段離子質(zhì)荷比信息、串聯(lián)質(zhì)譜碎裂離子質(zhì)荷比和相應(yīng)強(qiáng)度信息、背景噪聲以及肽段的可檢測(cè)性等。選擇了4個(gè)不同來(lái)源的數(shù)據(jù)集,對(duì)仿真數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)進(jìn)行相似性分析,通過(guò)對(duì)酶切肽段及可檢測(cè)性、肽段保留時(shí)間和色譜峰形、肽段電荷狀態(tài)、肽段同位素峰分布、串聯(lián)質(zhì)譜碎片離子信息和圖譜噪聲數(shù)據(jù)的相似性比較或覆蓋率計(jì)算。結(jié)果表明,本文中的仿真數(shù)據(jù)能夠較好地反映實(shí)驗(yàn)數(shù)據(jù)的特征,仿真數(shù)據(jù)能夠合理地近似實(shí)驗(yàn)數(shù)據(jù)。使用仿真數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)深度解析關(guān)鍵問(wèn)題研究.pdf
- 蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)預(yù)處理新策略研究及應(yīng)用.pdf
- 構(gòu)建基于質(zhì)譜的蛋白質(zhì)組定量軟件研究.pdf
- 蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)分析的新方法研究開(kāi)發(fā).pdf
- 基于串聯(lián)質(zhì)譜數(shù)據(jù)的蛋白質(zhì)-基因組學(xué)方法研究.pdf
- 基于質(zhì)譜數(shù)據(jù)的蛋白質(zhì)識(shí)別系統(tǒng).pdf
- 基于質(zhì)譜技術(shù)的蛋白質(zhì)組學(xué)方法對(duì)食品蛋白質(zhì)糖基化的研究.pdf
- 30186.蛋白質(zhì)質(zhì)譜數(shù)據(jù)處理方法的研究
- 蛋白質(zhì)組研究中多維液相色譜—質(zhì)譜技術(shù)平臺(tái)的建立及其應(yīng)用.pdf
- 基于稀疏表示的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 基于優(yōu)化算法的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析.pdf
- 質(zhì)譜蛋白質(zhì)組中肽段及其修飾鑒定算法研究.pdf
- 43220.信息度量的蛋白質(zhì)序列、結(jié)構(gòu)、質(zhì)譜數(shù)據(jù)研究
- 蛋白質(zhì)組質(zhì)譜數(shù)據(jù)分析平臺(tái)的建立及其在大規(guī)模數(shù)據(jù)分析中的應(yīng)用.pdf
- 基于聚類(lèi)分析的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析研究.pdf
- 宮頸癌蛋白質(zhì)質(zhì)譜變化研究.pdf
- 蛋白質(zhì)鑒定中串聯(lián)質(zhì)譜數(shù)據(jù)預(yù)處理的算法研究.pdf
- 基于串聯(lián)質(zhì)譜的蛋白質(zhì)鑒定算法研究.pdf
- 原位蛋白質(zhì)質(zhì)譜的開(kāi)發(fā)和應(yīng)用.pdf
- 41232.蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)深度解析中的母離子快速靈敏檢測(cè)
評(píng)論
0/150
提交評(píng)論