版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、從pLink1到pLink2更快、更準(zhǔn)的交聯(lián)肽段鑒定引擎,劉超中科院計(jì)算所 pFind團(tuán)隊(duì),2016第四屆中國(guó)計(jì)算蛋白質(zhì)組學(xué)研討會(huì) 中國(guó)·大連,提綱,背景與問(wèn)題算法與軟件現(xiàn)狀與未來(lái),CNCP 2016,2,背景,為什么要鑒定交聯(lián)肽段蛋白質(zhì)-蛋白質(zhì)相互作用蛋白質(zhì)結(jié)構(gòu),3,,,,,,CNCP 2016,以pLink1(Yang et al, 2012)應(yīng)用為例,使用pLink1發(fā)表的文章29
2、篇Nature 2篇Science 1篇Nature Communications 1篇Nature Structural & Molecular Biology 3篇,4,pLink1,CNCP 2016,pLink1下載591套(2016.5.31),5,168,173,17,145,3,5,15,CNCP 2016,交聯(lián)鑒定面臨三大挑戰(zhàn),,6,01樣品復(fù)雜,02搜索空間大,03譜圖復(fù)雜,C
3、NCP 2016,交聯(lián)鑒定面臨三大挑戰(zhàn),,7,01樣品復(fù)雜,02搜索空間大,03譜圖復(fù)雜,,常規(guī)候選肽3.4×106,交聯(lián)候選肽5.35×1011,候選肽數(shù)目擴(kuò)大10萬(wàn)倍,人類數(shù)據(jù)庫(kù),CNCP 2016,三個(gè)解決方案,,8,01 引入標(biāo)記技術(shù)(濕)一級(jí)譜圖中有輕、重同位素峰簇對(duì)兒的認(rèn)為是交聯(lián)肽段,CNCP 2016,三個(gè)解決方案,,9,01 引入標(biāo)記技術(shù)(濕)一級(jí)譜圖中有輕、重同位素峰簇對(duì)兒的認(rèn)為是
4、交聯(lián)肽段,02引入可碎裂交聯(lián)劑(濕)搜索交聯(lián)肽段n2 搜索兩條單肽2n,CNCP 2016,02引入可碎裂交聯(lián)劑(濕)搜索交聯(lián)肽段n2 搜索兩條單肽2n,三個(gè)解決方案,,10,01 引入標(biāo)記技術(shù)(濕)一級(jí)譜圖中有輕、重同位素峰簇對(duì)兒的認(rèn)為是交聯(lián)肽段,03使用高效的索引技術(shù)(干)?,CNCP 2016,提綱,背景與問(wèn)題算法與軟件現(xiàn)狀與未來(lái),11,CNCP 2016,技術(shù),,12,2008~2010,
5、CNCP 2016,技術(shù),,13,,,之前,之后,CNCP 2016,2012,FDR估計(jì),NU:NF:NT 2: 1 : 1FDR=(NU-NF)/NT,14,CNCP 2016,從pLink1到pLink2,,15,開(kāi)始,RAW?,格式轉(zhuǎn)換,蛋白質(zhì)數(shù)據(jù)庫(kù),譜圖預(yù)處理,候選單肽,開(kāi)放式索引,E-value,估計(jì)FDR,報(bào)告結(jié)果,結(jié)束,,速度,,精度,否,是,pLink1,候選雙肽,CNCP 2016,從pLink1到p
6、Link2,,16,開(kāi)始,RAW?,格式轉(zhuǎn)換,蛋白質(zhì)數(shù)據(jù)庫(kù),譜圖預(yù)處理,搜索α肽段,搜索β肽段,離子索引,,速度,精度,No,Yes,肽段索引,特征提取,機(jī)器學(xué)習(xí),估計(jì)FDR,報(bào)告結(jié)果,結(jié)束,,改進(jìn)1,改進(jìn)2,改進(jìn)3,CNCP 2016,pLink2,譜圖預(yù)處理 – 確定母離子單同位素峰,單肽 雙肽(交聯(lián)肽段),17,Yuan, Z.F., et a
7、l., pParse: a method for accurate determination of monoisotopic peaks in high-resolution mass spectra. Proteomics, 2011.,CNCP 2016,單同位素峰更低同位素峰數(shù)目更多,從pLink1到pLink2:搜索空間更精準(zhǔn),改進(jìn)1 pLink1
8、 pLink2母離子質(zhì)量誤差正負(fù)5 Da 母離子質(zhì)量誤差正負(fù)20 ppm,18,pLink1,pLink2,pLink1的搜索空間大,二級(jí)譜圖中記錄的單同位素峰,單同位素峰,CNCP 2016,從pLink1到pLink2:搜索空間更精準(zhǔn),改進(jìn)1 pLink1 pLink2母
9、離子質(zhì)量誤差正負(fù)5 Da 母離子質(zhì)量誤差正負(fù)20 ppm,19,pLink1,pLink2,pLink2的搜索空間,CNCP 2016,Yuan, Z.F., et al., pParse: a method for accurate determination of monoisotopic peaks in high-resolution mass spectra. Proteomics, 2011.,改進(jìn)
10、2:從肽段索引到離子索引,20,SequenceDatabase,Pre-scoring,搜索兩個(gè)肽段兩兩組合 搜索空間巨大,對(duì)一個(gè)肽段的開(kāi)放式搜索 搜索空間可控,CNCP 2016,改進(jìn)2:從肽段索引到離子索引,21,Combining and Refined Scoring,SequenceDatabase,Pre-scoring,對(duì)一個(gè)肽段的開(kāi)放式搜索 搜索空間可控,保留可信的單肽進(jìn)行兩兩組合
11、 搜索空間較小,CNCP 2016,改進(jìn)2:從肽段索引到離子索引,22,實(shí)際譜圖,……,,,來(lái)自數(shù)據(jù)庫(kù)的理論肽段理論譜圖,肽段間匹配,需要匹配所有的理論譜圖,無(wú)效匹配多,肽段索引,耗時(shí):11毫秒結(jié)果:匹配譜峰數(shù)目為0,耗時(shí):10毫秒結(jié)果:匹配譜峰數(shù)目為0,耗時(shí):9 毫秒結(jié)果:匹配譜峰數(shù)目為3,無(wú)效匹配,無(wú)效匹配,有效匹配,CNCP 2016,改進(jìn)2:從肽段索引到離子索引(Ion-Index),針對(duì)離子建立索引一個(gè)二級(jí)譜
12、圖的譜峰就是一個(gè)離子離子與離子匹配,23,……,離子間匹配,跳過(guò)肽段直接進(jìn)行有效匹配,,,,離子索引,實(shí)際譜圖,來(lái)自數(shù)據(jù)庫(kù)的理論肽段理論譜圖,不在搜索空間內(nèi),不在搜索空間內(nèi),CNCP 2016,Chi Hao et al. Journal of Proteomics. 2015,改進(jìn)3:機(jī)器學(xué)習(xí)(11維特征),24,CNCP 2016,改進(jìn)3:機(jī)器學(xué)習(xí)(SVM在線訓(xùn)練),pLink1計(jì)算E-Value耗時(shí)長(zhǎng)適應(yīng)性弱pLi
13、nk2使用機(jī)器學(xué)習(xí)(SVM)耗時(shí)短適應(yīng)性強(qiáng),25,開(kāi)始,特征提取,迭代,終止,選擇訓(xùn)練樣本,SVM訓(xùn)練模型,重打分,重排序,達(dá)到終止條件,CNCP 2016,pLink2與pLink1對(duì)比,速度pLink2提升10到20倍精度pLink2交聯(lián)肽段數(shù)目提升50%,26,CNCP 2016,我們?cè)?0余套數(shù)據(jù)上進(jìn)行了對(duì)比,pLink2與pLink1對(duì)比,pLink1 與 pLink2 鑒定不一致的主要來(lái)自兩類:1、67
14、%,鑒定結(jié)果母離子不一致。(改進(jìn)1:譜圖預(yù)處理)2、20%,肽譜匹配一樣,但未通過(guò)FDR過(guò)濾。(改進(jìn)2:機(jī)器學(xué)習(xí)),27,CNCP 2016,pLink2與Kojak對(duì)比,,28,Michael R. Hoopmann,Robert L. Moritz,CNCP 2016,Kojak的流程與pLink1類似,,29,開(kāi)始,RAW?,格式轉(zhuǎn)換,蛋白質(zhì)數(shù)據(jù)庫(kù),譜圖預(yù)處理,候選單肽,開(kāi)放式索引,E-value,估計(jì)FDR,報(bào)告結(jié)果,結(jié)
15、束,,速度,,精度,否,是,pLink1,候選雙肽,500,CNCP 2016,Kojak的流程與pLink1類似,,30,開(kāi)始,RAW?,格式轉(zhuǎn)換,蛋白質(zhì)數(shù)據(jù)庫(kù),譜圖預(yù)處理,候選單肽,開(kāi)放式索引,機(jī)器學(xué)習(xí)Percolator,估計(jì)FDR,報(bào)告結(jié)果,結(jié)束,,速度,,精度,否,是,Kojak,候選雙肽,250,CNCP 2016,測(cè)試數(shù)據(jù)集1,合成肽段38條(答案),兩兩組合,使用BS3交聯(lián)與“答案”一致的高可信譜圖1030
16、張(正確結(jié)果);Kojak分析可以得到869張1047張母離子質(zhì)量增加50ppm的譜圖(錯(cuò)誤結(jié)果);,31,pLink,38條合成肽段,1030張,CNCP 2016,手工驗(yàn)證,搜索Human庫(kù),增大搜索空間,測(cè)試軟件的速度和精度,32,2077張MSMS,pLink2,Kojak,38條合成肽段Swissprot Human(20197 entries),CNCP 2016,pLink2與Kojak:速度,,33,pLin
17、k2,Kojak,CNCP 2016,使用64位的PC進(jìn)行測(cè)試,Intel® Xeon® E5-2670(主頻2.6GHz ),4線程“2000張二級(jí)譜圖”“人庫(kù)” “10分鐘”,34,CNCP 2016,使用64位的PC進(jìn)行測(cè)試,Intel® Xeon® E5-2670(主頻2.6GHz ),4線程“2000張二級(jí)譜圖”“人庫(kù)”“10分鐘”“1萬(wàn)張二級(jí)譜圖”“人庫(kù)”“約50分鐘”,35,C
18、NCP 2016,pLink2與Kojak:精度,36,,,Kojak,pLink2,77 276 739,譜圖層次FDR小于等于5%,CNCP 2016,pLink2與Kojak:精度,37,,,Kojak,pLink2,77 276 7398 276 70210% 1
19、00% 95%,譜圖層次FDR小于等于5% 紫色:與正確結(jié)果一致的肽譜匹配,CNCP 2016,測(cè)試數(shù)據(jù)集二:15N代謝標(biāo)記,候選肽1:GNTSLYDHNNNTSDYSK,候選肽2:QSYMDAMLDPMAWMGK,Zhong, H., S.L. Marcus, and L. Li, Two-dimensional mass spectra generated from the analysis of
20、15N-labeled and unlabeled peptides for efficient protein identification and de novo peptide sequencing. J Proteome Res, 2004. 3(6): p. 1155-63.,CNCP 2016,38,精度:15N代謝標(biāo)記,候選肽1:GNTSLYDHNNNTSDYSK,,1:1,C79H116N24O22S0,24 Da,候
21、選肽2:QSYMDAMLDPMAWMGK,,C81H123N19O24S4,19 Da,,正確的鑒定結(jié)果,錯(cuò)誤的鑒定結(jié)果,NaN,CNCP 2016,39,精度 - 15N代謝標(biāo)記,,,Kojak Both pLink 2,644 1738 1738,28.3% 2.4% 4.7%,,,Kojak
22、 Both pLink 2,134 279 251,47.8% 1.8% 11.2%,復(fù)雜樣品:15N labeled E. coli,F(xiàn)DR小于等于5%,只看交聯(lián)結(jié)果紫色:NaN比值的比例,即沒(méi)有一級(jí)譜圖輕、重信號(hào)對(duì)兒證據(jù)的結(jié)果比例,譜圖層次,肽段層次,CNCP 2016,40,干、濕技術(shù)結(jié)合:pLink2支持可碎裂
23、交聯(lián),特征峰減少搜索空間減少譜圖數(shù)目,41,CNCP 2016,干、濕技術(shù)結(jié)合:pLink2支持可碎裂交聯(lián),特征峰減少搜索空間可以得到單肽的母離子質(zhì)量,開(kāi)放式搜索 限定式搜索減少譜圖數(shù)目沒(méi)有特征峰的是單肽,有特征峰的為交聯(lián)肽段,42,CNCP 2016,pLink2支持可碎裂交聯(lián),,43,10524MSMS,716MSMS,含有特征峰,pLink2DSSO,pLinkIon-Index,流程1,流程
24、2,流程3,利用特征峰信息搜索兩條單肽高效的限定式搜索,不利用特征峰信息搜索雙肽開(kāi)放式搜索:離子索引,Liu, F., et al., Nat Methods, 2015. 12(12): p. 1179-84.,CNCP 2016,干、濕技術(shù)結(jié)合:速度提升160倍,44,縮減譜圖數(shù)目,縮減搜索空間,Intel® Xeon® E5-2670(主頻2.6GHz ),單線程,與Kojak對(duì)比: “四線程”
25、“1萬(wàn)張二級(jí)譜圖”“人庫(kù)”“約50分鐘”干、濕技術(shù)結(jié)合:“單線程”“1萬(wàn)張二級(jí)譜圖”“人庫(kù)”“不到2分鐘”,CNCP 2016,總結(jié),在這個(gè)報(bào)告之前“搜索人庫(kù)的交聯(lián)肽段”?,45,CNCP 2016,總結(jié),在這個(gè)報(bào)告之前“搜索人庫(kù)的交聯(lián)肽段”?,46,CNCP 2016,總結(jié),在這個(gè)報(bào)告之后“搜索人庫(kù)的交聯(lián)肽段”?,47,CNCP 2016,總結(jié),速度干:使用多線程、離子索引等技術(shù)“1萬(wàn)張二級(jí)譜圖”“人庫(kù)”“約50分鐘
26、”干、濕結(jié)合:pLink支持可碎裂交聯(lián)“1萬(wàn)張二級(jí)譜圖”“人庫(kù)”“不到2分鐘”精度在標(biāo)注集和標(biāo)記數(shù)據(jù)集上,可信度較高建議:可以考慮下“富集”問(wèn)題(Tan et al. 2016),48,CNCP 2016,致謝,49,董夢(mèng)秋實(shí)驗(yàn)室Cross-linkER楊兵 博士朱明 博士盧珊 博士譚丹 博士董夢(mèng)秋 研究員,CNCP 2016,致謝,50,pFind團(tuán)隊(duì)pLinkER吳妍潔 碩士 樊盛博
27、 博士孟佳明 碩士尹吉澧 碩士賀思敏 研究員,CNCP 2016,謝謝!,訪問(wèn)http://pfind.ict.ac.cn/獲取更多信息,51,,,,,,,,,,,,,,,,,,,,,,,,,2016,2003,2009~2010,2012,2014~2015,pFind v1.0 問(wèn)世,發(fā)布pTop 、pQuant,pFind 第一次實(shí)戰(zhàn)發(fā)布pNovo,發(fā)布pLink1,發(fā)布pFind 3 pLink 2pGly
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國(guó)精神衛(wèi)生工作規(guī)劃(2002—2010年)
- 2007——2010年直屬機(jī)關(guān)黨委黨建工作規(guī)劃
- 《全國(guó)健康教育與健康促進(jìn)工作規(guī)劃綱要(2005—2010年
- 工作規(guī)劃文檔
- 縣安監(jiān)局2019年 工作規(guī)劃
- 顧問(wèn)工作規(guī)劃
- 綜采二區(qū)2010年黨支部工作總結(jié)及2011年工作規(guī)劃2
- 教研工作規(guī)劃
- 質(zhì)量工作規(guī)劃
- 教研工作規(guī)劃
- 鄉(xiāng)鎮(zhèn)五年工作規(guī)劃精品
- 縣安監(jiān)局(2019年)工作規(guī)劃
- 2015年“六五”普法工作規(guī)劃
- 縣安監(jiān)局2019年工作規(guī)劃
- 2018年農(nóng)業(yè)局工作規(guī)劃
- 德育工作規(guī)劃
- 學(xué)??破展ぷ饕?guī)劃
- 2019年工作總結(jié)及2020年工作規(guī)劃
- 醫(yī)院客服工作規(guī)劃
- xx普法工作規(guī)劃
評(píng)論
0/150
提交評(píng)論