版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、抽取不同長(zhǎng)度單詞的頻率分布特征向量用以刻畫序列特征的方法,稱為基于Genome Signature 方法?;谟?jì)算核酸序列組合的一個(gè)重要的應(yīng)用就是進(jìn)行長(zhǎng)序列的比對(duì),甚至是全基因組的比對(duì)。這種基于語(yǔ)言學(xué)方法進(jìn)行序列分析和比對(duì),不需要預(yù)先或者后來(lái)的任何Alignment, 可以比較非同源的,甚至是長(zhǎng)度差異很大的序列,所以又可以稱為“Alignment-free sequence comparisons”。 本文使用基于Genome
2、 Signature 的理論抽取核酸頻率分布特征,并采用計(jì)算語(yǔ)言學(xué)中統(tǒng)計(jì)學(xué)習(xí)的方法定量分析生物核酸序列。以119 個(gè)細(xì)菌的全基因核酸序列為研究對(duì)象,抽取雙核苷酸頻率分布特征,構(gòu)建其數(shù)字特征向量;以PCC(Person CorrelationCoefficient)距離為標(biāo)準(zhǔn),對(duì)兩兩序列之間的關(guān)系進(jìn)行分析。對(duì)細(xì)菌親緣關(guān)系給予定量的描述,得出物種親緣關(guān)系越相近,PCC 距離越小。物種親緣關(guān)系越遠(yuǎn),PCC 距離越大。從細(xì)菌的全基因組核酸序列上
3、采用非重疊的方法,截取長(zhǎng)度為1000bp 的片斷359902 條。抽取這些短片段的雙核苷酸頻率分布特征向量,計(jì)算每條短片段與119 個(gè)全基因組雙核苷酸頻率分布特征向量之間的PCC 距離。經(jīng)過(guò)統(tǒng)計(jì)分析,得出如下結(jié)論:1000bp 長(zhǎng)度的片段基本能夠保持一個(gè)物種全基因組的Genome Signature。來(lái)自每個(gè)物種上不同位置的1000bp片斷與其全基因組的PCC距離是不同的。采用可視化的方法,構(gòu)建取自不同位置的1000bp片段與全基因組核
4、酸序列的距離圖譜。得出外來(lái)基因較多的物種,其圖譜的波動(dòng)很大,反之,波動(dòng)很小。并用該方法有效的預(yù)測(cè)Neisseriameningitides strain MC 58的水平基因轉(zhuǎn)移。 最后是對(duì)短核酸片段的分類和聚類的研究。首先,構(gòu)建了一個(gè)15類的小型分類器,來(lái)源于15 個(gè)物種的50604 條片段中,正確分類的為35116 條,整體分類準(zhǔn)確性為69.39%。分類器針對(duì)來(lái)源于不同物種的短片段分類準(zhǔn)確性差別很大。比如Bordetell
5、a pertusis 準(zhǔn)確性為80.74%,而外來(lái)基因較多的Escherichia coli O157:H7 EDL933 準(zhǔn)確性只有35.87%。分類器的準(zhǔn)確性與待分短片段的來(lái)源有關(guān)。另外,構(gòu)建119 類的大型分類器,比較15類的小型分類器和119 類的大型分類器的分類情況。 本文的最后是對(duì)短片段的聚類分析。來(lái)自Escherichia coliO157:H7 EDL933 的短片段內(nèi)部距離較大分為4 個(gè)簇。取自Bordete
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 共和盆地土壤侵蝕空間分布特征及定量分析.pdf
- 基于CORONA影像的構(gòu)造定量分析.pdf
- 定量分析課件
- 定量分析實(shí)驗(yàn)
- 軟骨多肽的定量分析.pdf
- 頻率域中樁基完整性定量分析研究.pdf
- 定量分析樣品的前處理
- 基于LIBS技術(shù)的鋼水成分定量分析.pdf
- 黃酮的定性、定量分析及生物活性研究發(fā)展
- hplc定量分析方法
- 定量分析方法總結(jié)
- 基于狀態(tài)空間理論的氣體濃度定量分析.pdf
- 基于拓?fù)涞慕Y(jié)構(gòu)魯棒性定量分析.pdf
- 序列顯微熒光圖像的動(dòng)態(tài)特性定量分析及融合檢測(cè).pdf
- 青海省縣級(jí)人口空間分布影響因素的定量分析
- 胰腺疾病的MRI征象定量分析.pdf
- 盈余質(zhì)量的定量分析【外文翻譯】
- 藥物定量分析與分析方法的驗(yàn)證
- 基于灰色理論的外資利用狀況的定量分析.pdf
- 基于元素標(biāo)記策略和納米顆粒的生物分子定量分析方法研究.pdf
評(píng)論
0/150
提交評(píng)論