轉(zhuǎn)錄因子結(jié)合位點識別問題的算法研究.pdf_第1頁
已閱讀1頁,還剩114頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、轉(zhuǎn)錄是基因表達的第一階段,也是基因調(diào)節(jié)的主要階段,通過轉(zhuǎn)錄因子與特異的DNA序列結(jié)合,對基因的表達起抑制或增強的作用。識別DNA序列的中的這些結(jié)合區(qū)域,即轉(zhuǎn)錄因子結(jié)合位點識別,對了解基因的轉(zhuǎn)錄活性及理解基因表達有著重要意義,是現(xiàn)今生物信息學中最為廣泛研究的問題之一。
  轉(zhuǎn)錄因子結(jié)合位點識別問題的難點在于,與大量長度幾百或上千堿基的背景噪聲序列相比,長度為十幾或幾十的模體信號相對較短,并且同一轉(zhuǎn)錄因子的模體實例還有可能部分發(fā)生變異

2、。同時,隨著序列長度和數(shù)量的增加,解空間大小也會飛速巨增,計算開銷往往不切實際。此外,識別結(jié)合區(qū)域中的多個轉(zhuǎn)錄因子結(jié)合位點、尋找特定的共調(diào)控轉(zhuǎn)錄因子結(jié)合位點組合以及在全基因組范圍內(nèi)尋找結(jié)合位點,也是此問題所面臨的巨大挑戰(zhàn)。本論文針對轉(zhuǎn)錄因子結(jié)合位點識別問題中所使用的數(shù)學模型、優(yōu)化技術(shù)、高效識別方法以及與新型生物實驗結(jié)合的進一步發(fā)展等問題進行了深入的研究,將所提出的方法應用于模擬字符串數(shù)據(jù)、不同物種和組織的啟動子序列和全基因組的DNA數(shù)據(jù)

3、進行轉(zhuǎn)錄因子結(jié)合位點識別。主要工作可概括如下:
  (1)針對傳統(tǒng)轉(zhuǎn)錄因子結(jié)合位點識別問題組合候選解集規(guī)模過大,經(jīng)典的概率求解方法易于陷入局部最優(yōu)解的情況,提出了定位投影求精算法。通過一個基于位置頻率矩陣的定位投影過程,將數(shù)據(jù)集劃分,聚類為不同的子集。從這些子集中過濾篩選出具有一定信息量和復雜度若干子集,分別作為期望最大化算法的初始狀態(tài)并進行迭代求精。本論文通過對定位投影過程中閥值的設(shè)定,實現(xiàn)了對OOPS、ZOOPS、TCM三種模

4、體實例不同分布模型的處理。同時,結(jié)合高階馬爾可夫模型作為背景加強模體特異性,使概率模型更加符合真實生物數(shù)據(jù)。此外,引入了相似函數(shù)對各子集輸出結(jié)果進行評估,使得定位投影求精算法可以解決多模體識別問題。實驗結(jié)果表明,該算法可以在多個真核物種的啟動子序列中有效識別轉(zhuǎn)錄因子結(jié)合位點。
  (2)針對由轉(zhuǎn)錄因子結(jié)合位點識別問題衍生得到的(l,d)植入模體搜索問題,傳統(tǒng)算法在效率和準確度上往往較難達到良好的平衡,并且難以解決挑戰(zhàn)實例的情況,提

5、出了一種基于期望最大化的啟發(fā)式聚類算法CEM。通過參照序列的設(shè)定,該算法將數(shù)據(jù)集劃分為不同的子集,并使用改進的期望最大化算法來探索子集中最好的局部最優(yōu)解。CEM將精確方法與概率方法相結(jié)合,克服了傳統(tǒng)期望最大化算法陷入不同局部解的缺點,可準確尋找到植入位點,對識別高退化性模體有較好的性能。模擬數(shù)據(jù)測試結(jié)果表明,CEM不但能準確識別一般實例中的植入模體信號,對于挑戰(zhàn)實例的植入模體信號識別也有較高準確率。此外,真實數(shù)據(jù)實驗證明該算法可有效應用

6、于實際物種的轉(zhuǎn)錄因子結(jié)合位點識別問題。
  (3)針對全基因組范圍的轉(zhuǎn)錄因子結(jié)合位點識別問題,提出了一種用于ChIP-seq數(shù)據(jù)的轉(zhuǎn)錄因子結(jié)合位點識別算法MMFChIP。該算法將精確方法和概率方法相結(jié)合,針對ChIP-seq的數(shù)據(jù)特點,通過對正負兩個輸入集合的比較,選出發(fā)生頻率較高且相似的子序列生成位置頻率矩陣,并結(jié)合模體內(nèi)位置依賴性和高階馬爾可夫進行統(tǒng)計建模,利用錯誤發(fā)現(xiàn)率對預測實例進行控制。在輸出時,還利用一個后處理過程聚類相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論