2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩139頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著基因組研究的發(fā)展,人類進入了后基因組時代,生物學數據積累出現了前所未有的飛躍,闡明這些數據的意義因此成為一項巨大的挑戰(zhàn)。生物學家需要對細胞及組織進行不斷的了解,而我們則需要進行很多諸如對數據進行組織,分類,解析等工作,因為這些也是這項挑戰(zhàn)的重要組成部分。 對數據進行解析不僅僅是抽象的字符串的解析,由于在這些堿基或氨基酸的字符串后包含著分子生物學所有的復雜性,而在所有的方法中,斷定分子的結構或功能的最可靠的方法是生物試驗,但得

2、到生物數據比決定其結構功能要復雜得多。因此當下最迫切的工作就是要發(fā)展計算的方法,從序列本身得到數據的生物學信息。 目前國際上發(fā)展起來了很多基因識別軟件,但大多數軟件不能識別完整的基因結構。本文基于統(tǒng)計學習理論-支撐向量機,構建了一個完整基因的識別軟件。本文分別引進了兩種特征提取方法,一個是與隨機序列相比求相對差異的方法,并給出了相應的算法;另一個是基于變長度馬爾科夫鏈求生成序列的概率的方法,也給出了相應的算法,并基于最大差異給出

3、了變量提取的閾值。這兩種方法突破了原來對DNA序列的計算編碼方式,避免了傳統(tǒng)方式由于錯位讀取使轉碼的數列與真實的DNA序列對應不上而出現錯誤的結論。我們根據找到的特征片斷序列,將DNA序列映射到歐式空間,形成了DNA序列和歐式空間向量的一一對應關系,在歐式空間中進行基因和基因間區(qū)的識別。同時,從數學分析的角度對用到的核函數進行了討論,根據討論結果的啟示,對我們選取的核函數根據交叉驗證進行了參數選取,并取到了分類最好的參數。對基因和基因間

4、區(qū)的識別準確率在染色體水平上分別達到89%和87%。 有文獻表明,選擇性內在外顯子具有幾個特殊的特征。1、在轉錄過程中選擇性內在外顯子傾向于保持閱讀框架不變,所以長度基本上能被3整除。2、這種外顯子在轉錄過程中會產生跳躍,所以與其它外顯子相比序列長度比較短。3、其上下游序列在人和大鼠之間比較保守。本文根據內在外顯子的長度、長度能否被3整除以及保守率,結合我找到的調控序列,用支撐向量機技術構建了分類器模型。該分類器能有效的在基因組

5、序列中識別選擇性內在外顯子,識別準確率達到了92%。 針對在樣本類別不知道的情況下DNA序列中功能模體和背景的分類問題,本文引進了兩個統(tǒng)計模型。這兩個模型均把模體和背景看成是由獨立同分布的隨機變量產生的,只是模體和背景所用的參數不一樣。其中一個模型將模體起始位點看成丟失數據;另一個模型則用滑動窗口的方法將序列拆成不知類別的樣本,將類標簽處理成丟失數據。然后又分別引進了Gibbs抽樣和EM算法,在要解決的問題、模型和模型的解之間建

6、立了一個橋梁,形成了模體搜索算法。該算法最后通過程序實現,找出了13個選擇性內在外顯子的調控模體。 蛋白質的調控網絡分析是目前蛋白質組研究的重點。本文對凝血系統(tǒng)的凝血因子和蛋白C之間的相互作用調控網絡進行了分析,在凝血酶生成的背景下,著重討論了蛋白C的動力學作用。我們建立了一個比較復雜的動力學模型,通過動力學分析和數值模擬,得到了關于蛋白C動力學作用的一一些結論,如果APC少量缺乏,對血液凝固的影響不大,大劑量的APC缺乏會導致

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論