面向生物領域協作的科學軟件分享、選擇與推薦研究.pdf_第1頁
已閱讀1頁,還剩133頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近年來,由于生物數據爆炸性的增長,生物領域研究突顯出計算密集型和數據密集型的特點,過去以個人或小組為主的研究方式逐漸被多人或多個單位共同參與、協同合作的方式所取代。隨著eScience、Collaboratory的興起和流行,科學工作流(Scientific Workflow)已成為生物研究者協同進行大規(guī)??蒲袑嶒灥闹饕绞?。然而,生物領域協作在向著更深層次開展的同時,也面臨著新的問題和挑戰(zhàn)。首先,伴隨著協作規(guī)模的擴大,分析流程變得愈加

2、復雜,加大了用戶論證數據結果、理解流程執(zhí)行過程的難度。其次,計算需求增大帶來的壓力需要通過軟件資源的分享來緩解,而現有研究主要集中在分享的方式上,對于分享行為本身的關注較少,影響了協作的開展。此外,軟件和數據分享雖然提供了豐富的科研資源,但也帶來了選擇上的困難,導致用戶無法快速定位到高質量的資源。本文針對上述關鍵問題,在生物工作流數據世系管理、生物科學軟件分享和選擇、生物數據文件推薦三個方面進行了研究,主要研究內容和貢獻如下:
 

3、 1)提出一個面向生物科學工作流的協同數據世系模型。該模型用于記錄生物數據分析流程的整個過程,包括工作流執(zhí)行所涉及的數據、軟件、用戶、任務等基本對象以及對象間的相互作用關系。在此基礎上討論了數據依賴、運行依賴等隱含關系的定義與求解,并引入了協同關系來描述用戶在軟件和數據兩個不同層面上的協作行為,為結果數據理解、執(zhí)行過程重現、錯誤跟蹤定位、用戶協作分析提供支持。
  2)提出一個生物科學軟件分享模型。本文針對生物科學軟件分享活動,通

4、過參與觀察和半結構化訪談的方式收集了相關數據,經過歸納演繹分析發(fā)現,軟件的類型、分享的對象和范圍、軟件生命周期的不同階段、軟件自身的技術特征都會對生物科學軟件的分享產生影響,需要采用相應的分享機制來保證軟件分享者和使用者的權益,并設計了基于有限狀態(tài)自動機的生物科學軟件分享模型,模型的狀態(tài)集合和轉移函數綜合了上述研究發(fā)現,可為生物協作中軟件分享使用提供指導。
  3)提出基于社會屬性的生物科學軟件選擇和組合方法。采用人種志的方法對生

5、物研究人員的軟件使用行為分析發(fā)現,在生物科學軟件使用方面,用戶較重視軟件的社會屬性,進而確定出包括師生指導關系、軟件開發(fā)者、軟件學術水平以及軟件聲譽在內的四個影響用戶選擇的關鍵因素,形成生物科學軟件質量模型。并結合協同數據世系,設計選擇算法對質量模型進行量化,完成定性分析到定量選擇的轉換。在此基礎上,根據軟件協作信息,基于最大化軟件組合協作度的思想,設計了軟件組合優(yōu)化算法。實驗數據表明,該方法可以有效的提高軟件選擇組合的效率。
 

6、 4)提出基于用戶信任的生物數據文件推薦方法。以序列比對為主要分析手段的生物數據研究依賴于參考數據文件的質量,而生物數據呈指數增長帶來的信息過載使得用戶難以快速的找到高質量的數據文件。本文根據協同數據世系中數據文件的使用信息,分析用戶的使用偏好,定義數據信任關系,然后基于用戶行為的相似性計算得到用戶間的信任關系,并結合兩方面的信息,通過推薦算法預測用戶對數據文件的信任程度,過濾出高質量的數據文件向用戶推薦。實驗結果表明,使用該方法推薦的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論