版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著計(jì)算技術(shù)和生物技術(shù)的進(jìn)步,當(dāng)前生物醫(yī)學(xué)相關(guān)的文獻(xiàn)正在以前所未有的速度增長。著名的MEDLINE數(shù)據(jù)庫已經(jīng)收集了自1965年以來的近1100萬篇的生物醫(yī)學(xué)相關(guān)文獻(xiàn),并且以每天1500篇的速度在增長。這些文獻(xiàn)中蘊(yùn)含了大量的知識。研究人員可以利用不同文獻(xiàn)中的研究成果,來尋找疾病和基因之間的關(guān)系、基因和不同生命功能以及不同基因之間的關(guān)系等非常有用的知識。這些知識應(yīng)用于實(shí)際,可以更好地診斷、預(yù)防和治療人類的疾病。但是,人工從海量的文獻(xiàn)中發(fā)現(xiàn)這
2、些知識幾乎是一件不可能的任務(wù)。因此,針對海量的生物醫(yī)藥文獻(xiàn)的信息檢索系統(tǒng)成為相關(guān)研究人員的迫切需求。2003年,TREC基因?qū)W方面的項(xiàng)目應(yīng)運(yùn)而生。
本文研究的基礎(chǔ)就是TREC2007年的基因?qū)W項(xiàng)目。因此本文首先對TREC做了簡要的介紹,并詳細(xì)介紹了TRECGenomicsTrack2007數(shù)據(jù)源、主題以及評測提交形式。然后討論和分析了當(dāng)前主要的信息檢索模型,以及本文介紹的生物醫(yī)藥領(lǐng)域檢索系統(tǒng)中搭建檢索模塊用到的Indri工具包
3、。在檢索過程中考慮到查詢中所使用的術(shù)語可能與文檔集中使用的術(shù)語不匹配而導(dǎo)致一些相關(guān)的文檔不能被成功地檢索出來,影響檢索效果,本文提出了兩個查詢擴(kuò)展的方法——正規(guī)化的同義詞查詢擴(kuò)展方法和基于查詢結(jié)果反饋的查詢擴(kuò)展方法。最后描述了生物醫(yī)學(xué)領(lǐng)域檢索系統(tǒng)的整體設(shè)計(jì)、實(shí)現(xiàn)和測試結(jié)果。
本文重點(diǎn)討論并實(shí)現(xiàn)了以下兩個方面的內(nèi)容:信息檢索模型,查詢擴(kuò)展技術(shù)。利用以上技術(shù),本文初步實(shí)現(xiàn)了生物醫(yī)學(xué)領(lǐng)域檢索系統(tǒng)。為了考察本系統(tǒng)的性能以及查詢擴(kuò)展方法
4、對于系統(tǒng)性能的影響,文本設(shè)計(jì)了相應(yīng)的實(shí)驗(yàn)。實(shí)驗(yàn)表明,查詢擴(kuò)展方法對系統(tǒng)的性能會有積極的影響,其中正規(guī)化的同義詞查詢擴(kuò)展方法相對系統(tǒng)baseline在DocumentMAP、AspectMAP、PassageMAP分別提高4.5%、3.4%、2.3%;而基于查詢結(jié)果反饋的實(shí)體查詢擴(kuò)展方法相對系統(tǒng)baseline在DocumentMAP、AspectMAP、PassageMAP分別提高19.1%、20.5%、15.8%,其中Document
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向生物醫(yī)學(xué)領(lǐng)域的雙語對齊技術(shù)研究.pdf
- 面向生物醫(yī)學(xué)領(lǐng)域的文本挖掘技術(shù)研究.pdf
- 領(lǐng)域本體的查詢擴(kuò)展及檢索研究.pdf
- Flash內(nèi)容檢索的查詢擴(kuò)展技術(shù)研究.pdf
- 信息檢索中的查詢擴(kuò)展技術(shù)研究.pdf
- 基于Lucene的生物醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng)的研究與改進(jìn).pdf
- 基于領(lǐng)域本體的生物醫(yī)學(xué)文本檢索.pdf
- 面向生物醫(yī)學(xué)領(lǐng)域的信息抽取關(guān)鍵技術(shù)研究.pdf
- 基于模糊查詢技術(shù)的文件檢索系統(tǒng)研究.pdf
- 信息檢索中的查詢擴(kuò)展及相關(guān)技術(shù)研究.pdf
- 跨語言信息檢索的查詢消歧及查詢擴(kuò)展技術(shù)研究.pdf
- 查詢擴(kuò)展技術(shù)研究.pdf
- 圖像檢索系統(tǒng)的優(yōu)化技術(shù)研究.pdf
- 生物醫(yī)學(xué)數(shù)據(jù)的檢索方法
- 生物醫(yī)學(xué)信息檢索與利用
- 生物醫(yī)學(xué)領(lǐng)域的專家尋找研究.pdf
- 基于PLSI的信息檢索中查詢擴(kuò)展相關(guān)技術(shù)研究.pdf
- 生物醫(yī)學(xué)信號采集與處理技術(shù)研究.pdf
- 面向蒙古文增量查詢擴(kuò)展的信息檢索技術(shù)研究.pdf
- 面向生物醫(yī)學(xué)領(lǐng)域的信息抽取研究.pdf
評論
0/150
提交評論