

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)的普及和檢索技術(shù)的發(fā)展,信息檢索的研究范疇已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的文檔檢索,實(shí)體檢索目前已成為信息檢索研究領(lǐng)域的新焦點(diǎn)。給定用戶的信息需求,該技術(shù)旨在檢索特定的實(shí)體如“人”、“地點(diǎn)”、“組織”、“產(chǎn)品”等。本文針對(duì)目前實(shí)體檢索研究領(lǐng)域亟待解決的一系列重要問(wèn)題,對(duì)實(shí)體檢索展開(kāi)了系統(tǒng)深入的研究。
本文首先研究了實(shí)體檢索中最重要的一類問(wèn)題——專家發(fā)現(xiàn)(expert finding)問(wèn)題:
1.研究了文檔、查詢與候選實(shí)
2、體的關(guān)聯(lián)子模型。在經(jīng)典的專家發(fā)現(xiàn)模型中,通常假設(shè)在給定文檔的條件下,候選實(shí)體與查詢?cè)~項(xiàng)條件獨(dú)立。但是,該假設(shè)在實(shí)際應(yīng)用中往往不成立,從而導(dǎo)致專家發(fā)現(xiàn)系統(tǒng)性能不佳。針對(duì)該問(wèn)題,本文提出了一種基于主題模型的專家發(fā)現(xiàn)方法。該方法建立在潛在Dirichlet分配(latent Dirichlet allocation,LDA)模型的基礎(chǔ)上,無(wú)需依賴上述條件獨(dú)立性假設(shè)。在CERC(CSIRO Enterprise Research Collect
3、ion)數(shù)據(jù)集上的測(cè)試結(jié)果表明,基于主題模型的專家發(fā)現(xiàn)方法能夠有效地提升專家發(fā)現(xiàn)系統(tǒng)的效能。
2.研究了專家發(fā)現(xiàn)模型中的文檔先驗(yàn)分布。提出了基于DocRank算法的專家發(fā)現(xiàn)模型。另外,針對(duì)DocRank算法無(wú)法處理“同義詞”、“近義詞”的問(wèn)題,又提出了TopicRank算法。TopicRank算法使用LDA模型來(lái)提取文檔的主題,然后通過(guò)分析各個(gè)文檔的主題分布來(lái)構(gòu)造文檔圖,最后使用鏈接分析來(lái)得到文檔先驗(yàn)分布。在此基礎(chǔ)上,建立了基
4、于TopicRank算法的文檔先驗(yàn)子模型。
3.研究了專家發(fā)現(xiàn)模型中的候選實(shí)體先驗(yàn)分布。候選實(shí)體先驗(yàn)概率是對(duì)各個(gè)候選實(shí)體重要性的度量,合理地定義它能夠極大地提升專家發(fā)現(xiàn)系統(tǒng)的性能。但是,目前大部分研究都簡(jiǎn)單地假設(shè)候選實(shí)體先驗(yàn)概率服從均勻分布,即認(rèn)為所有候選實(shí)體是同等重要的。顯然,這是與實(shí)際情況不相符的。本文提出了一種以主題為中心的候選實(shí)體先驗(yàn)子模型,該模型能夠有效地利用整個(gè)語(yǔ)料集中的信息來(lái)得到更加合理的候選實(shí)體先驗(yàn)概率。
5、> 研究不同實(shí)體之間的關(guān)系對(duì)于實(shí)體檢索非常重要,然而專家發(fā)現(xiàn)系統(tǒng)卻無(wú)法對(duì)實(shí)體之間的關(guān)系進(jìn)行檢索。因此,論文進(jìn)一步研究了相關(guān)實(shí)體發(fā)現(xiàn)(related entity finding)問(wèn)題:
1.研究了表格和列表中的實(shí)體提取方法。網(wǎng)頁(yè)的表格和列表中包含了大量實(shí)體。然而這些實(shí)體周?chē)鄙偕舷挛模麑?shí)體識(shí)別工具無(wú)法有效提取表格和列表中的實(shí)體。本文提出了一種針對(duì)表格和列表的實(shí)體提取方法,該方法首先依據(jù)各種表格和列表的特性對(duì)其進(jìn)行分類,之
6、后結(jié)合目標(biāo)實(shí)體的精細(xì)類型信息從表格和列表中提取出候選實(shí)體。
2.研究了實(shí)體過(guò)濾問(wèn)題。由于使用實(shí)體提取方法得到的候選實(shí)體列表中包含大量的噪聲,在實(shí)體提取之后,通常需要對(duì)候選實(shí)體列表進(jìn)行過(guò)濾。本文提出了基于文檔頻率的實(shí)體過(guò)濾模型。與傳統(tǒng)的利用實(shí)體類型信息進(jìn)行過(guò)濾的方法截然不同,該模型主要利用了實(shí)體的文檔頻率信息過(guò)濾實(shí)體,具有計(jì)算量小、實(shí)時(shí)性強(qiáng)、效率高的優(yōu)點(diǎn)。
3.研究了實(shí)體排序問(wèn)題。提出了一種基于主題模型的實(shí)體排序方法,
7、該方法首先使用LDA提取出相關(guān)文檔集合的主題分布。在此基礎(chǔ)上,利用候選實(shí)體與查詢之間的同現(xiàn)概率進(jìn)行實(shí)體排序。
論文最后研究了實(shí)體名稱排歧問(wèn)題。實(shí)體名稱歧義性問(wèn)題是實(shí)體檢索研究中經(jīng)常遇到的問(wèn)題。一個(gè)實(shí)體往往可能具有多個(gè)不同的名稱,而多個(gè)實(shí)體也可能共享同一名稱。本文研究了實(shí)體名稱排歧中最重要的一類問(wèn)題——人物姓名排歧,提出了一種三階段人物姓名排歧模型。在第一階段,提出了基于主題模型的人物姓名排歧算法,并分別使用該算法和凝聚式層次聚
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于實(shí)體的海量數(shù)據(jù)在線檢索關(guān)鍵技術(shù)研究.pdf
- 基于內(nèi)容的視覺(jué)媒體檢索關(guān)鍵技術(shù)研究.pdf
- 基于內(nèi)容的圖像檢索理論與關(guān)鍵技術(shù)研究.pdf
- 圖像檢索關(guān)鍵技術(shù)研究.pdf
- 博客檢索的關(guān)鍵技術(shù)研究.pdf
- 定義問(wèn)答檢索關(guān)鍵技術(shù)研究.pdf
- 實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究.pdf
- 基于哈希學(xué)習(xí)的跨媒體檢索關(guān)鍵技術(shù)研究及系統(tǒng)實(shí)現(xiàn).pdf
- Web實(shí)體活動(dòng)融合關(guān)鍵技術(shù)研究.pdf
- 圖像檢索關(guān)鍵技術(shù)研究(1)
- XML信息檢索關(guān)鍵技術(shù)研究.pdf
- 足球視頻檢索關(guān)鍵技術(shù)研究.pdf
- 音樂(lè)哼唱檢索關(guān)鍵技術(shù)研究.pdf
- 圖像檢索若干關(guān)鍵技術(shù)研究.pdf
- Web信息檢索的關(guān)鍵技術(shù)研究.pdf
- Web檢索優(yōu)化的關(guān)鍵技術(shù)研究.pdf
- Web信息檢索與主題提取的關(guān)鍵技術(shù)研究.pdf
- 數(shù)字藝術(shù)圖形分類與檢索關(guān)鍵技術(shù)研究.pdf
- 基于內(nèi)容的視頻檢索關(guān)鍵技術(shù)研究與仿真.pdf
- 基于本體的語(yǔ)義檢索關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論