實(shí)體檢索的理論與關(guān)鍵技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁(yè)數(shù)：152 大?。?.06MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

實(shí)體檢索的理論與關(guān)鍵技術(shù)研究.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩151頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)的普及和檢索技術(shù)的發(fā)展，信息檢索的研究范疇已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)的文檔檢索，實(shí)體檢索目前已成為信息檢索研究領(lǐng)域的新焦點(diǎn)。給定用戶的信息需求，該技術(shù)旨在檢索特定的實(shí)體如“人”、“地點(diǎn)”、“組織”、“產(chǎn)品”等。本文針對(duì)目前實(shí)體檢索研究領(lǐng)域亟待解決的一系列重要問(wèn)題，對(duì)實(shí)體檢索展開(kāi)了系統(tǒng)深入的研究。
　　本文首先研究了實(shí)體檢索中最重要的一類問(wèn)題——專家發(fā)現(xiàn)（expert finding）問(wèn)題：
　　1.研究了文檔、查詢與候選實(shí)

2、體的關(guān)聯(lián)子模型。在經(jīng)典的專家發(fā)現(xiàn)模型中，通常假設(shè)在給定文檔的條件下，候選實(shí)體與查詢?cè)~項(xiàng)條件獨(dú)立。但是，該假設(shè)在實(shí)際應(yīng)用中往往不成立，從而導(dǎo)致專家發(fā)現(xiàn)系統(tǒng)性能不佳。針對(duì)該問(wèn)題，本文提出了一種基于主題模型的專家發(fā)現(xiàn)方法。該方法建立在潛在Dirichlet分配（latent Dirichlet allocation，LDA）模型的基礎(chǔ)上，無(wú)需依賴上述條件獨(dú)立性假設(shè)。在CERC（CSIRO Enterprise Research Collect

3、ion）數(shù)據(jù)集上的測(cè)試結(jié)果表明，基于主題模型的專家發(fā)現(xiàn)方法能夠有效地提升專家發(fā)現(xiàn)系統(tǒng)的效能。
　　2.研究了專家發(fā)現(xiàn)模型中的文檔先驗(yàn)分布。提出了基于DocRank算法的專家發(fā)現(xiàn)模型。另外，針對(duì)DocRank算法無(wú)法處理“同義詞”、“近義詞”的問(wèn)題，又提出了TopicRank算法。TopicRank算法使用LDA模型來(lái)提取文檔的主題，然后通過(guò)分析各個(gè)文檔的主題分布來(lái)構(gòu)造文檔圖，最后使用鏈接分析來(lái)得到文檔先驗(yàn)分布。在此基礎(chǔ)上，建立了基

4、于TopicRank算法的文檔先驗(yàn)子模型。
　　3.研究了專家發(fā)現(xiàn)模型中的候選實(shí)體先驗(yàn)分布。候選實(shí)體先驗(yàn)概率是對(duì)各個(gè)候選實(shí)體重要性的度量，合理地定義它能夠極大地提升專家發(fā)現(xiàn)系統(tǒng)的性能。但是，目前大部分研究都簡(jiǎn)單地假設(shè)候選實(shí)體先驗(yàn)概率服從均勻分布，即認(rèn)為所有候選實(shí)體是同等重要的。顯然，這是與實(shí)際情況不相符的。本文提出了一種以主題為中心的候選實(shí)體先驗(yàn)子模型，該模型能夠有效地利用整個(gè)語(yǔ)料集中的信息來(lái)得到更加合理的候選實(shí)體先驗(yàn)概率。

5、>　　研究不同實(shí)體之間的關(guān)系對(duì)于實(shí)體檢索非常重要，然而專家發(fā)現(xiàn)系統(tǒng)卻無(wú)法對(duì)實(shí)體之間的關(guān)系進(jìn)行檢索。因此，論文進(jìn)一步研究了相關(guān)實(shí)體發(fā)現(xiàn)（related entity finding）問(wèn)題：
　　1.研究了表格和列表中的實(shí)體提取方法。網(wǎng)頁(yè)的表格和列表中包含了大量實(shí)體。然而這些實(shí)體周?chē)鄙偕舷挛模麑?shí)體識(shí)別工具無(wú)法有效提取表格和列表中的實(shí)體。本文提出了一種針對(duì)表格和列表的實(shí)體提取方法，該方法首先依據(jù)各種表格和列表的特性對(duì)其進(jìn)行分類，之

6、后結(jié)合目標(biāo)實(shí)體的精細(xì)類型信息從表格和列表中提取出候選實(shí)體。
　　2.研究了實(shí)體過(guò)濾問(wèn)題。由于使用實(shí)體提取方法得到的候選實(shí)體列表中包含大量的噪聲，在實(shí)體提取之后，通常需要對(duì)候選實(shí)體列表進(jìn)行過(guò)濾。本文提出了基于文檔頻率的實(shí)體過(guò)濾模型。與傳統(tǒng)的利用實(shí)體類型信息進(jìn)行過(guò)濾的方法截然不同，該模型主要利用了實(shí)體的文檔頻率信息過(guò)濾實(shí)體，具有計(jì)算量小、實(shí)時(shí)性強(qiáng)、效率高的優(yōu)點(diǎn)。
　　3.研究了實(shí)體排序問(wèn)題。提出了一種基于主題模型的實(shí)體排序方法，

7、該方法首先使用LDA提取出相關(guān)文檔集合的主題分布。在此基礎(chǔ)上，利用候選實(shí)體與查詢之間的同現(xiàn)概率進(jìn)行實(shí)體排序。
　　論文最后研究了實(shí)體名稱排歧問(wèn)題。實(shí)體名稱歧義性問(wèn)題是實(shí)體檢索研究中經(jīng)常遇到的問(wèn)題。一個(gè)實(shí)體往往可能具有多個(gè)不同的名稱，而多個(gè)實(shí)體也可能共享同一名稱。本文研究了實(shí)體名稱排歧中最重要的一類問(wèn)題——人物姓名排歧，提出了一種三階段人物姓名排歧模型。在第一階段，提出了基于主題模型的人物姓名排歧算法，并分別使用該算法和凝聚式層次聚

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

實(shí)體檢索的理論與關(guān)鍵技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

實(shí)體檢索的理論與關(guān)鍵技術(shù)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載