![](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/18/7c5ebf04-c5e8-497d-ae61-b9d71c1e0b4c/7c5ebf04-c5e8-497d-ae61-b9d71c1e0b4cpic.jpg)
![Web實(shí)體活動(dòng)融合關(guān)鍵技術(shù)研究.pdf_第1頁](https://static.zsdocx.com/FlexPaper/FileRoot/2019-3/14/18/7c5ebf04-c5e8-497d-ae61-b9d71c1e0b4c/7c5ebf04-c5e8-497d-ae61-b9d71c1e0b4c1.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、如今,互聯(lián)網(wǎng)技術(shù)的發(fā)展日新月異,互聯(lián)網(wǎng)已經(jīng)逐步滲透到了人們的生活之中,并成為了人們獲取信息、傳播消息的重要渠道。伴隨著Web中信息的爆炸式增長與迅速傳播,Web已經(jīng)成為了一個(gè)重要信息源,這些蘊(yùn)含在Web中的信息有著重要的研究意義與價(jià)值。對(duì)Web中的海量數(shù)據(jù)進(jìn)行分析、挖掘、處理,可以獲取豐富的信息價(jià)值,這些信息可以被集成在如市場情報(bào)分析、輿論分析以及電子商務(wù)等系統(tǒng)中,為人們提供深度信息服務(wù)。
Web按其所蘊(yùn)含信息的“深度”可
2、劃分為SurfaceWeb和DeepWeb。SurfaceWeb指可以通過URL鏈接而被傳統(tǒng)搜索引擎搜索到的頁面。DeepWeb是指Web中可被訪問的在線數(shù)據(jù)庫,它們的內(nèi)容存儲(chǔ)在真實(shí)的數(shù)據(jù)庫中。這些內(nèi)容只有在通過查詢接口進(jìn)行查詢時(shí)才會(huì)由Web服務(wù)器動(dòng)態(tài)生成頁面并把結(jié)果頁面返回給訪問者。
本文的研究對(duì)象是Web實(shí)體活動(dòng)。所謂Web實(shí)體活動(dòng),即一個(gè)確定的實(shí)體,在一個(gè)確定的時(shí)間和一個(gè)確定的地點(diǎn)所做出的一個(gè)確定的活動(dòng)。Web實(shí)體活
3、動(dòng)的集合便構(gòu)成了Web實(shí)體的蹤跡。Web實(shí)體蹤跡具有重要的分析價(jià)值,比如就業(yè)市場情報(bào)分析中,一個(gè)企業(yè)的發(fā)展蹤跡,對(duì)于求職者具有很好的參考價(jià)值。
不同于傳統(tǒng)集成系統(tǒng)研究對(duì)象主要來自于DeepWeb頁面中較為結(jié)構(gòu)化的部分,Web實(shí)體活動(dòng)集成系統(tǒng)所研究的對(duì)象主要來源于Web頁面中的無結(jié)構(gòu)化文本片段,通過活動(dòng)抽取從自然語句中獲取Web實(shí)體活動(dòng)信息,并將其轉(zhuǎn)化為結(jié)構(gòu)化模式記錄。
本文主要研究Web實(shí)體活動(dòng)融合關(guān)鍵技術(shù)。
4、作為Web實(shí)體活動(dòng)集成的最后一個(gè)步驟,Web實(shí)體活動(dòng)融合將抽取所得的Web實(shí)體活動(dòng)記錄中指向同一Web實(shí)體活動(dòng)的不同表象記錄進(jìn)行整合,得到一個(gè)完整準(zhǔn)確的實(shí)體活動(dòng)記錄。
Web實(shí)體活動(dòng)融合包含兩個(gè)主要部分,一個(gè)是Web實(shí)體活動(dòng)重復(fù)記錄檢測,另一個(gè)是Web實(shí)體活動(dòng)真值發(fā)現(xiàn)。前者將指向同一Web實(shí)體活動(dòng)的不同表象記錄篩選出來,為Web實(shí)體活動(dòng)真值發(fā)現(xiàn)服務(wù),通過解決數(shù)據(jù)沖突、補(bǔ)充缺失數(shù)據(jù)并發(fā)現(xiàn)真值,最終得到完整準(zhǔn)確的記錄。本文針對(duì)
5、這兩個(gè)部分展開研究,并分別提出針對(duì)Web實(shí)體活動(dòng)的方法,主要工作如下:
1.基于K-means聚類與SVM分類技術(shù)對(duì)Web實(shí)體活動(dòng)記錄進(jìn)行重復(fù)檢測,通過計(jì)算兩個(gè)記錄在每個(gè)維度上的相似度來獲取他們的比較向量,將重復(fù)檢測問題轉(zhuǎn)化為向量分類問題。在獲取比較向量后,先通過聚類獲取一定的樣本集合,然后使用該樣本集合訓(xùn)練SVM分類器。本文通過觀察Web實(shí)體活動(dòng)問題特征,在結(jié)合傳統(tǒng)計(jì)算方法的基礎(chǔ)上,利用句子的結(jié)構(gòu)特征來計(jì)算比較向量并使用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向Web的實(shí)體關(guān)系查詢與分析關(guān)鍵技術(shù)研究.pdf
- 實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究.pdf
- Web加速關(guān)鍵技術(shù)研究.pdf
- 個(gè)性化Web商務(wù)信息融合關(guān)鍵技術(shù)研究.pdf
- Web服務(wù)適配關(guān)鍵技術(shù)研究.pdf
- Web服務(wù)發(fā)現(xiàn)關(guān)鍵技術(shù)研究.pdf
- 油田數(shù)據(jù)融合關(guān)鍵技術(shù)研究
- GNSS數(shù)據(jù)融合關(guān)鍵技術(shù)研究.pdf
- Web后端性能優(yōu)化關(guān)鍵技術(shù)研究.pdf
- 光纖無線融合幾個(gè)關(guān)鍵技術(shù)研究.pdf
- 知識(shí)融合中若干關(guān)鍵技術(shù)研究.pdf
- 圖像融合中的關(guān)鍵技術(shù)研究.pdf
- 面向?qū)嶓w的觀點(diǎn)挖掘關(guān)鍵技術(shù)研究.pdf
- 實(shí)體檢索的理論與關(guān)鍵技術(shù)研究.pdf
- Web文本分類關(guān)鍵技術(shù)研究.pdf
- WEB輿情觀點(diǎn)挖掘關(guān)鍵技術(shù)研究.pdf
- Deep Web數(shù)據(jù)抽取關(guān)鍵技術(shù)研究.pdf
- Web信息檢索的關(guān)鍵技術(shù)研究.pdf
- Web應(yīng)用漏洞檢測關(guān)鍵技術(shù)研究.pdf
- Web服務(wù)組合關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論