集成數據中實體統(tǒng)一技術的研究.pdf_第1頁
已閱讀1頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、日益發(fā)展的網絡和飛速膨脹的信息給人們帶來了很多的便利,人們已經開始習慣于上網發(fā)布信息,查找資料,網上科研。各種各樣的應用系統(tǒng)和web服務出現了豐富的數據資源。為了能有效利用這些現有資源,必須進行數據集成或者數據挖掘。但是,由于數據源種類繁多,而且信息更新快,很多數據由于各種原因得不得及時更新形成了大量過時數據,加之各數據源的異構性,使得集成數據中含有大量的“臟數據”,即存在數據質量問題;主要表現為:拼寫問題、錄入錯誤、不合法值、空值、不

2、一致值、簡寫、同一實體的多種表示(重復)、不遵循引用完整性等。由于不同數據庫之間對數據表示的差異或者因為錄入錯誤等人為的原因導致集成后的數據庫中同一實體對應多條記錄,這些重復的記錄可能導致建立錯誤的數據挖掘模型,給后期數據的決策分析產生很大的影響。因此,判斷兩條記錄是否相似重復在數據集成、數據倉庫中很重要。實體統(tǒng)一(EntityResolution,ER)是用來判斷多條記錄是否指向相同的實體的問題,則上述的檢測這些重復數據即是進行實體統(tǒng)

3、一。
   實體統(tǒng)一是數據整合和數據清理的重要組成部分,通過消除冗余,為分析、挖掘提供高質量的數據支持。本文據現有研究存在的問題,提出了兩種實體統(tǒng)一的方法,一是提出基于權值分級的實體統(tǒng)一方法。根據分級法計算每個字段的權值,按照分級思想,選擇某關鍵字段或字段某些位將大數據集分割成許多不相交的小數據集,再在各個小數據集中進行實體統(tǒng)一,并引入多趟查找算法反復進行實體統(tǒng)一:二是提出了領域相關的整體式實體統(tǒng)一方法,綜合運用了屬性,上下文,

4、和關系這三種相似度度量方法,來處理相似度,然后放入本文提出的整體式聚類算法中進行實體統(tǒng)一。其主要貢獻:
   (1)在分析現有重復記錄檢測實體統(tǒng)一方法的基礎上,提出領域無關的基于權值分級的實體統(tǒng)一的算法。算法運用分級劃分思想,即把大的數據集分割成很多不相交的小數據集,再在小數據集中分別查找重復記錄,即采用了分而治之的思想,并進行多趟查找,實驗證明這種方法提高了實體統(tǒng)一檢測的精度和效率。
   (2)針對待統(tǒng)一實體本身之間

5、具有豐富關系的場景,比如文獻、社會關系網等領域,提出了一個領域相關的整體式實體統(tǒng)一的方法。該方法綜合運用了屬性,上下文,和關系這三種相似度度量方法,來處理相似度,并用本文提出的聚類的實體統(tǒng)一算法來處理,比較全面的準確的計算出相似度,對幾個數據集試驗評價表明該方法查準率高、效率好。
   (3)實體表象之間的緊密關聯(lián)暗示了潛在團體的存在。為了度量這個緊密關聯(lián)的程度,我們引入數據結構一擬團,定義了擬團相似度,用來衡量和計算關系相似度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論