重復(fù)記錄檢測綜述_第1頁
已閱讀1頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、書《現(xiàn)代圖書情報(bào)技術(shù)》版權(quán)所有,歡迎下載引用!請注明引用地址:相似重復(fù)記錄清理方法研究綜述[J],現(xiàn)代圖書情報(bào)技術(shù),2010(9):56-6656現(xiàn)代圖書情報(bào)技術(shù)相似重復(fù)記錄清理方法研究綜述葉煥倬吳迪(中南財(cái)經(jīng)政法大學(xué)信息與安全工程學(xué)院信息系武漢430073)【摘要】介紹相似重復(fù)數(shù)據(jù)清理的步驟、框架和衡量標(biāo)準(zhǔn)。重點(diǎn)對檢測和清除算法按照算法類型及相關(guān)改進(jìn)思路進(jìn)行分類綜述,給出算法的適用范圍和優(yōu)缺點(diǎn),概括現(xiàn)有的數(shù)據(jù)清理工具(如Merge/

2、Purge)。對相似重復(fù)記錄清理領(lǐng)域的研究問題進(jìn)行展望,將知識和語義的概念引入到數(shù)據(jù)清理框架中是未來重要的發(fā)展趨勢?!娟P(guān)鍵詞】相似重復(fù)記錄數(shù)據(jù)清洗檢測算法清除算法【分類號】G202TP3911ASurveyofApproximatelyDuplicateDataCleaningMethodYeHuanzhuoWuDi(DepartmentofInformation,SchoolofInformationandSafetyEngineer

3、ing,ZhongnanUniversityofEconomicsandLaw,Wuhan430073,China)【Abstract】Thispaperintroducesthesteps,frameworksandmetricsofapproximatelyduplicatedatacleaningThen,thedetectalgorithmsandtheeliminationalgorithmsaresurveyedessent

4、ially,accordingtotypeandtheirimprovementmethods,andthealgorithmsusagescopeandtheiradvantagesanddisadvantagesaregivenManydatacleaningtoolsarepresented,suchasMerge/PurgeFinaly,itdiscussesthefutureresearchtopicsindatacleani

5、ngandpointsoutthattheconceptofknowledgeandsemanticusedintheframeworkofdatacleaningwillbeanimportanttrend【Keywords】ApproximatelyduplicatedataDatacleaningDetectalgorithmEliminatealgorithm收稿日期:2010-07-12收修改稿日期:2010-08-18本文

6、系國家自然科學(xué)基金資助項(xiàng)目“持續(xù)審計(jì)中智能數(shù)據(jù)處理及其應(yīng)用框架研究”(項(xiàng)目編號:70972138)和湖北省教育廳人文社會科學(xué)基金項(xiàng)目“基于SOA和MAS的金融監(jiān)管信息系統(tǒng)總體框架研究”(項(xiàng)目編號:2009b080)的研究成果之一。1引言隨著信息技術(shù)的不斷發(fā)展和信息化建設(shè)的不斷深入,企事業(yè)單位、圖書館等在進(jìn)行信息系統(tǒng)集成和重構(gòu)時(shí),數(shù)據(jù)庫中積累了大量的臟數(shù)據(jù)。如何將臟數(shù)據(jù)有效轉(zhuǎn)化成高質(zhì)量的干凈數(shù)據(jù)是系統(tǒng)要解決的首要問題,這涉及到數(shù)據(jù)清理的技

7、術(shù)。數(shù)據(jù)清理(DataCleaning,DataCleansing或DataScrubbing)也稱為數(shù)據(jù)清洗,目的是檢測數(shù)據(jù)中存在的錯(cuò)誤和不一致,剔除或者改正它們,以提高數(shù)據(jù)的質(zhì)量[1]。臟數(shù)據(jù)按其不同的表現(xiàn)形式可具體概括為不完整數(shù)據(jù)、相似重復(fù)數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)三種類型[1,2]。其中多數(shù)據(jù)源合并造成的信息重復(fù)是最關(guān)鍵的問題,因此重復(fù)信息的檢測和清除成為一個(gè)研究的熱點(diǎn)[3,4]。2相似重復(fù)記錄清理概述21數(shù)據(jù)質(zhì)量問題的分類進(jìn)行數(shù)據(jù)清理的最

8、終目的是提高數(shù)據(jù)的質(zhì)量,數(shù)據(jù)質(zhì)量問題在微觀層面分為單數(shù)據(jù)源(Single-Source)和多情報(bào)分析與研究58現(xiàn)代圖書情報(bào)技術(shù)-Grams算法(N-GramAlgorithm)、對XML數(shù)據(jù)的匹配算法(MatchingAlgorithmforXML)等。31字段匹配算法字段匹配是用來確定兩個(gè)字段值是否表示同一個(gè)語義實(shí)體的句法上的可替換者,是記錄匹配的基礎(chǔ)?;镜淖侄纹ヅ渌惴ê瓦f歸的字段匹配算法是兩種最基礎(chǔ)的字段匹配算法?;镜淖侄纹ヅ渌?/p>

9、法利用兩個(gè)分詞串中順序匹配的分詞個(gè)數(shù)除以它們平均的所有的分詞個(gè)數(shù),以此來計(jì)算匹配度。如表1中兩個(gè)地址字段,在A中有k=6個(gè)單詞(Comput、Sci、University、California、San、Diego)與B中的單詞匹配,則匹配度為k/[(|A|+|B|)/2]=08,其中:|A|表示A中分詞的個(gè)數(shù),為8;|B|=7。遞歸的字段匹配算法使用典型文本字段的遞歸結(jié)構(gòu),基本的情況是如果A和B是相同的字符串或一個(gè)是另一個(gè)的縮寫,匹配

10、度就是10,否則是00。每一個(gè)A的子字符串與B的子字符串進(jìn)行匹配,記錄子字符串匹配得分最高的情形。A和B的匹配度計(jì)算如公式(2)所示。文獻(xiàn)[18]-[20]對這兩種算法思想進(jìn)行了詳細(xì)的描述,并用實(shí)驗(yàn)對它們的性能進(jìn)行了驗(yàn)證。match(A,B)=1|A|∑|A|i=1max|B|j=1match(Ai,Bj)(2)Smith和Waterman在1981年提出了著名的Smith-Waterman算法[21],這是一種動態(tài)編程的方法。引入間隙

11、或空位(Gap)以及罰值(Penalty)的概念,確定兩個(gè)字符串的匹配程度。文獻(xiàn)[19]介紹了一種將遞歸的字段匹配算法與Smith-Waterman算法相結(jié)合的改進(jìn)的Smith-Waterman算法(R-S-W),該算法既能識別拼寫錯(cuò)誤,又能識別子串的顛倒和縮寫。文獻(xiàn)[22]和[23]對Smith-Waterman算法進(jìn)行了改進(jìn),分別加入了擴(kuò)大的遞歸變量和并行處理的概念,極大地提高了運(yùn)行效率。文獻(xiàn)[24]將Smith-Waterman算

12、法與編輯距離(Levenshtein距離)結(jié)合來處理實(shí)際檢測問題,可以將檢測誤識別率從556%降低到348%,極大地提高了檢測準(zhǔn)確度。其中矩陣值范圍Sij定義的關(guān)系式如下所示:Sij=Si-1,j-1+1,ifA(i)=B(j)max(0,Si-1,j-1,Si,j-1-1,Si-1,j-1-1),otherwise(3)基于以上的算法都無法直接應(yīng)用在中文中,文獻(xiàn)[19]提出基于編輯距離的中文縮寫發(fā)現(xiàn)算法,文獻(xiàn)[20]給出了一個(gè)中文字段

13、匹配框架,描述了簡單中文字段匹配算法、遞歸的中文字段匹配算法、漢語同音字字段匹配算法三種中文字符型字段匹配算法。常用字段匹配算法的比較情況,如表2所示:表2常用字段匹配算法的比較算法時(shí)間復(fù)雜度優(yōu)點(diǎn)缺點(diǎn)基本的字段匹配算法[7,18-20]O(nlogn),n是兩個(gè)字段中原子字符串的數(shù)目的最大值算法直觀,處理速度較快不能處理不是前綴的縮寫情況,也不能應(yīng)用有關(guān)子字段排序的信息遞歸的字段匹配算法[7,18-20]O(n2),n是子串的個(gè)數(shù)算法簡

14、單直觀,能處理子串順序顛倒及縮寫等的匹配情況。時(shí)間復(fù)雜度較高,與具體的應(yīng)用領(lǐng)域密切相關(guān),匹配規(guī)則復(fù)雜,效率較低,此外還不能處理包含錯(cuò)誤的字符串Smith-Waterman算法[7,21]O(mn),m、n為參與比較的兩個(gè)字符串的長度不依賴領(lǐng)域知識,可以識別字符串縮寫、字符串拼寫錯(cuò)誤的情形不能處理子串順序顛倒的情況改進(jìn)的Smith-Waterman算法(R-S-W)[19]O(mnmax(m,n)),m、n為參與比較的兩個(gè)字符串的

15、長度既能識別拼寫錯(cuò)誤,又能識別子串的顛倒和縮寫無法直接應(yīng)用于中文中基于編輯距離的縮寫發(fā)現(xiàn)算法[19]—可以發(fā)現(xiàn)所有可能的縮寫模式為了提高準(zhǔn)確性需要在專業(yè)領(lǐng)域內(nèi)應(yīng)用啟發(fā)式規(guī)則或知識庫來選擇真正的縮寫形式32編輯距離算法編輯距離是用來計(jì)算從原串(s)轉(zhuǎn)換到目標(biāo)串(t)所需要的最少的插入、刪除和替換的數(shù)目,首先由俄國科學(xué)家Levenshtein在1965年提出,故又叫Levenshtein距離[25]。如圖1(a)顯示了“愛看期刊”和“喜歡看

16、雜志”之間的編輯距離為4。圖1編輯距離與改進(jìn)編輯距離的比較Monge等使用一種可調(diào)節(jié)的編輯距離計(jì)算方法來識別重復(fù)記錄[26]。文獻(xiàn)[27]提出一種應(yīng)用子串進(jìn)行相似度計(jì)量的編輯距離方法。文獻(xiàn)[28]在文獻(xiàn)[25]的理論基礎(chǔ)上提出一種基于NFA(NondeterministicFinitestateAutomation)的編輯距離方法。將匹配字符串看作是一個(gè)查找樹,通過建立一個(gè)查找樹索引,從而有效地提高了識別準(zhǔn)確率。以發(fā)現(xiàn)100萬條記錄中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論