集值數(shù)據(jù)發(fā)布中多級敏感模型及隱私保護方法研究.pdf_第1頁
已閱讀1頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)技術的普及,電子商務、在線社會網(wǎng)絡、云計算等基于互聯(lián)網(wǎng)的應用也得到迅速發(fā)展,網(wǎng)絡上正在快速聚集多類型、海量的數(shù)據(jù)資源。正是這些海量數(shù)據(jù)為人類進行科學研究、商業(yè)規(guī)劃、經(jīng)濟分析、社會群體分析和決策等研究提供數(shù)據(jù)支撐,數(shù)據(jù)的利用體現(xiàn)出巨大的科學、經(jīng)濟和政治價值。在數(shù)據(jù)共享或利益的驅動下,數(shù)據(jù)的公開發(fā)布成為一個關鍵性需求,然而這些數(shù)據(jù)中往往包含個體的隱私信息,直接發(fā)布會造成隱私泄露,因此隱私保護是數(shù)據(jù)共享的基礎。
  集值數(shù)據(jù)作

2、為數(shù)據(jù)發(fā)布中一種重要的數(shù)據(jù)類型,它包含電子商務數(shù)據(jù)、患者醫(yī)療數(shù)據(jù)、用戶上網(wǎng)點擊流等。這類數(shù)據(jù)具有稀疏高維,數(shù)量大等特點,沒有固定的準標識符,記錄中的敏感屬性存在多樣性。因此傳統(tǒng)的面向關系型數(shù)據(jù)的隱私保護方法并不適用子集值數(shù)據(jù)。面向集值數(shù)據(jù)的匿名化技術研究主要關注項目集的匿名,目前的研究有k-匿名,(h,k,p)匿名以及ρ-uncertainty等。k匿名方法通過分組泛化使得組內記錄完全相同,數(shù)據(jù)失真嚴重,且當組內記錄均包含相同敏感值時,

3、該方法無法抵御同質攻擊。而(h,k,p)匿名和ρ-uncertainty方法沒有考慮集值數(shù)據(jù)中敏感項的敏感程度與隱私保護程度對應關系而采用統(tǒng)一的隱私保護方法,這會導致部分數(shù)據(jù)由于達不到匿名要求而被過分抑制,降低了數(shù)據(jù)的可用性。
  本文針對上述存在的問題展開一系列研究,首先對集值數(shù)據(jù)的隱私保護問題進行了深入的分析,然后詳細討論了現(xiàn)有隱私模型存在的缺陷,并給出具體解決方案。最后為了防止身份和敏感屬性泄露,提出了新的隱私保護模型并設計

4、了相應的實現(xiàn)算法,更好地平衡了數(shù)據(jù)的可用性和隱私保護強度。
  本文的研究成果主要包含以下幾個方面:
  (1)首先對集值數(shù)據(jù)隱私保護的研究背景和現(xiàn)狀進行了分析,詳細介紹了集值數(shù)據(jù)km-匿名,k-匿名,(h,k,p)匿名以及ρ-uncertainty等方法,并指出這些匿名方法存在的缺陷。其中km-匿名方法假設攻擊者的背景知識是m,通過自頂向下泛化保證包含m個項目的記錄至少有k條,然而實際應用中攻擊者的背景知識是很難確定的。k

5、-匿名模型在此基礎上改進,假設攻擊者的背景知識是任意的,通過構造k條相同記錄使得攻擊者無法辨別其中任意一條,從而達到隱私保護的目的。但集值數(shù)據(jù)中很多記錄并不包含敏感信息,發(fā)布出去不會造成隱私泄露,采用k-匿名方法由于“過保護”會造成大量有用信息丟失,且該方法無法抵御同質攻擊。(h,k,p)匿名以及ρ-uncertainty方法的主要缺陷是未考慮不同敏感值之間敏感性的差異化。
  (2)根據(jù)集值數(shù)據(jù)的特點,本文提出為敏感性分級的方法

6、,該方法給所有敏感值指定敏感等級,并為每個敏感等級設置不同的隱私閾值。在此基礎上,設計了(p,k,ρ)隱私保護模型。在該模型中,假設攻擊者的背景知識只是部分非敏感信息p,對這部分信息的處理方法是采用聚類,使其滿足k匿名,同時為不同的敏感值指定敏感等級,然后根據(jù)敏感等級的不同等級逐條檢測是否有敏感項超過指定閾值,對超過閾值的敏感項進行抑制。(p,k,ρ)隱私保護模型結合k-匿名和ρ-uncertainty方法的思想,改進它們的不足,考慮敏

7、感項分布對數(shù)據(jù)敏感度的影響,一定程度上能更好的提高數(shù)據(jù)的效用性,同時該模型能很好的防止鏈接攻擊并降低敏感屬性泄露的風險。
  (3)基于以上隱私模型,本文設計了一種基于貪心策略的聚類更新(p,k,ρ)匿名算法,該算法按隱私限制集p的支持度進行排序,以信息損失作為度量標準,每次選擇支持度最大的p,從中選擇泛化信息損失最小的兩個項目進行聚類,直到所有p滿足k匿名。同時檢測是否有敏感關聯(lián)規(guī)則超過閾值ρ,對超過閾值的敏感項目進行抑制。最后

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論