一種基于個人化匿名的多敏感屬性隱私保護(hù)算法_第1頁
一種基于個人化匿名的多敏感屬性隱私保護(hù)算法_第2頁
一種基于個人化匿名的多敏感屬性隱私保護(hù)算法_第3頁
一種基于個人化匿名的多敏感屬性隱私保護(hù)算法_第4頁
一種基于個人化匿名的多敏感屬性隱私保護(hù)算法_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、 分類號: 密級: u d c : 編號: 工學(xué)碩士學(xué)位論文 一種基于個人化匿名的多敏感屬性隱私保護(hù)算法 工學(xué)碩士學(xué)位論文一種基于個人化匿名的多敏感屬性隱私保護(hù)算法classified index: u.d.c:a dissertation for the degree of m. enga method of personalized anonymization for multidimensional privacies preservation哈爾濱工程大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:本論文的所有工作,是在導(dǎo)師的指導(dǎo)下,由作者本人獨(dú)立完成的。有關(guān)觀點(diǎn)、方法、數(shù)據(jù)和文獻(xiàn)的引用已在文中指

2、出,并與參考文獻(xiàn)相對應(yīng)。除文中已注明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)公開發(fā)表的作品成果。對本文的研究做出重要貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。 作者(簽字): 日期: 年 月 日哈爾濱工程大學(xué)學(xué)位論文授權(quán)使用聲明本人完全了解學(xué)校保護(hù)知識產(chǎn)權(quán)的有關(guān)規(guī)定,即研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)屬于哈爾濱工程大學(xué)。哈爾濱工程大學(xué)有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件。本人允許哈爾濱工程大學(xué)將論文的部分或全部內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文,可以公布論文的全部內(nèi)容。同時本人保

3、證畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫的論文一律注明作者第一署名單位為哈爾濱工程大學(xué)。涉密學(xué)位論文待解密后適用本聲明。本論文(在授予學(xué)位后即可 在授予學(xué)位12個月后 解密后)由哈爾濱工程大學(xué)送交有關(guān)部門進(jìn)行保存、匯編等。作者(簽字): 導(dǎo)師(簽字):日期: 年 月 日 年 月 日 一種基于個人化匿名的多敏感屬性隱私保護(hù)算法摘 要由于傳統(tǒng)的敏感數(shù)據(jù)方法主要針對單一敏感屬性的數(shù)據(jù),然而很多現(xiàn)實(shí)應(yīng)用中,發(fā)布的數(shù)據(jù)往往涉及到多個敏感屬性。目前多敏感屬性的數(shù)據(jù)發(fā)布方法成為重要的研究方向,但由于不同個去掉,不通順!人對隱私保護(hù)的要求程度不同,在統(tǒng)一匿名概括過程中傳統(tǒng)的匿名算法導(dǎo)致數(shù)據(jù)的過分保護(hù)和保護(hù)不足。因此

4、,論文提出一種基于個人匿名化的多敏感屬性隱私保護(hù)算法改進(jìn)上述缺點(diǎn)。 這一段只介紹論文研究的意義論文首先分析數(shù)據(jù)庫隱私保護(hù)現(xiàn)有的主要技術(shù),研究現(xiàn)有多維敏感屬性數(shù)據(jù)發(fā)布時隱私保護(hù)技術(shù)的主要特點(diǎn),針對由單維敏感屬性表都滿足匿名條件合并多維敏感屬性表產(chǎn)生大量冗余信息的問題,論文提出一種多維敏感屬性的隱私保護(hù)方法,采用基于最小信息損失的概括策略來改進(jìn)匿名模型,然后將概括問題轉(zhuǎn)化為帶特定約束的聚類問題,改進(jìn)傳統(tǒng)笛卡爾積算法應(yīng)用在合并多維敏感屬性表時造成的信息損失。其次由于多維敏感屬性數(shù)據(jù)發(fā)布技術(shù)在匿名化過程中沒有考慮單一個體對應(yīng)多條記錄的情況,導(dǎo)致了同一個人多個敏感屬性之間關(guān)聯(lián)信息丟失的問題,本文提出一種

5、基于身份保持的多維敏感屬性匿名算法,采用有損連接方法并結(jié)合(k,l)-匿名模型的數(shù)據(jù)發(fā)布技術(shù),避免單一個體對應(yīng)多個記錄情況在匿名中的過度泛化問題。最后論文在基于個人匿名要求的多敏感屬性數(shù)據(jù)發(fā)布這一應(yīng)用場景下,通過對個人匿名相關(guān)隱私技術(shù)發(fā)展趨勢的分析和研究后,綜合考慮數(shù)據(jù)安全性和信息有效性兩個特點(diǎn),采用更為靈活的執(zhí)行策略即動態(tài)語義樹控制技術(shù),提出一種能夠解決關(guān)系數(shù)據(jù)庫中多維敏感屬性發(fā)布數(shù)據(jù)時隱私信息泄露的模型,本文提出此模型的形式化描述去掉!重復(fù)了!并給出相應(yīng)的算法。本文利用仿真實(shí)驗(yàn)結(jié)合matlab進(jìn)行數(shù)據(jù)處理,詳細(xì)敘述所提出的多維敏感屬性方法在信息冗余度和有損連接及個人匿名化要求的處理結(jié)果。通

6、過曲線圖對實(shí)驗(yàn)數(shù)據(jù)及其處理結(jié)果進(jìn)行綜合的分析與比較,說明本文提出的方法在克服冗余信息缺點(diǎn)同時能夠更好地保護(hù)隱私數(shù)據(jù)集的準(zhǔn)確性。通過仿真實(shí)驗(yàn)結(jié)果驗(yàn)證本文提出的方法可以滿足每個人隱私要求的最小量概括,最大程度地保留了原始數(shù)據(jù)中信息,從而達(dá)到提高挖掘結(jié)果準(zhǔn)確性的效果。關(guān)鍵字: 多維敏感屬性;信息損失度摘要中無該詞!;身份保持;個人化匿名摘要中無該詞??;語義分類樹摘要中無該詞!一種基于個人化匿名的多敏感屬性隱私保護(hù)算法abstractthe traditional ways of sensitive data in a single sensitive property data, but a lot

7、 of practical applications of the data are often involve multiple sensitive property.at present, many sensitive property data on the way an important research direction, but because of personal privacy protection on different requirements and level, the reunification process of anonymous review of t

8、he anonymous data are the protection and conservation. therefore, the thesis put forward a based on personal anonymous the more sensitive property privacy algorithms to improve the above shortcomings.thesis analyses the first privacy existing major technology, research, the existing multidimensional

9、 sensitive property data privacy protection technology issued by the chief trait in response to the property table single anonymous are to meet the conditions for multidimensional sensitive property table of the redundant information, the thesis put forward a multidimensional sensitive property priv

10、acy protection technology, information based on the loss of the overall strategy to improve anonymous model, and then will bring up matter for the specific constraints of the gathering problem .in the paper, proposed based on the identity of the multidimensional sensitive property, it will connect a

11、nonymously algorithm and integrated approach (k, l)-anonymous data dissemination of a model technical and avoid a single individual corresponding records in a condition of anonymity problems. the generalization of the anonymous article is based on individual requirements of the more sensitive proper

12、ty data dissemination of the application of the scene by an anonymous related to individual privacy technique development trend analysis and research, comprehensive consideration information and data security, therefore, adopt a more flexible policy in the dynamic semantic the control technology, wh

13、ich can be solved in a relational database multidimensional sensitive property publishing data privacy information disclosure of the model, this proposed model detailedly this is the algorithm.the experiments with using matlab emulation for data processing, a detailed account of a multidimensional s

14、ensitive property method in the information of redundancy and will connect anonymously, and the required processing. the result by about the data and the results of analysis and synthesis is that the proposed method overcome the shortcoming of redundancy information and can better protect personal d

15、ata sets for accuracy. the simulations validate the results of this method can meet everyone privacy for the minimum amount of generalizations, the maximum retain the original data in information, which to improve the accuracy of results.keywords: multidimensional sensitive attributes; loss of infor

16、mation; remain anonymous; personalized anonymity; semantic categories tree目 錄第1章 緒論11.1 論文的背景與意義11.2 國內(nèi)外研究現(xiàn)狀21.3 研究內(nèi)容和工作41.4 論文組織結(jié)構(gòu)5第2章 相關(guān)理論與技術(shù)72.1 隱私保護(hù)概述72.2 匿名策略82.2.1 k-匿名策略102.2.2 l-多樣性匿名策略122.2.3面向應(yīng)用的匿名策略132.3 信息損失度量142.4 單維敏感信息損失度最小概括算法162.5 多敏感屬性的隱私保護(hù)技術(shù)162.6 本章小結(jié)17第3章 基于有損連接的隱私保護(hù)算法193.1 問題的提出

17、193.2 基于身份保持的多維敏感屬性匿名模型203.3 匿名方法213.3.1 單維敏感屬性概括方法213.3.2 多維敏感屬性概括方法243.3.3 多維敏感屬性概括算法253.4 有損連接方法263.5 本章小結(jié)29第4章 基于個人匿名的隱私保護(hù)算法304.1 個性化匿名304.2 問題的提出314.3 多敏感屬性語義分類樹324.3.1 單維分類樹324.3.2 多敏感屬性語義分類樹324.4 基于個人化匿名的多敏感屬性隱私保護(hù)算法334.5 本章小結(jié)35第5章 實(shí)驗(yàn)仿真和結(jié)果分析365.1 實(shí)驗(yàn)環(huán)境及相關(guān)說明365.2 多維敏感屬性算法的分析375.2.1 多敏感屬性發(fā)布方法的對比3

18、75.2.2 不同約束條件下多維敏感方法的有效性分析385.3 有損連接方法的多維敏感屬性方法的分析385.4 個人匿名多維敏感屬性方法的分析395.5 本章小結(jié)40結(jié)論42參考文獻(xiàn)44攻讀碩士學(xué)位期間發(fā)表的論文和取得的科研成果47致謝48第1章 緒論第1章 緒論右邊距不對!1.1 論文的背景與意義數(shù)據(jù)挖掘作為一種研究從海量數(shù)據(jù)中自動提取出未知模式的新興技術(shù),在短短十幾年內(nèi)取得了非??焖俚陌l(fā)展,但是也引發(fā)出一系列問題,其中最常見就是個人隱私信息的泄露。如果針對個人的收入水平、消費(fèi)習(xí)慣、婚姻狀況和病歷記錄等信息的分析,可以推測到商業(yè)部門和醫(yī)療機(jī)構(gòu)的發(fā)展趨勢??墒怯捎谶@些數(shù)據(jù)發(fā)布后和不同機(jī)構(gòu)的其他

19、數(shù)據(jù)源所提供數(shù)據(jù)進(jìn)行鏈接處理,這樣就形成了可以抽取敏感信息的渠道,因此給個人隱私帶來了一定的威脅從而造成隱私泄露。綜上所述因此,在數(shù)據(jù)挖掘過程中如何更好地解決數(shù)據(jù)的隱私保護(hù)問題,怎樣對發(fā)布的數(shù)據(jù)進(jìn)行處理以保證其安全性,這方面的研究已經(jīng)開始成為數(shù)據(jù)庫安全的一個研究熱點(diǎn)和重要方向。隱私保護(hù)技術(shù)要求在保護(hù)數(shù)據(jù)隱私的同時不影響發(fā)布數(shù)據(jù)的應(yīng)用。隱私保護(hù)數(shù)據(jù)挖掘的出發(fā)點(diǎn)是通過非精確的原始信息來抽取出較為準(zhǔn)確的模式與規(guī)則。基于隱私的數(shù)據(jù)挖掘是從原始數(shù)據(jù)記錄的非準(zhǔn)確性與數(shù)據(jù)挖掘結(jié)果的精確性之間尋求一個平衡。隨著數(shù)據(jù)挖掘方法和數(shù)據(jù)發(fā)布結(jié)果等數(shù)據(jù)庫應(yīng)用的出現(xiàn)和發(fā)展,當(dāng)前面臨的重大挑戰(zhàn)是如何成功地保護(hù)隱私數(shù)據(jù)和防止

20、敏感信息泄露,如個人的婚姻狀況、顧客的喜好、患者的疾病史和信用卡記錄等敏感的數(shù)據(jù)。目前基于個人匿名的k-匿名概括方法在提高個人隱私保護(hù)程度上達(dá)到了更高的效率,該方法是基于個人化匿名的觀點(diǎn),個人可以通過不同分類樹中的節(jié)點(diǎn)指定自己隱私的不同保護(hù)程度。從而,在滿足每個人隱私要求的最小量概括的條件下,實(shí)現(xiàn)在最大程度上保留原始數(shù)據(jù)中的信息。但是該方法在數(shù)據(jù)挖掘時仍然存在一些缺點(diǎn),為了提高對個人隱私數(shù)據(jù)的保護(hù)程度和挖掘結(jié)果的準(zhǔn)確性,本論文提出了一種更為有效的數(shù)據(jù)發(fā)布方法。在數(shù)據(jù)挖掘領(lǐng)域中,隱私一般被劃分為兩類:一類隱私是原始數(shù)據(jù)本身所具有的。由于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是在沒有加密過的原始數(shù)據(jù)中進(jìn)行處理的,也就

21、是說只有將包含個人或企業(yè)隱私的原始數(shù)據(jù)不經(jīng)改動來交給數(shù)據(jù)挖掘者才會挖掘出有用的知識和規(guī)則,如個人的年齡、家庭電話、身份證號、財產(chǎn)狀況和信用等級等信息,如果這些信息一旦泄露的話,很有可能會對個人的生活產(chǎn)生許多不良的影響。保護(hù)個人信息,就是在數(shù)據(jù)挖掘過程中不能泄漏個人的信息數(shù)據(jù),但是可以通過直接或間接的方法確定用戶的特征信息。另一類隱私是在原始數(shù)據(jù)中所隱含的知識,即保護(hù)數(shù)據(jù)產(chǎn)生關(guān)聯(lián)和模式,防止數(shù)據(jù)挖掘中部分敏感模式的產(chǎn)生和泄漏。如某大公司常來往的優(yōu)質(zhì)客戶的行為特征等規(guī)則,如果這些知識被一些別有用心的人非法獲得到,勢必會對企業(yè)的核心競爭力造成嚴(yán)重的影響。隱私保護(hù)數(shù)據(jù)挖掘的目標(biāo)是通過一種數(shù)據(jù)集變換的方

22、法,通過這種方法重復(fù)!使得敏感數(shù)據(jù)和其產(chǎn)生的規(guī)則在進(jìn)行數(shù)據(jù)挖掘的過程中不易被發(fā)現(xiàn)。但是在數(shù)據(jù)挖掘過程中這些敏感信息往往存在泄漏的情況,尤其是當(dāng)多個不同數(shù)據(jù)源合作挖掘時,各數(shù)據(jù)源間的信息泄漏問題不準(zhǔn)確,應(yīng)該是信息關(guān)聯(lián)之后泄漏隱私。同時,挖掘出的結(jié)果很可能會導(dǎo)致原始敏感數(shù)據(jù)的泄露,如:個人的隱私信息、企業(yè)的客戶資料、財務(wù)情況和產(chǎn)品銷售策略等商業(yè)機(jī)密。因此,需要通過研究新的方法來確保數(shù)據(jù)挖掘中的隱私數(shù)據(jù)及其產(chǎn)生的規(guī)則不會被泄露認(rèn)真檢查錯別字!。保護(hù)好數(shù)據(jù)的隱私,一直是隱私保護(hù)數(shù)據(jù)挖掘方法的最基本要求。但發(fā)布數(shù)據(jù)信息的最終目標(biāo)是要通過這些挖掘方法來獲取真實(shí)可用的知識與規(guī)則。因此,在保證隱私受到合理保護(hù)

23、的前提下,所采取的方法一定要求發(fā)布的數(shù)據(jù)能夠得到盡量準(zhǔn)確的挖掘結(jié)果。從宏觀上分析,數(shù)據(jù)的隱私性和準(zhǔn)隱私泄漏確性似乎是一對矛盾,提高隱私性勢必造成準(zhǔn)確性的下降;而要保證挖掘結(jié)果準(zhǔn)確性的提高就必定要以犧牲一定的隱私性為代價。綜上所述,實(shí)現(xiàn)隱私數(shù)據(jù)的合理化保護(hù)和基于統(tǒng)計抽取數(shù)據(jù)的模式發(fā)現(xiàn)兩者兼顧,正是新一代隱私保護(hù)數(shù)據(jù)挖掘方法問題研究的出發(fā)點(diǎn)和最終目標(biāo)。1.2 國內(nèi)外研究現(xiàn)狀如何降低發(fā)布數(shù)據(jù)中隱私信息的泄露程度作為隱私保護(hù)技術(shù)研究的核心問題,近年來許多專家提出了不同的匿名策略限制數(shù)據(jù)發(fā)布的信息來達(dá)到這一目標(biāo)。發(fā)布數(shù)據(jù)信息的最終目的是要通過這些挖掘方法來獲取真實(shí)可用的知識與規(guī)則,所以,針對更好的概括方

24、法來減少數(shù)據(jù)損失保證挖掘結(jié)果的準(zhǔn)確性的研究,逐漸成為隱私保護(hù)技術(shù)領(lǐng)域的重點(diǎn)。無論是從低層數(shù)據(jù)概括策略的改進(jìn)還是考慮高層數(shù)據(jù)挖掘方面的優(yōu)化,都一直是發(fā)布隱私數(shù)據(jù)的基本原則,保護(hù)好個人數(shù)據(jù)的隱私,一直是隱私保護(hù)數(shù)據(jù)挖掘方法的最基本要求,根據(jù)個人匿名要求靈活地改變概括策略解決隱私信息泄露的問題也是這一領(lǐng)域的研究發(fā)展方向之一。因此,國內(nèi)外的知名學(xué)者在研究隱私保護(hù)技術(shù)時,根據(jù)上述原則進(jìn)行不同的改進(jìn)和優(yōu)化以完成不同背景下的隱私保護(hù)目標(biāo)。1997年,美國卡基梅隆大學(xué)數(shù)據(jù)挖掘領(lǐng)域的兩個專家samarati和sweeney博士針對公共數(shù)據(jù)庫與微數(shù)據(jù)集發(fā)布方法的研究,首次提出了基于匿名策略的隱私保護(hù)技術(shù),并于20

25、02年命名其為k-匿名算法1。美國普度大學(xué)在2004年針對關(guān)系數(shù)據(jù)庫特點(diǎn)的研究提出了隱私保護(hù)訪問控制技術(shù)的方法,于2005年公布了作為下一代數(shù)據(jù)庫的關(guān)鍵技術(shù),隱私數(shù)據(jù)庫的實(shí)現(xiàn)需要研究不同背景的安全技術(shù)2-3。2006年,machanavajjhala等人對k-匿名模型進(jìn)行了深入的研究和分析,并根據(jù)其特點(diǎn)提出了兩種相關(guān)的攻擊技術(shù),分別是一致性攻擊和背景知識攻擊,針對上述兩種攻擊,作者給出了通過提高匿名組中敏感屬性多樣性的方法(l-diversity寫法全文應(yīng)一致!下一頁與這一頁不同!全文檢查!規(guī)范:外文字母的正、斜體用法按照gb31003102-1993(名稱請見附錄a)及gb7159-87 電

26、氣技術(shù)中的文字符號設(shè)計通則的規(guī)定使用,即物理量符號、物理常量、變量符號用斜體,計量單位等符號均用正體。sinx、cosx等三角函數(shù)應(yīng)用正體。)來降低隱私泄露4。2007 ,venkatasubramanian提出了3 種最優(yōu)泛化模式,其中指出l-多樣性算法的不足,提出了t-closeness 框架,該方法要求在每個不同等價類中敏感值的分布要接近于其在原始數(shù)據(jù)表中的分布5。2009年raymond chi-wing wong等人提出了一種隱私數(shù)據(jù)的匿名發(fā)布方法,通過分析鏈接攻擊的情況后改進(jìn)匿名模型6。2010年ali inan等人通過多方安全計算方法,在考慮到一些個人隱私前提下,對數(shù)據(jù)庫中數(shù)據(jù)的

27、隱私方面進(jìn)行保護(hù)7。隨著國內(nèi)數(shù)據(jù)隱私保護(hù)技術(shù)方向的發(fā)展,我國的許多專家已開始關(guān)注和研究。2003年北京科技大學(xué)信息管理學(xué)專家梅紹祖教授針對網(wǎng)絡(luò)隱私權(quán)保護(hù)的特點(diǎn),首先提出了個人信息收集最小化與收集的結(jié)果之間應(yīng)該滿足不可傳遞性的要求8。2004年北京大學(xué)在數(shù)據(jù)庫隱私保護(hù)層,結(jié)合國家自然科學(xué)基金課題 “面向隱私保護(hù)的數(shù)據(jù)挖掘方法研究”對隱私保護(hù)數(shù)據(jù)挖掘進(jìn)行了研究。2005年,劉向宇、楊曉春等人提出了classfly算法,并于2006年提出了滿足多k-匿名約束策略的classfly+算法,兩個算法classfly和classfly+都考慮概括過濾的方法,即首先把發(fā)布數(shù)據(jù)在有關(guān)準(zhǔn)標(biāo)識符上的投影表中可以滿

28、足k-匿名約束條件的記錄過濾掉,然后將剩余元組存在不同屬性值個數(shù)最多的屬性進(jìn)行概括,如過仍存在滿足k-匿名約束的元組還需要將其過濾出去,這樣反復(fù)執(zhí)行上述的概括過程與過濾操作,一直到發(fā)布表中元組不滿足k-匿名約束條件的個數(shù)小于k個為止,將這些不滿足k-匿名約束條件的元組隱匿9。并于2007年根據(jù)多約束匿名條件和k-匿名化算法的特點(diǎn),提出三種多約束k-匿名化算法:post-classfly、nm-classfly和ftb-classfly10。2006年清華大學(xué)張國強(qiáng)博士提出了改進(jìn)后可以抵抗推演攻擊的(k,l)-匿名模型,此模型針對敏感信息的敏感程度不同,首先指定每個元組的匿名程度和敏感信息的多樣

29、化程度,然后采用每個元組的(k,l)約束條件進(jìn)行匿名化處理,最后實(shí)現(xiàn)抵抗推演攻擊的目標(biāo)11。2008年,楊曉春、王雅哲、王斌等人首次對多敏感屬性數(shù)據(jù)發(fā)布問題進(jìn)行詳細(xì)研究,繼承了基于有損連接對隱私數(shù)據(jù)進(jìn)行保護(hù)的思想,提出了針對多敏感屬性隱私數(shù)據(jù)發(fā)布的多維桶分組技術(shù)12。宋金玲,黃立明等人給出了準(zhǔn)標(biāo)識符的通用求解算法13,分析了不同函數(shù)依賴的情況來找出正確的準(zhǔn)標(biāo)識。華東理工大學(xué)韓建民等人綜述了微聚集算法的基本思想、相關(guān)技術(shù)和當(dāng)前動態(tài),對現(xiàn)有的微聚集算法進(jìn)行了分類分析,并總結(jié)了微聚集算法的評估方法,最后對微聚集算法的研究難點(diǎn)及未來的發(fā)展趨勢作了探討14。清華大學(xué)信息安全重點(diǎn)實(shí)現(xiàn)把匿名發(fā)布于個性化匿名

30、要求結(jié)合在一起,提出了一種基于個性化匿名的(a,k)-匿名策略,引入分類樹的思想實(shí)現(xiàn)數(shù)據(jù)發(fā)布中個體對私人隱私的保護(hù)要求15。2009年,李太勇、唐常杰等人提出一種通過兩次聚類實(shí)現(xiàn)k-匿名的隱私保護(hù)方法16。給出了影響矩陣的概念,用來描述準(zhǔn)標(biāo)識符對敏感屬性的影響,研究了影響矩陣聚類技術(shù),對敏感屬性影響相近的元組進(jìn)行聚類,實(shí)現(xiàn)k-匿名效果。王茜、曾子平提出了一種(p,a)-sensitive k-匿名模型,將敏感屬性根據(jù)敏感度進(jìn)行分組,然后給各分組設(shè)置不同的約束,并給出了(p,a)-sensitive k-匿名算法,該方法可以明顯地減少隱私泄露,增強(qiáng)了數(shù)據(jù)發(fā)布的安全性17。同年,王茜、屈盛知等人對

31、k-匿名模型進(jìn)行了擴(kuò)展,提出一種新的基于敏感屬性值泄露個數(shù)期望的匿名模型18。香港大學(xué)的陳華明等人通過對多敏感屬性不同維數(shù)的權(quán)重不同算法來完成數(shù)據(jù)的隱私保護(hù)19。祁瑞麗、王可、郭學(xué)濤等人首先將多敏感屬性隱私保護(hù)問題轉(zhuǎn)化為多敏感屬性l-多樣性問題,然后給出了多敏感屬性樹構(gòu)造方法及最大葉子子樹優(yōu)先策略,在此基礎(chǔ)上提出了一個多敏感屬性保護(hù)算法20。劉玉煲、黃志蘭、傅慰慈針對已有方法信息損失程度高、聚集查詢精度低的不足,在(alpha,k)隱私保護(hù)模型基礎(chǔ)上,利用關(guān)系數(shù)據(jù)庫理論的有損分解思想,提出了一種改進(jìn)的數(shù)據(jù)隱私保護(hù)方法21。復(fù)旦大學(xué)周水庚,李豐等人中對隱私保護(hù)領(lǐng)域已有研究成果進(jìn)行了總結(jié),對各類隱

32、私保護(hù)技術(shù)的基本原理、特點(diǎn)進(jìn)行了闡述,在對已有技術(shù)深入對比分析的基礎(chǔ)上,指出了隱私保護(hù)技術(shù)的未來發(fā)展方向22??偟膩碚f,我國目前關(guān)于隱私保護(hù)技術(shù)的研究還是處于起步階段,未來具有非常廣闊的發(fā)展空間。1.3 研究內(nèi)容和工作由于傳統(tǒng)的敏感數(shù)據(jù)方法主要針對單一敏感屬性的數(shù)據(jù),然而很多現(xiàn)實(shí)應(yīng)用中,發(fā)布的數(shù)據(jù)往往涉及到多個敏感屬性。論文首先分析數(shù)據(jù)庫隱私現(xiàn)有的主要技術(shù),研究現(xiàn)有多維敏感屬性數(shù)據(jù)發(fā)布隱私保護(hù)技術(shù)的主要特點(diǎn),針對由單維敏感屬性表都滿足匿名條件合并多維敏感屬性表產(chǎn)生大量冗余信息的問題,論文提出一種多維敏感屬性的隱私保護(hù)技術(shù),通過改進(jìn)傳統(tǒng)笛卡爾積算法應(yīng)用在多維敏感屬性表中造成的信息損失,并歸納和總

33、結(jié)了現(xiàn)有隱私保護(hù)的核心技術(shù),包括量化信息泄露風(fēng)險度和信息損失度。論文根據(jù)匿名概括過程中需要解決的兩個關(guān)鍵問題:量化信息損失度和重編碼方法,采用基于最小信息損失的概括算法來改進(jìn)匿名模型。其次,現(xiàn)有的多維敏感屬性數(shù)據(jù)發(fā)布技術(shù)在匿名化過程中沒有考慮單一個體對應(yīng)多條記錄的情況,本文提出一種新的基于身份保持的多維敏感屬性匿名算法,結(jié)合有損連接方法并采用(k,l)-匿名模型的數(shù)據(jù)發(fā)布方法,深入分析該重編碼方法并證明其可以保持同一個人多個敏感屬性之間可能的關(guān)聯(lián)信息。同時,論文深入研究(k,l)-匿名模型和傳統(tǒng)匿名模型在基于多維敏感屬性數(shù)據(jù)發(fā)布過程中,存在的隱私信息泄露與鏈接攻擊等問題,通過改進(jìn)以上不足,避免

34、單一個體對應(yīng)多個記錄情況在匿名中的過度泛化問題。論文最后在基于個人匿名要求的多敏感屬性數(shù)據(jù)發(fā)布這一應(yīng)用場景下,由于不同個人對隱私保護(hù)的要求和級別不同,在統(tǒng)一匿名概括過程中傳統(tǒng)的匿名算法導(dǎo)致數(shù)據(jù)的過分保護(hù)和保護(hù)不足。論文擬通過對個人匿名相關(guān)隱私技術(shù)發(fā)展趨勢的分析和研究,綜合考慮數(shù)據(jù)安全性和信息有效性兩個特點(diǎn),采用更為靈活的執(zhí)行策略即動態(tài)語義樹控制技術(shù),提出一種能夠解決關(guān)系數(shù)據(jù)庫中多維敏感屬性數(shù)據(jù)發(fā)布個人隱私泄露風(fēng)險的方法,即基于個人匿名的多維敏感屬性方法。該方法在克服缺點(diǎn)同時更好地保護(hù)隱私的數(shù)據(jù)集,即滿足每個人隱私要求的最小量的概括,最大程度地保留了原始數(shù)據(jù)中信息,從而這是摘要的寫法,研究內(nèi)容應(yīng)

35、該是計劃分析什么、針對什么問題,擬研究什么,計劃達(dá)到什么目標(biāo)達(dá)到提高挖掘結(jié)果準(zhǔn)確性的效果。本文的主要工作在于:這是結(jié)論應(yīng)該說的,此處只敘述你計劃研究什么,要解決什么問題,達(dá)到什么目標(biāo)或效果?。?)針對多維敏感屬性匿名中的過度泛化和數(shù)據(jù)記錄冗余問題,提出一種新的基于信息損失度的多敏感屬性的概括方法。作為一種新的方法,通過單維敏感屬性滿足最小信息損失度的匿名原則,使多維敏感屬性表在合并時最大程度的限制記錄的冗余情況。減少由傳統(tǒng)發(fā)布方法所產(chǎn)生的冗余記錄,對發(fā)布記錄的數(shù)據(jù)發(fā)掘具有非常大的意義。(2)針對單一個體對應(yīng)多個記錄情況在匿名中的過度泛化問題,本文通過描述單一個體對應(yīng)多個記錄情況,多敏感屬性數(shù)據(jù)

36、在此模型要求的發(fā)布,討論原有技術(shù)在私泄露風(fēng)險和鏈接攻擊等情況出現(xiàn)的問題。針對上述問題,本文結(jié)合有損連接方法并采用(k,l)-匿名模型的數(shù)據(jù)發(fā)布方法,給出一種新的基于有損連接的多維敏感屬性隱私保護(hù)方法,發(fā)布數(shù)據(jù)通過新的重編碼方法可以保持同一個人多個敏感屬性之間可能的關(guān)聯(lián)信息,對多敏感屬性之間的研究更有實(shí)際意義,并且可以分析不同敏感屬性間的關(guān)聯(lián),能為下一步個人隱私保護(hù)匿名方法中語義樹的建立提供數(shù)據(jù)源。(3)針對多敏感屬性數(shù)據(jù)發(fā)布中個人動態(tài)地指定敏感信息,討論原有個人匿名應(yīng)用在單一敏感屬性方法中的缺陷,采用更為靈活的執(zhí)行策略即動態(tài)語義樹控制技術(shù),提出一種多維敏感屬性語義樹及新的概括算法。該算法在個人

37、隱私要求的情況下,尤其是在關(guān)系數(shù)據(jù)庫中對隱私保護(hù)的效率上具有更實(shí)際的應(yīng)用性。通過上述研究過程,本課題需要達(dá)到的預(yù)期目標(biāo)是:對多維敏感屬性數(shù)據(jù)發(fā)布的匿名策略有深入的了解。利用身份保持的方法結(jié)合多維敏感屬性的匿名策略來降低信息損失,通過此方法保留的信息及關(guān)聯(lián)的基礎(chǔ)上,與個體對私人隱私信息的動態(tài)要求結(jié)合,以解決每個人隱私的概括要求和保留原始數(shù)據(jù)中信息準(zhǔn)確性的問題。1.4 論文組織結(jié)構(gòu)在上述研究內(nèi)容的基礎(chǔ)上將本文分為五章。第1章為緒論,介紹本文的研究背景、課題研究的目的及意義。對數(shù)據(jù)隱私保護(hù)技術(shù)的研究現(xiàn)狀進(jìn)行闡述,提出目前存在的不足及需要解決的主要問題。給出了本文的研究思路和實(shí)現(xiàn)目標(biāo),并對全文布局進(jìn)行

38、交待。第2章主要從數(shù)據(jù)發(fā)布中面向多敏感屬性的隱私保護(hù)整體出發(fā),總結(jié)并分析現(xiàn)有的隱私保護(hù)技術(shù),包括多敏感屬性隱私數(shù)據(jù)發(fā)布問題、發(fā)布方法等。在這些理論的基礎(chǔ)上,清晰地了解多敏感屬性隱私保護(hù)的現(xiàn)狀。在本章的第二部分中,分析泛化處理過程中造成的信息損失,并量化的定義數(shù)據(jù)概括帶來的信息損失,最后將問題轉(zhuǎn)化為帶特定約束的聚類分組問題,文章提出不同以往單一敏感屬性匿名保護(hù)的方法,討論多敏感屬性隱私保護(hù)的技術(shù),并著重分析匿名信息損失的方法。第3章針對單一個體對應(yīng)多個記錄的情況下的多敏感屬性數(shù)據(jù)發(fā)布的情況,討論原有技術(shù)在此情況出現(xiàn)的問題,提出一種新的基于有損連接的隱私保護(hù)方法,并分析新方法概括后數(shù)據(jù)的信息損失情

39、況及由多敏感屬性關(guān)系推出新的關(guān)聯(lián)集合。第4章主要研究基于個人動態(tài)隱私要求的多敏感數(shù)據(jù)發(fā)布特點(diǎn),討論原有個人匿名應(yīng)用在單一敏感屬性情況的缺陷,提出一種多敏感屬性語義樹及新的概括算法,該算法在匿名化過程中針對個人不同的隱私需求,應(yīng)該制定個性化的隱私約束,能夠有效地保護(hù)個人的敏感隱私。第5章以具體的應(yīng)用仿真實(shí)例來具體描述本文提出的方法,并對數(shù)據(jù)的處理結(jié)果進(jìn)行綜合的分析驗(yàn)證方法的有效性與準(zhǔn)確性。43第2章 相關(guān)理論與技術(shù)第2章 相關(guān)理論與技術(shù)論文在上一章中首先介紹了有關(guān)本文研究的背景意義和國內(nèi)外的研究現(xiàn)狀,然后對本文的研究內(nèi)容和論文組織進(jìn)行了詳細(xì)的描述。本章首先對隱私保護(hù)技術(shù)的相關(guān)理論和技術(shù)作為重點(diǎn)介

40、紹,其次結(jié)合本文的應(yīng)用背景下討論傳統(tǒng)理論研究存在的不足,分析最小信息損失度的匿名策略克服匿名過程中數(shù)據(jù)被泛化的缺點(diǎn),最后結(jié)合上述理論提出多維敏感屬性的隱私保護(hù)技術(shù)叫“技術(shù)”太大啦!,并分析冗余信息出現(xiàn)的情況,證明該方法在發(fā)布數(shù)據(jù)信息的有效性。2.1 隱私保護(hù)概述個人信息是指可以直接或間接識別出自然人情況的數(shù)據(jù)資料,包括姓名、性別、身份證號、年齡、出生日期、健康和家庭住址等等。歐盟委員會在1992年的理事會數(shù)據(jù)保護(hù)條例的修改建議稿中明確規(guī)定:“個人數(shù)據(jù)是指包含一個可識別的自然人的任何信息,不單單局限于以可處理形式所存在的信息,它有關(guān)任何形式和任何種類的信息,強(qiáng)調(diào)只要這種信息是有關(guān)個人的,不論個人

41、是活著的或者是已經(jīng)死亡的,并且只要求這個或這些人是可以通過這些信息來識別的”。這些個人數(shù)據(jù)的內(nèi)容包括個人的基本自然狀況、有何生活經(jīng)歷及習(xí)慣、社會與政治背景和家庭基本情況等。個人隱私權(quán)是人的基本權(quán)利,是公民對其隱私加以保護(hù)和約束所特定的人格權(quán)。但是直到今天,隱私權(quán)任是處于一個發(fā)展中的概念,隱私權(quán)還不是一個能夠容易界定的概念。沃倫和布蘭戴斯將隱私權(quán)在隱私權(quán)一文中解釋為文獻(xiàn)引用?“隱私權(quán)作為個人在通常情況下決定自己的思想、情感和觀點(diǎn)在多大程度上與別人交流和溝通的權(quán)利,是個人對其私人領(lǐng)域的一種有限的控制狀態(tài),主要解釋為以下兩個方面,一方面是決定是否允許他人對其進(jìn)行多大程度的親密接觸(包括個人信息的接觸

42、)的決定;另一方面是他對自己私人事務(wù)的決定”。隱私權(quán)是指自然人在享有到私人生活安寧和私人信息受到法律保護(hù)的同時,不因被他人利用非法渠道進(jìn)行搜集、侵?jǐn)_、利用和公開的一種人格權(quán)。其主要內(nèi)容包括私人信息保密權(quán)、個人生活不受干擾的權(quán)利、個人通訊秘密權(quán)及個人隱私利用權(quán)等,另外還有學(xué)者認(rèn)為隱私權(quán)包括三方面:保密個人的隱私信息,保證個人生活安寧的權(quán)利和保護(hù)個人私事自由決定的權(quán)利。個人信息隱私權(quán)是指個人對與自己相關(guān)的能夠被識別的信息資料加以約束和利用以及排除非法利用和干擾的權(quán)利。在信息技術(shù)高速發(fā)展的今天,人們每天都在享受由此帶來的方便和快捷,但也因此使得個人信息的搜集變得越來越容易,信息技術(shù)不得不比喻為一把“

43、雙刃劍”,關(guān)于個人信息的使用不當(dāng)或予以公開都可能會給個人造成財產(chǎn)、精神上的損失。個人信息隱私權(quán)已經(jīng)從傳統(tǒng)的保證“個人生活安寧不受外界干擾”的消極權(quán)利逐漸演變?yōu)楝F(xiàn)代的具有更積極意義的“信息隱私權(quán)”,這樣隱私權(quán)更突出地表現(xiàn)為個人對私人信息和私人事務(wù)的控制力上。綜上所述,在個人隱私權(quán)的保護(hù)上不能只停留在針對所謂獨(dú)處權(quán)的保護(hù),而是應(yīng)該轉(zhuǎn)變?yōu)槌虮Wo(hù)個人信息的方向上發(fā)展。目前基于隱私保護(hù)不同需求的角度進(jìn)行分析,把隱私保護(hù)技術(shù)分為兩個重點(diǎn)研究領(lǐng)域:面向用戶的隱私保護(hù)技術(shù)與面向數(shù)據(jù)的隱私保護(hù)技術(shù)的研究。前者針對擁有者有隱私自治的原則進(jìn)行研究,通過不同的預(yù)定義隱私泄露參數(shù)來進(jìn)行隱私數(shù)據(jù)控制的,應(yīng)該制定個性化的

44、隱私約束?;谏鲜鼋榻B,面向用戶信息隱私保護(hù)的提出主要從三個方面分析:發(fā)布信息的隱匿程度、數(shù)據(jù)信息的非鏈接性和個體行為發(fā)布的非直觀性。在數(shù)據(jù)庫應(yīng)用方面,用戶隱私保護(hù)主要從如何保護(hù)由數(shù)據(jù)間關(guān)聯(lián)可以表達(dá)的敏感信息考慮,也就是說通過隱私保護(hù)方法來限制用戶敏感數(shù)據(jù)從而達(dá)到消除由抽取數(shù)據(jù)和鏈接信息時導(dǎo)致的隱私泄露等目標(biāo),主要是采用某些專門處理方法,或者使用在這些記錄上附屬特殊標(biāo)記達(dá)到上述目的。在數(shù)據(jù)發(fā)布過程中,面向數(shù)據(jù)的隱私保護(hù)技術(shù)是針對關(guān)系數(shù)據(jù)庫中的原始記錄與發(fā)布數(shù)據(jù)中個人隱私敏感信息泄露的問題,即保護(hù)好數(shù)據(jù)中明顯暴露出個人隱私的數(shù)據(jù),或者通過記錄間關(guān)聯(lián)的抽取發(fā)現(xiàn)隱私信息的數(shù)據(jù),對上述數(shù)據(jù)的保護(hù)所提出

45、的方法進(jìn)行研究。2.2 匿名策略隱私保護(hù)技術(shù)在信息安全領(lǐng)域作為一種新興的技術(shù),同傳統(tǒng)的訪問控制方法和加密技術(shù)有這本質(zhì)的區(qū)別。訪問控制技術(shù)與加密技術(shù)的關(guān)鍵思想是既保證數(shù)據(jù)的隱秘性得到保護(hù),又保證它不被非授權(quán)的第三者訪問或抽取。目前主要通過防止攻擊者通過非法手段來得到隱私數(shù)據(jù)(訪問控制)或者使得攻擊者獲得的數(shù)據(jù)因擾動后變得不再可用(加密技術(shù))來實(shí)現(xiàn)。非法的攻擊者則以獲得可用的隱秘數(shù)據(jù)為最終目標(biāo)。而隱私保護(hù)技術(shù)在數(shù)據(jù)的隱密性上并不能完全保障,一般來說隱私數(shù)據(jù)完全可以對外界公開的,對于任何人這些數(shù)據(jù)都是都可以隨時訪問的,該技術(shù)的關(guān)鍵是如何保護(hù)隱私數(shù)據(jù)與個人之間的對應(yīng)關(guān)系。因?yàn)閺姆欠ü舻慕嵌瓤?,攻擊?/p>

46、目標(biāo)主要是抽取出隱私數(shù)據(jù)與個人之間所產(chǎn)生的對應(yīng)關(guān)系。所以隱身保護(hù)技術(shù)的主要目的就是隱私數(shù)據(jù)在一定程度上可以被任何人得到,但是所發(fā)布的數(shù)據(jù)卻不能把對應(yīng)到某個特定的人身上。目前隱身保護(hù)技術(shù)在數(shù)據(jù)共享中的應(yīng)用主要體現(xiàn)在匿名保護(hù)問題中:由于被共享的數(shù)據(jù)集中任何數(shù)據(jù)記錄均與某一個體相存在對應(yīng)關(guān)系,所以在這些數(shù)據(jù)集中存在涉及個人隱私的敏感屬性值(如醫(yī)療記錄數(shù)據(jù)中的病人用藥情況和疾病診斷信息)。隱身保護(hù)技術(shù)研究的目的是實(shí)現(xiàn)對共享數(shù)據(jù)集包含個人隱私的敏感屬性值進(jìn)行匿名保護(hù),也就是說防止非法攻擊者將個人隱私的敏感屬性值與其對應(yīng)的特定個體關(guān)聯(lián)起來。傳統(tǒng)方法只是將原始數(shù)據(jù)記錄中可以唯一標(biāo)識出個人身份的屬性(即標(biāo)識符

47、,如姓名、身份證號碼、銀行卡號)進(jìn)行簡單的移出,可是這樣其實(shí)并不能完全保證個體隱私不被非法攻擊者獲得。文獻(xiàn)1中研究表明由于在數(shù)據(jù)記錄中存在一些屬性可與外部數(shù)據(jù)源鏈接而間接推斷出個體身份所對應(yīng)的記錄,這樣在共享僅移除唯一標(biāo)識個人身份屬性的原始數(shù)據(jù)集時,攻擊者如果通過非法渠道根據(jù)自己掌握的數(shù)據(jù)和發(fā)布數(shù)據(jù)進(jìn)行重新鏈接,就能夠推斷出所隱藏個體的身份信息,所以造成了個人隱私的泄漏。本文為了便于描述,通過以常見的關(guān)系數(shù)據(jù)庫為例,將數(shù)據(jù)表中的屬性具體分為以下三類23:(1)個人標(biāo)識符(individually identifying attribute大小寫寫法應(yīng)全文一致!看下頁標(biāo)注,全文檢查,簡稱id):

48、在數(shù)據(jù)表t中,在任何情況下都可以直接標(biāo)識出個人身份的關(guān)鍵屬性集,被稱為個人標(biāo)識符。如姓名、身份證號碼、銀行卡號、手機(jī)號碼和社會保險號碼等。(2)準(zhǔn)標(biāo)識符(quasi-identifier attribute,簡稱qi):在數(shù)據(jù)表t中,能夠被數(shù)據(jù)持有者發(fā)現(xiàn)并通過與外部信息相鏈接可以造成個人隱私信息泄露的全部關(guān)鍵屬性集,稱為準(zhǔn)標(biāo)識符。如出生日期、性別、年齡和住居地郵編等。(3)隱私敏感屬性(sensitive attribute,簡稱st):在數(shù)據(jù)表t中,一些涉及個人不愿被別人具體知道的屬性集,稱為隱私敏感屬性。如病歷情況、用藥記錄和年收入等。例如,在表2.1表2.1應(yīng)該在本段下的原始數(shù)據(jù)表中,年

49、齡,國籍,地區(qū)編碼的集合構(gòu)成準(zhǔn)標(biāo)識符qi,疾病為隱私敏感屬性,而在這個表里面沒有任何可以唯一標(biāo)識個體身份的屬性的標(biāo)識符,例如名字,身份證號碼或者手機(jī)號等。鏈接攻擊24就是通過準(zhǔn)標(biāo)識符同其他渠道獲得的信息進(jìn)行重新鏈接造成隱私泄露的情況。通過鏈接攻擊,攻擊者可以間接的發(fā)現(xiàn)與個體相關(guān)的敏感屬性值,從而導(dǎo)致個人隱私信息泄漏。文獻(xiàn)1中給出一個鏈接攻擊的例子:在馬薩諸塞州,研究者可以從社保委員會(gic)得到本州居民的健康信息表(medical list),其中含有地區(qū)編碼、年齡、社會保險號、健康狀況等一百個屬性,這樣當(dāng)研究者得到注冊選民信息表(voter list)時,可以很容易地將兩個表進(jìn)行鏈接,如圖

50、2.1所示,就可以在選民信息表中得到與健康信息表中出現(xiàn)同一人的身體健康狀況。很明顯由于在數(shù)據(jù)發(fā)布之后,這些數(shù)據(jù)可以隨時被任何數(shù)據(jù)接收者所使用,而此時數(shù)據(jù)提供者既不了解數(shù)據(jù)接收者所擁有的其他數(shù)據(jù)信息,也不能對數(shù)據(jù)接收者對發(fā)布數(shù)據(jù)的使用進(jìn)行控制監(jiān)督,因此在數(shù)據(jù)發(fā)布之前,一定要對數(shù)據(jù)表中一些關(guān)鍵的記錄進(jìn)行特殊處理,只有這樣才能保障數(shù)據(jù)所有者的個人隱私信息不被輕易泄漏。本章接下來就如何對數(shù)據(jù)表中的關(guān)鍵屬性值進(jìn)行處理的常見方法進(jìn)行描述。這句話去掉,沒有必要!且空白太大!圖2.1 鏈接攻擊示例在數(shù)據(jù)發(fā)布時,為了防止數(shù)據(jù)中準(zhǔn)標(biāo)識符被攻擊者通過鏈接攻擊所利用,目前匿名化成為主要的研究技術(shù),其核心是如何隱藏個人

51、與隱私信息之間的對應(yīng)關(guān)系。當(dāng)前已有多種匿名化策略2530和實(shí)現(xiàn)這些策略的匿名化技術(shù)(generalization methods)被學(xué)者提出,匿名化策略(generalization principle),即如何生成滿足何種類型的匿名要求等價組,其主要關(guān)心解決匿名化后數(shù)據(jù)的安全性問題。另外采用什么匿名策略來生成滿足要求的等價組,也是今后大家研究的重點(diǎn)方向,它是致力于解決發(fā)布后的數(shù)據(jù)可以滿足相應(yīng)匿名策略的具體方法,目前常用的方法主要有聚類與劃分、抽象與更新和交換,其中在匿名過程中如何通過盡可能的減少匿名損失來實(shí)現(xiàn)匿名化的方法也是今后研究熱點(diǎn),如圖2.2所示:句號!圖2.2 隱私保護(hù)研究模型示意圖

52、2.2.1 k-匿名策略通過匿名化技術(shù)把數(shù)據(jù)記錄生成若干等價組,可以使等價組內(nèi)每個記錄的qi屬性和隱私敏感屬性不會再有一一對應(yīng)關(guān)系,這樣就能夠保障個人隱私信息不會被泄漏。匿名策略的研究主要是用來解決生成什么樣的等價組,使得等價組內(nèi)每個記錄的隱私屬性值要滿足什么樣的條件才能保證數(shù)據(jù)隱私程度足夠安全。表2.1表號后空一個漢字 原始數(shù)據(jù)表id年齡國家地區(qū)編碼疾病t127美國14248艾滋病t228加拿大14207艾滋病t326美國14246艾滋病t425加拿大14249艾滋病t541中國13053肝炎t648日本13074肝炎t745印度13064心臟病t842印度13062心臟病t933美國142

53、42流感t1037加拿大14204流感t1136加拿大14205流感t1235美國14248消化不良表2.2 4-匿名化表id年齡國家地區(qū)編碼疾病t1<30美洲142*艾滋病t2<30美洲142*艾滋病t3<30美洲142*艾滋病t4<30美洲142*艾滋病t5>40亞洲130*肝炎t6>40亞洲130*肝炎t7>40亞洲130*心臟病t8>40亞洲130*心臟病t93*美洲142*流感t103*美洲142*流感t113*美洲142*流感t123*美洲142*消化不良定義2.1 提出k-匿名策略(k-anonymity)概念:這不是定義的寫法!為

54、了防止非法攻擊者進(jìn)行鏈接攻擊,samarati p和sweeney l提出了k-匿名(k-anonymity)的概念,它要求數(shù)據(jù)表經(jīng)過發(fā)布后的數(shù)據(jù)中存在一定數(shù)量的而且是不可區(qū)分的個體,這樣就使攻擊者在鏈接攻擊后仍不能判別出敏感屬性所對應(yīng)的具體個體,從而保證了個人隱私不被泄密的問題。對于原始數(shù)據(jù)表t,經(jīng)過匿名概括后處理得到等價組標(biāo)記為t,如果t滿足k-匿名(k-anonymity),當(dāng)且僅當(dāng)在t中任一等價組內(nèi)每一條數(shù)據(jù)記錄至少有k-1條與它相對應(yīng)的記錄。如果一個數(shù)據(jù)集中的每個等價組內(nèi)的數(shù)據(jù)記錄都滿足k-匿名條件,那么就稱該數(shù)據(jù)表是滿足k-匿名寫法要一致!全文檢查!模型的。按照k-匿名模型要求進(jìn)行

55、概括的發(fā)布數(shù)據(jù)中,對于每個元組記錄都至少存在有其他k-1個元組與其對應(yīng)的標(biāo)識符屬性取值上是相同的。如果滿足這一條件的話,即使攻擊者在利用鏈接攻擊時,也很難會將數(shù)據(jù)集內(nèi)的每個元組與某一具體個體關(guān)聯(lián)到一起。這種匿名方法可以有效防止鏈接攻擊,例如對表2.1的原始表可以經(jīng)過4-匿名化后得到滿足匿名條件的數(shù)據(jù),見表2.2表、圖都是先寫圖表引用見表2.2,然后顯示圖!表2.2應(yīng)該放到本段的后面!所示,在新的數(shù)據(jù)表中每一條記錄都有至少3條記錄在準(zhǔn)標(biāo)識符上具有相同的對應(yīng)關(guān)系,即使攻擊者通過非法渠道可以知道某條紀(jì)錄在表2.2中,但是他也不能確定是哪條唯一紀(jì)錄與它相對應(yīng)。因此像這樣滿足k-匿名模型的數(shù)據(jù),在一定程

56、度上是可以降低因鏈接攻擊所帶來隱私泄漏的風(fēng)險,不過這種匿名策略要保證完全防止隱私泄漏仍然是不可能的,例如當(dāng)同質(zhì)攻擊和背景知識攻擊對數(shù)據(jù)進(jìn)行非法抽取時,個人的隱私還是會有泄漏的可能。2.2.2 l-多樣性匿名策略基于背景知識攻擊或者同質(zhì)攻擊對數(shù)據(jù)記錄進(jìn)行非法抽取,如果敏感屬性值存在過于特殊的情況時,即敏感屬性st在每個集合元素上缺乏一定的多樣性,此時k-anonymity模型在安全隱患上存在較大的漏洞,針對k-匿名模型的不足,文獻(xiàn)4較早地提出l-多樣性匿名策略。定義2.2 l-多樣性模型(l-diversity):在數(shù)據(jù)表中如果一個等價組內(nèi)的敏感屬性集合存在至少l個不同表現(xiàn)較好的屬性,則稱該等價組是滿足l-多樣性策略的。在一個數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論