在數(shù)據(jù)挖掘中保護(hù)隱私信息的研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩122頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘是當(dāng)今社會(huì)最為重要的知識(shí)發(fā)現(xiàn)工具,它在為人們揭示出數(shù)據(jù)中的隱藏規(guī)律并創(chuàng)造出財(cái)富的同時(shí),也對(duì)各類(lèi)數(shù)據(jù)有著大量的需求。隨著互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展,對(duì)所需數(shù)據(jù)的收集、交換和發(fā)布的過(guò)程正變得越來(lái)越便利。然而,這些豐富的數(shù)據(jù)資源中也同時(shí)包含著大量的個(gè)人隱私、商業(yè)情報(bào)和政府機(jī)密。更為令人擔(dān)憂的是,在這些數(shù)據(jù)的實(shí)際使用過(guò)程中,特別是在挖掘過(guò)程中,大量的信息卻能被不加限制的肆意利用,個(gè)人隱私和機(jī)密信息的泄露嚴(yán)重影響了人們的日常生活甚至社會(huì)的穩(wěn)定。于

2、是,數(shù)據(jù)挖掘過(guò)程中隨手可得的海量信息也就使得人們對(duì)濫用隱私的憂慮在挖掘工具的運(yùn)用上得到了集中的反映。 面對(duì)在數(shù)據(jù)挖掘中保護(hù)隱私的迫切要求,傳統(tǒng)的保護(hù)方法卻難以勝任,因?yàn)樗鼈冊(cè)诒Wo(hù)敏感信息的同時(shí),也妨礙了數(shù)據(jù)中知識(shí)的獲取。針對(duì)數(shù)據(jù)挖掘中的隱私保護(hù)和知識(shí)獲取這一對(duì)棘手的矛盾,我們研究和提出了一系列變換原始數(shù)據(jù)的過(guò)程、協(xié)議和方法,阻止了挖掘過(guò)程的參與者對(duì)隱私信息直接或間接的獲取,同時(shí)也使得挖掘算法能夠從轉(zhuǎn)換后的數(shù)據(jù)之中獲得原始數(shù)據(jù)包含

3、的信息和知識(shí)。大量仿真實(shí)驗(yàn)的測(cè)試結(jié)果,以及與現(xiàn)有方法的對(duì)比成績(jī)也驗(yàn)證了我們方法的有效性。由此,我們不但消除了傳統(tǒng)挖掘過(guò)程中存在的隱私泄露風(fēng)險(xiǎn),也使得挖掘過(guò)程仍然可以取得準(zhǔn)確的結(jié)果。我們將本文的創(chuàng)新點(diǎn)和主要工作概括如下: 1.提出了隱私信息由數(shù)據(jù)關(guān)聯(lián)構(gòu)成的本質(zhì),并同時(shí)提出了兩種保護(hù)隱私的策略。通過(guò)研究現(xiàn)有隱私保護(hù)模型中的不同數(shù)據(jù)對(duì)象,我們發(fā)現(xiàn)無(wú)論何種數(shù)據(jù)屬性都不能準(zhǔn)確的表示出數(shù)據(jù)集合中所包含的隱私信息。通過(guò)進(jìn)一步的例證、理論分析和

4、比較,我們提出了隱私信息的本質(zhì)屬性:數(shù)據(jù)間的關(guān)聯(lián),并由此提出了兩類(lèi)保護(hù)隱私的策略:分解隱私信息和轉(zhuǎn)換隱私信息,將它們作為隱私保護(hù)研究的指導(dǎo)思想。同時(shí),我們也詳細(xì)介紹了隱私保護(hù)的原因、意義及其模型的應(yīng)用范圍和場(chǎng)景。 2.提出了利用隨機(jī)化技術(shù)來(lái)分解隱私信息的方法,并提出了平衡隱私保護(hù)和知識(shí)獲取這對(duì)矛盾的可調(diào)節(jié)機(jī)制,同時(shí)也消除了先驗(yàn)知識(shí)對(duì)隱私的威脅。我們?cè)诎l(fā)布數(shù)據(jù)集合的問(wèn)題中,結(jié)合分解隱私信息的策略,提出了一種利用隨機(jī)化技術(shù)來(lái)保護(hù)隱私

5、的方法。該方法利用原始數(shù)據(jù)的分布信息,隨機(jī)選取部分原始數(shù)值進(jìn)行轉(zhuǎn)換,與匿名化和多樣化隱私保護(hù)模型相比,我們的方法不僅大幅提高了使用者對(duì)原始數(shù)據(jù)的不確定程度,而且還能夠保持?jǐn)?shù)據(jù)中的大部分有用知識(shí)。同時(shí),針對(duì)用戶(hù)掌握的先驗(yàn)知識(shí)可能會(huì)造成的隱私泄露,我們提供了一種平衡隱私保護(hù)和挖掘準(zhǔn)確性的可調(diào)節(jié)方法。 3.提出了轉(zhuǎn)換隱私信息的數(shù)據(jù)變換協(xié)議和數(shù)據(jù)整合方法,在惡意合謀的情況下實(shí)現(xiàn)了隱私的保護(hù),并提出了按需定制隱私保護(hù)程度的方法。我們結(jié)合轉(zhuǎn)

6、換隱私信息的策略,為每一位數(shù)據(jù)擁有者提出了轉(zhuǎn)換其原始數(shù)據(jù)的方式和傳輸數(shù)據(jù)的協(xié)議,同時(shí)也為挖掘者提供了整合不同數(shù)據(jù)源的方法。我們的轉(zhuǎn)換方法和協(xié)議都基于數(shù)據(jù)矩陣的變換,變換方式的正交性質(zhì)在半誠(chéng)實(shí)的計(jì)算環(huán)境中完美的避免了隱私保護(hù)和準(zhǔn)確挖掘之間的矛盾;而在惡意合謀的情況下,我們的隨機(jī)轉(zhuǎn)換方式成功的將隱私泄露的風(fēng)險(xiǎn)控制在有限的范圍內(nèi)。另外,數(shù)據(jù)集合的不同屬性在實(shí)際使用中通常擁有不同的重要程度,因此我們也實(shí)現(xiàn)了對(duì)隱私保護(hù)程度的定制方法,使得數(shù)據(jù)擁有

7、者可以按照實(shí)際的需要,靈活的保護(hù)不同的屬性。 4.提出了能夠適應(yīng)大規(guī)模參與者的可擴(kuò)展隱私保護(hù)方法,有效的實(shí)現(xiàn)了隱私保護(hù)、準(zhǔn)確挖掘和可擴(kuò)展性這三者之間的平衡,同時(shí)也進(jìn)一步提出了適用于高維數(shù)據(jù)集合的保護(hù)方法。可擴(kuò)展性問(wèn)題一直是隱私保護(hù)研究所面臨的挑戰(zhàn)。我們量化分析了數(shù)據(jù)挖掘的參與者數(shù)量對(duì)隱私保護(hù)和準(zhǔn)確挖掘所帶來(lái)的不同影響。并提出了一個(gè)能夠適應(yīng)大規(guī)模數(shù)據(jù)提供者的原始數(shù)據(jù)轉(zhuǎn)換方法,使得隱私保護(hù)方法的性能獨(dú)立于參與者數(shù)量的變化。同時(shí),我們

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論