




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第六章網(wǎng)絡流量分析目錄流量分析介紹網(wǎng)絡流量的采集方法常用的網(wǎng)絡流量分析模型及方法 小結流量分析介紹隨著網(wǎng)絡基礎設施提升和移動互聯(lián)網(wǎng)的發(fā)展,如何有效的識別和管理網(wǎng)絡上的流量變得越來越迫切。網(wǎng)絡流量分類(Network TrafficClassification 熱點1.網(wǎng)絡流量分析2.網(wǎng)絡流量分析的目的3.網(wǎng)絡流量分析的現(xiàn)狀4.網(wǎng)絡流量分析的流程網(wǎng)絡流量分析是動態(tài)適應,不斷調(diào)整的處理過程網(wǎng)絡流量分類是基于TCP/IP 的互聯(lián)網(wǎng)絡中,按照網(wǎng)絡的應用類型將網(wǎng)絡通信產(chǎn)生的雙向TCP 流或UDP 流進行分類需求分析數(shù)據(jù)采集數(shù)據(jù)挖掘結果評估常見網(wǎng)絡應用類型FTP 、DNS 、WWW 、P2P 等基于端口號
2、映射、基于有效載荷分析、基于機器學習等采用動態(tài)端口、協(xié)議加密傳統(tǒng)方法達不到滿意效果查看數(shù)據(jù)包的內(nèi)容(涉及隱私目前流分類算法可靠的流量分類在線檢測是在運行著的網(wǎng)絡鏈路上實時采集包追蹤數(shù)據(jù)或IP數(shù)據(jù)流較小空間復雜性和較低的計算復雜性在線和離線分析如何設計在線檢測算法以適應高帶寬主干網(wǎng)絡鏈路的檢測需求!基于特征/行為的檢測技術入侵檢測工具基于采樣、哈希、概略、包分類等離線檢測是指對網(wǎng)絡流量數(shù)據(jù)進行離線分析,檢測網(wǎng)絡異常及對網(wǎng)絡進行性能分析和預測。數(shù)據(jù)分析和處理的時間周期比較長網(wǎng)絡管理及安全分析和預測方面統(tǒng)計分析技術及流挖掘技術實現(xiàn)在線和離線分析?;诙〞r采集的SNMP基于流:輸入的數(shù)據(jù)流進行預處理,
3、每個數(shù)據(jù)包生成一個五元組,存入數(shù)據(jù)組,再使用相關算法分析,得出分析結果,以報告或者圖表的方法顯示出來流(Flow:在同一組特定源地址和目標地址、源端口和目的端口之間傳輸?shù)?有固定協(xié)議類型,有開始和結束時間的數(shù)據(jù)包的集合基于流的分析方法基于非流的分析方法網(wǎng)絡流量分析目的幫助運營商了解網(wǎng)絡流量的分布,帶寬的使用情況,方便進行維護和計費等幫助網(wǎng)絡管理員了解網(wǎng)絡流量分布,合理規(guī)劃和升級網(wǎng)絡,對應用進行管理識別網(wǎng)絡上的安全威脅(異常,惡意行為和未知應用等網(wǎng)絡流量分析現(xiàn)狀國內(nèi)外的網(wǎng)絡流量分類技術主要有:端口分類,特征碼分類,BLINC(Blindclassification分類,基于統(tǒng)計特征的機器學習方法
4、,基于數(shù)據(jù)挖掘的網(wǎng)絡流量分析等。在網(wǎng)絡流量分析中引入分類和聚類方法收集網(wǎng)絡流量收集網(wǎng)絡流量提高效率數(shù)據(jù)預處理收集網(wǎng)絡流量提高效率數(shù)據(jù)預處理任務相關數(shù)據(jù)應用網(wǎng)絡流量分析算法收集網(wǎng)絡流量提高效率數(shù)據(jù)預處理任務相關數(shù)據(jù)應用網(wǎng)絡流量分析算法得出有意義的模式分析結果和報告收集網(wǎng)絡流量提高效率數(shù)據(jù)預處理任務相關數(shù)據(jù)應用網(wǎng)絡流量分析算法得出有意義的模式分析結果和報告文字或圖表等方式向ISP網(wǎng)絡流量的采集方法1.流量采集概述2.流量采集方法3.流量采集的問題4.網(wǎng)絡流量數(shù)據(jù)集 數(shù)據(jù)包從發(fā)送方到接收方需要經(jīng)過多個網(wǎng)絡設備轉發(fā)合適的網(wǎng)絡位置捕獲網(wǎng)絡流量考慮采集數(shù)據(jù)的類型以及數(shù)據(jù)的TCP/IP協(xié)議層次全部or部分采
5、集軟件or硬件采集個人用戶利用流量采集軟件,Wireshark,Snort,Sniffer網(wǎng)絡設備網(wǎng)絡管理員和運營商基于端口的鏡像集線器數(shù)據(jù)的捕獲存在的問題效率存儲容量安全問題在高速骨干網(wǎng)上采集網(wǎng)絡流量要求相應的網(wǎng)絡設備具有更高的處理速度和能力不同的網(wǎng)絡環(huán)境對存儲設備的要求不一樣為防范隱私泄露所采用的技術使得流量采集途徑被限制網(wǎng)絡流量數(shù)據(jù)集Università degli Studi di BresciaWIDE (Widely Integrated Distributed EnvironmentWITS (Waikato Internet Traffic Storage常用的網(wǎng)絡流
6、量分析模型及方法網(wǎng)絡流量行為特征的分析還可以在不同測量粒度或者不同的層面上展開比特級(Bit -level的流量分析分組級(Packet-level的流量分析流級(Flow-level的流量分析1.流量分析模型2.常用的流量分析方法3.數(shù)據(jù)挖掘方法在流量分析中的應用4.其他的流量分析方法比特級(Bit -level的流量分析主要關注網(wǎng)絡流量的數(shù)據(jù)特征,如網(wǎng)絡線路的傳輸速率,吞吐量的變化等等。分組級(Packet-level的流量分析主要關注的是IP 分組的到達過程、延遲、抖動和丟包率等流級(Flow-level的流量分析,Flow 的劃分主要依據(jù)地址和應用協(xié)議展開,它主要關注流的到達過程、到達
7、間隔及其局部的特征。小粒度大小時間尺度大毫秒級的細時間粒度的網(wǎng)絡流量行為主要受到網(wǎng)絡協(xié)議的影響;小時以上的粗時間粒度的網(wǎng)絡流量行為主要受到外界因素的影響兩者之間的秒時間粒度上的網(wǎng)絡流量則表現(xiàn)為自相似性。常用的流量分析方法1.基于端口的方法2.基于特征碼的方法3.基于傳輸層的流量識別技術4.利用統(tǒng)計特征的流量識別技術基于端口的流量分類方法實現(xiàn)簡單、判定速度快,且適于硬件實現(xiàn),該方法一般用于高速網(wǎng)絡的流量粗選。TCP/IP數(shù)據(jù)的封裝結構用戶數(shù)據(jù)應用層傳輸層網(wǎng)絡層鏈路層用戶數(shù)據(jù)應用層頭部用戶數(shù)據(jù)用戶數(shù)據(jù)應用層數(shù)據(jù)報TCP報文段/UDP數(shù)據(jù)報IP數(shù)據(jù)報以太網(wǎng)幀應用層頭部TCP/UDP頭部應用層頭部TC
8、P/UDP頭部IP頭部用戶數(shù)據(jù)應用層頭部TCP/UDP頭部IP頭部幀頭幀尾TCP 頭部格式UDP 頭部格式源端口號目的端口號數(shù)據(jù)校驗和緊急指針序號確認號數(shù)據(jù)偏移窗口大小標志位保留選項和填充T C P 頭部固定頭部,20字節(jié)32bit 源端口號目的端口號數(shù)據(jù)長度校驗和U D P 頭部8字節(jié)32bit基于端口的方法IANA最初是按先到先得的原則分配服務名稱,規(guī)定系統(tǒng)應用的端口號范圍為0l023,用戶應用的端口號范圍為102449151,動態(tài)端口號或私有端口號范圍為4915265535。如今,IANA 端口號分配表中注冊的一些用戶應用端口已被新出現(xiàn)的應用服務所替代或占用,維基百科給出了一個更接近現(xiàn)實
9、網(wǎng)絡情況的端口服務映射表常見端口列表端口描述狀態(tài)20/TCP,UDP文件傳輸協(xié)議-默認數(shù)據(jù)端口官方21/TCP,UDP文件傳輸協(xié)議-控制端口官方22/TCP,UDP SSH(Secure Shell-遠程登錄協(xié)議,用于安全登錄文件傳輸(SCP,SFTP及端口重新定向官方23/TCP,UDP Telnet終端仿真協(xié)議-未加密文本通信官方25/TCP,UDP SMTP(簡單郵件傳輸協(xié)議-用于郵件服務器間的電子郵件傳遞官方53/TCP,UDP DNS(域名服務系統(tǒng)官方69/UDP TFTP(小型文件傳輸協(xié)議官方80/TCP HTTP(超文本傳輸協(xié)議-用于傳輸網(wǎng)頁官方81/TCP HTTP預備(超文本
10、傳輸協(xié)議官方110/TCP POP3(“郵局協(xié)議”,第3版-用于接收電子郵件官方143/TCP,UDP IMAP4(Internet Message Access Protocol4-used for retrieving E-mail s官方161/TCP,UDP SNMP(Simple Network Management Protocol官方162/TCP,UDP SNMPTRAP官方220/TCP,UDP IMAP,交互郵件訪問協(xié)議第3版443/TCP HTTPS-HTTP over TLS/SSL(加密傳輸官方993/TCP IMAP4over SSL(encrypted trans
11、mission官方995/TCP POP3over SSL(encrypted transmission官方基于端口的方法遇到的問題隨著網(wǎng)絡應用的發(fā)展與普及,大多數(shù)的網(wǎng)絡應用允許用戶手動選擇來設置默認的端口號許多新出現(xiàn)的網(wǎng)絡應用為了躲避流量限制,往往會使用動態(tài)的端口來進行數(shù)據(jù)傳輸,而不是使用一個公共不變的端口,無法有效的識別網(wǎng)絡流量端口控制粒度太粗,易出錯通過端口方式能夠識別的協(xié)議類型非常有限依據(jù)IP數(shù)據(jù)包中具有的協(xié)議特征碼進行流量識別。特征碼的識別方法主要用來識別P2P流量通過分析捕獲到的網(wǎng)絡數(shù)據(jù)包,找到每個網(wǎng)絡應用的固定特征碼,利用這些特征碼就能有效的識別不同的網(wǎng)絡應用。特征碼識別技術是一
12、種基于應用層信息的識別方法對于可以采用特征碼識別的業(yè)務,必須對不同協(xié)議的數(shù)據(jù)包進行單獨分析,因為它們的協(xié)議都是自定義的非標準協(xié)議。特征碼檢測法適用于常見的應用,能識別出大部分的業(yè)務流量,如eDonkey、eMule、KAZAA、BitTorrent、Gnutella等?;谔卣鞔a的方法特點檢測準確率高,不受端口的變化影響數(shù)據(jù)包的靜態(tài)標識特征需要不斷的更新和增加高資源消耗基于傳輸層的流量識別技術BLINC方法基于簽名,工作原理是:基于主機的應用行為來分類網(wǎng)絡連接,把主機模式分為三個層次:分析和目標主機通信的主機數(shù)量按照提供的服務分析主機的功能按照應用的類型生成分類圖使用NetMate工具根據(jù)5元
13、組把數(shù)據(jù)包劃分為不同的流,并計算各種參數(shù),如平均包長,平均間隔時間,流持續(xù)時間等。為進一步提高執(zhí)行速度,還可以對每條流進行采樣。之后將流的統(tǒng)計數(shù)據(jù)以及流的屬性模型用于自分類的機器學習算法,無監(jiān)督的貝葉斯識別技術。機器學習的時間越長,分類的準確性越高,一旦達到一個標準,就可以對后續(xù)的輸入數(shù)據(jù)流自動分類特點:分析已知業(yè)務的流量特征,除了取得流量組成的基本信息之外,將精力集中在統(tǒng)計一種業(yè)務的數(shù)據(jù)包的字節(jié)大小分布、數(shù)據(jù)包間隔分布、流字節(jié)大小分布、流間隔分布、流量間的連接特性等上,然后將從中得到的固定規(guī)律應用到未知的網(wǎng)絡流量上。不需要獲取用戶數(shù)據(jù)包的有效載荷,不會涉及到用戶隱私問題。有些特征對網(wǎng)絡動態(tài)變
14、化極其敏感識別過程比較復雜,計算量非常大不能精確的定義出每個業(yè)務的名稱。數(shù)據(jù)挖掘方法在流量分析中的應用現(xiàn)在已經(jīng)有多種數(shù)據(jù)挖掘技術應用于網(wǎng)絡流量分析,使用數(shù)據(jù)挖掘技術可以在流量中找到隱含的、有用的流量特征,然后進行業(yè)務流量類型識別,分析網(wǎng)絡流量的組成成分及相應的網(wǎng)絡行為,發(fā)現(xiàn)網(wǎng)絡安全威脅,了解網(wǎng)絡運行情況,方便網(wǎng)絡管理。1.流量分析中的數(shù)據(jù)挖掘2.數(shù)據(jù)預處理3.數(shù)據(jù)挖掘技術在流量分析中的應用4.其他的流量分析方法數(shù)據(jù)預處理數(shù)據(jù)預處理技術將包含臟數(shù)據(jù)記錄的原始數(shù)據(jù)集轉換成適于分析和挖掘的目標數(shù)據(jù)集。1.數(shù)據(jù)清洗2.數(shù)據(jù)變換3.數(shù)據(jù)規(guī)約目的:主要是為了保證數(shù)據(jù)的一致性,提高數(shù)據(jù)質(zhì)量。未經(jīng)清洗的原始數(shù)
15、據(jù)臟數(shù)據(jù),包括噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)和冗余數(shù)據(jù)等清洗后的數(shù)據(jù)平滑噪聲數(shù)據(jù)修訂錯誤數(shù)據(jù)填補缺失數(shù)據(jù)數(shù)據(jù)清洗的基本操作包括重復記錄清除、異常記錄修訂、空缺值處理(如補入均值或固定值等,一般可采用自動方法或人工方法進行。清洗操作的對象可以是網(wǎng)絡數(shù)據(jù)包或網(wǎng)絡流,可以采用Libpcap設計專用的數(shù)據(jù)集清洗程序。清洗檢查的內(nèi)容主要考慮:產(chǎn)生數(shù)據(jù)包的時間戳是否嚴格單調(diào)遞增且在合理的窗口范圍內(nèi)?IP頭校驗和是否存在錯誤?包頭長度是否位于合理區(qū)間?包到達間隔時間是否位于合理區(qū)間?流的單向數(shù)據(jù)包是否完備等。目的:為了讓數(shù)據(jù)映射成更便于操作的形式。數(shù)值型數(shù)據(jù)的規(guī)范化、層次型概念數(shù)據(jù)的泛化、常用的數(shù)據(jù)變換方法連
16、續(xù)數(shù)值型數(shù)據(jù)的離散化,數(shù)值型數(shù)據(jù)的分桶規(guī)范化將特征值按比例縮放到特定區(qū)間內(nèi),目的是方便數(shù)據(jù)處理及加快程序收斂,常用的區(qū)間為-1.0,1.0或0.0,1.0。最常用的兩類方法是最小-最大規(guī)范化方法和Z-score 規(guī)范化方法。規(guī)范化最小-最大規(guī)范化方法又稱為離差規(guī)范化通過線性變換將原始數(shù)據(jù)映射到0.0, 1.0這個區(qū)間中設特征的最大值和最小值分別為X max和X min,映射函數(shù)定義為x=xx minx maxx min保留了原始數(shù)據(jù)之間的序關系,但需要事先知道特征的最大取值和最小取值,一旦新數(shù)據(jù)未落在X min,X max區(qū)間內(nèi),則會產(chǎn)生越界錯誤規(guī)范化Z-score規(guī)范化方法又稱為標準差規(guī)范化
17、利用特征值的均值和標準差,將原始數(shù)據(jù)映射到-1.0,1.0區(qū)間上。設特征值的均值為,標準差為,采用的映射函數(shù)為x=x經(jīng)過Z-score規(guī)范化后的數(shù)據(jù),其均值為0,標準差為1,符合標準正態(tài)分布,且不必預先確定特征的最大值和最小值。目的:簡化數(shù)據(jù)結構,一定程度上減少數(shù)據(jù)規(guī)模,適用于特定分析和學習算法,加快處理程序的運行。常用算法包括等寬算法、等頻算法和聚類算法,其他方法還包括卡方分裂法、信息增益分裂法等。等寬方法連續(xù)取值區(qū)間等分為k個子區(qū)間,將第i個子區(qū)間中的原始數(shù)據(jù)值映射到整數(shù)i。若連續(xù)特征值的最大值和最小值分別為X max和X min,則每個子區(qū)間的寬為X maxX mink不太適用于取值偏斜
18、嚴重的情況等頻方法將特征值按相同的頻度劃分為k個子區(qū)間,使落在每個子區(qū)間內(nèi)的實例數(shù)一致,即若實例總數(shù)為N,則劃分子區(qū)間的方法是使每個子區(qū)間內(nèi)剛好包含N/k個實例。離散化聚類算法通常采用k均值聚類,首先從訓練數(shù)據(jù)集中挑選k個實例作為初始子區(qū)間的類心,其次對其他實例,逐個計算它們與k個類心之間的距離,將其歸入距離最近的那個類心對應的子區(qū)間,再次重新計算每子區(qū)間的新類心,重復上述步驟直至收斂(如均方差滿足設定的閾值。最后形成的k個聚類的類心即作為離散數(shù)值點,將屬于某個聚類的所有樣本均映射到此聚類的類心對應的離散數(shù)值點上。通過數(shù)據(jù)立方體、屬性選擇、維歸約、數(shù)據(jù)壓縮、數(shù)值歸約、離散化和概念分層等方法,從原始數(shù)據(jù)集中獲得一個精簡數(shù)據(jù)集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人工智能基礎考試試題及答案
- 2025年電氣設備管理專業(yè)輿論考試試卷及答案
- T/XFBZ 001-2019校服設計師職業(yè)能力要求
- 2025年階段性英語聽力測試試題及答案
- 2025年會計專業(yè)考試試卷及答案
- 基層衛(wèi)生護理副高答辯
- 砌體灰縫假縫透明縫防治
- 安徽國控資本有限公司所屬子公司招聘筆試題庫2025
- 電梯應急救援體系與實施策略
- 預防慢性疾病
- 2024年山東棗莊初中生物會考模擬試卷(解析版)
- 山東省青島市平度市2024屆中考二模語文試題含解析
- GB/T 43635-2024法庭科學DNA實驗室檢驗規(guī)范
- 門診突發(fā)事件應急處理培訓
- 安全生產(chǎn)重在提升執(zhí)行力
- 建筑工程《擬投入本項目的主要施工設備表及試驗檢測儀器設備表》
- 亞健康調(diào)理行業(yè):調(diào)理產(chǎn)品效果評估
- 小學語文作文:五感法描寫課件
- 常用不規(guī)則動詞變化表
- 《法律的基本原則》
- 酒店客房技能實訓中式鋪床
評論
0/150
提交評論