機器學習及攻擊檢測_第1頁
機器學習及攻擊檢測_第2頁
機器學習及攻擊檢測_第3頁
機器學習及攻擊檢測_第4頁
機器學習及攻擊檢測_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

機器學習及攻擊檢測213

黑名單匹配

開源API接口調用

疑似為黑的展示在首頁,判斷為白的放

過,結果暫存在緩存中機器學習引擎判斷白名單匹配步驟線上RUN評估模型效果,改進訓練模型特征工程上線調用模型定義問題數(shù)據(jù)收集,清洗外部各100萬黑白樣本隨機域名識別的二分類問題tfidf提取交叉驗證,

線上測試xgboost

算法

問其是如何分辨這篇文章的主題是“世界杯”還是“娛樂”二分類問題首先,如果小學生A家里沒網(wǎng)沒電視沒報紙,那他肯定分辨不出來沒有樣本小學生A家里新裝了寬帶,但是A骨骼驚奇,將網(wǎng)上的世界杯和娛樂新聞全部轉成了漢語拼音,然后得到結論,a

ba

fade幾個拼音出現(xiàn)多的就是世界杯

特征提取有問題問題?小學生A今年7歲。有一天拿到了一篇不帶標題的微信文章,請

經(jīng)過老師的指點,A重新改了特征(分詞取漢語關鍵詞出現(xiàn)頻率),且

大腦總結了一套算法,先看是否有一次“足球”

,如果有再看有沒有超過2次“梅西”

,如果有就基本95%確定是世界杯新聞了訓練并使用了“決策樹”機器學

習算法國際足聯(lián)/裁判委員會/主席/科里納/在/總結/48/場/

小組賽/時/表示,共用/VAR/查看了/335/次/犯規(guī),

每場/比賽/接近/7/次/。這些/犯規(guī)/中,在/沒有/VAR/的/情況/下,95%/的/判罰/是/正確/的,但

/VAR/更正/了14/次/判罰,讓/準確率/提升/到/99.3%。在/今年/金馬獎/官宣/前,鞏俐/就/已經(jīng)/先后/

出任/過/第/50/屆/戛納/國際/電影節(jié)/主競賽/

單元/評委/、第/50屆/柏林/國際/電影節(jié)/主席

/、第/59/屆/威尼斯/國際/電影節(jié)/主席。

,ngram=2,按字符抽取得到[ct,tr,

ri,ip]計算ct的詞頻TFTF=ct在[ct,tr,ri,ip]出現(xiàn)的次數(shù)1/數(shù)組長度4=0.25計算ct的逆文檔詞頻IDFIDF=log(訓練語句總數(shù)/(含ct的語句個數(shù)+1))=log(10000/11)

TFIDF

=TF

*IDFPrecision:0.933Recall:0.900

F1:

0.916xgboostPrecision:0.973Recall:0.965

F1:

0.969

決策樹說一下為什么3.5%的漏報率可以接受

http://www.jxskqyy.com/

誤報

例如一條檢測sql注入的正則語句如下:String

inj_str="'|and|exec|insert|select|delete|update|count|*|%|chr|mid|master|truncate|char|declare|;|or|-|+|,";新買的selected襯衫臟了!

為什么想到用機器學習來做web攻擊檢測?pattern:[^\w\s\?\此處保密\!\@\(\'\~]{1,}規(guī)則難以維護,自己寫的正則自己都讀不懂

為什么想到用機器學習來做web攻擊檢測?隊列積壓嚴重,根本消費不完,昨天的攻擊今天還沒檢測

為什么想到用機器學習來做web攻擊檢測?

過完白名單的請求,進入ML引擎,ML預測為黑則繼續(xù)進入正則,否則打上ML白色結果args參數(shù)值不帶英文標點和控制字符的請求,全都算白名單,不過任何檢測引擎

?目的地=北京命中正則規(guī)則超過20次的ip直接進正則,進入黑名單,緩存1day,此ip之后不過ML引擎,

ML和正則引擎的關系惡意IP庫白名單寫腳本ES撈,手工洗,去重,日志盡量多樣化針對樣本污染問題,使用正則關鍵字從白樣本里洗掉黑色數(shù)據(jù)

少部分外部白日志內網(wǎng)PPOBE日志難點:1.大部分都是酒店機票的日志2.大部分流量都不帶任何標點和特殊字符3.要達到黑白樣本1:1白日志來源/TrainBooking/Search.aspx?from=shanghai&to=beijing&day=-09-05按args取訓練素材,還方便使用網(wǎng)上直接搜集來的POC,因為不用考慮定制化過擬合

01

GET

,POST分開

取args進行建模

02

圖片上傳

,加密數(shù)據(jù)的怎么辦

?正則檢測不了的,機器學習也不能強求

多層防御,用其他方式來解決

03

漏報了怎么辦

04

誤報了怎么辦

誤報的影響不大,直接交給正則,不同于WAF的使用場景

使用HMM做異常檢測

世界杯開始前,C羅狀態(tài)好的概率為90%......C羅狀態(tài)好,葡萄牙贏球概率為90%......C羅這一場狀態(tài)好,下一場狀態(tài)好的概率為85%....問葡萄牙世界杯開始3連跪的概率是多少

某參數(shù)正常的張這樣,問題:來一個請求,判斷是否是異常的ark_bus_vivo|12308ark_bus_xiaomi|12308ark_android_jpskb|TY

首先做泛型:ark_bus_hicloud|ky12308

字母->

ord(A)

數(shù)字->

ord('N')

中文->

ord('C')

其他->取其ASCII碼

樣本收集最好做到分散:從不同的源ip收集,避免單個ip貢獻過多樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論