大數據安全分析之大數據分析的技術架構及關鍵技術
一、大數據分析的技術架構
大數據安全分析總體架構由數據采集、預處理、存儲、處理、分析計算、數據應用展示幾部分組成:
數據源
數據源是大數據分析的基礎與前提,準確高質量的多源異構數據是安全分析效果的保證,進行安全分析需要收集的數據源包括:
日志數據:包括設備與系統的日志和安全告警信息。
流量數據:網絡流量數據,包括Netflow數據和全流量鏡像數據。
支持數據:包括資產信息、賬號信息、漏洞信息和威脅情報信息等。
采集和預處理
對數據源收集的信息進行解析、標準化和豐富化處理,從而為數據分析提供高質量的數據。
數據傳輸采集:根據不同類型的數據源,以及數據存在的狀態,采用不同的傳輸與采集技術。
數據預處理:對數據進行解析、補全、標準化操作,從而提高安全分析的可信度,降低誤報率。
數據存儲
全量存儲網絡中原始的網絡數據,使數據結果分析更加全面可信。對所有網絡行為數據建立索引,便于快速查詢、管理分析和舉證。
數據分析
利用關聯分析、機器學習、深度學習等技術,從海量原始數據中自動挖掘出有價值的信息,最大的發揮數據的價值。
數據應用
依據數據分析結果,實現安全態勢感知、安全預警、追蹤溯源等應用。
二、大數據分析的關鍵技術
數據采集與解析技術
利用日志采集器實時以非格式化或半格式化采集原始數據,根據配置的解析規則和字段補全規則,完成數據的解析與數據補全。最終將解析的數據存入大數據存儲中,以便后續進行實時或長周期的展示和統計分析。
大數據存儲與處理技術
大數據平臺計算處理能力達到日存儲數據超過1T,支持千億條數據的秒級處理,PB級數據管理與應用,保證高吞吐量與高數據壓縮率,為安全智能分析提供實時或者長期的關聯分析數據基礎。
關聯分析
通過關聯分析引擎對采集的實時數據流進行深度關聯分析,包括安全告警、系統日志、資產、網絡、漏洞等信息之間采用基于規則、基于統計、基于資產、基于情報等深度關聯分析方法,綜合分析進行安全威脅檢測、預警。
機器學習
通過機器學習和算法對大量的歷史信息和安全信息的關聯,以無監督學習(異常檢測)為主,并有人工輔助的半監督學習(專家、管理人員反饋),對威脅行為進行一個長周期的分析,找出安全威脅與攻擊的異常行為和隱藏的威脅行為。