天天看點

網際網路公司資料安全保護新探索

近年來,資料安全形勢越發嚴峻,各種資料安全事件層出不窮。在目前形勢下,網際網路公司也基本達成了一個共識:雖然無法完全阻止攻擊,但底線是敏感資料不能洩漏。也即是說,伺服器可以被挂馬,但敏感資料不能被拖走。伺服器對于網際網路公司來說,是可以接受的損失,但敏感資料洩漏,則會對公司産生重大聲譽、經濟影響。

在網際網路公司的資料安全領域,無論是傳統理論提出的資料安全生命周期,還是安全廠商提供的解決方案,都面臨着落地困難的問題。其核心點在于對海量資料、複雜應用環境下的可操作性不佳。

例如資料安全生命周期提出,首先要對資料進行分類分級,然後才是保護。但網際網路公司基本上都是野蠻生長,發展壯大以後才發現資料安全的問題。但存量資料已經形成,日以萬計的資料表在增長,這種情況下如何實作資料分類分級?人工梳理顯然不現實,梳理的速度趕不上資料增長速度。

再例如安全廠商提供的資料審計解決方案,也都是基于傳統關系型資料庫的硬體盒子。hadoop環境下的資料審計方案是什麼?面對海量資料,很多廠商也買不起這麼多硬體盒子啊。

是以,網際網路公司迫切需要一些符合自身特點的手段,來進行資料安全保障。為此,美團點評資訊安全中心進行了一些具體層面的探索。這些探索映射到it的層面,主要包括應用系統和資料倉庫,接下來我們分别闡述。

應用系統分為兩塊,一是對抗外部攻擊,是多數公司都有的安全意識,但意識不等于能力,這是一個負責任企業的基本功。傳統問題包括越權、周遊、sql注入、安全配置、低版本漏洞等,這一類在owasp的top10風險都有提到,在實踐中主要考慮sdl、安全運維、紅藍對抗等手段,且以産品化的形式來解決主要問題。這裡不做重點介紹。

新的形勢下,還面臨掃号、爬蟲問題。掃号是指撞庫或弱密碼:撞庫是用已經洩漏的賬号密碼來試探,成功後輕則竊取使用者資料,重則盜取使用者資金;弱密碼則是簡單密碼問題。對于這類問題,業界不斷的探索新方法,包括裝置指紋技術、複雜驗證碼、人機識别、ip信譽度,試圖多管齊下來緩解,但黑産也在不斷更新對抗技術,包括一鍵新機、模拟器、ip代理、人類行為模仿,是以這是個不斷的對抗過程。

舉個例子,有公司在使用者登入時,判斷加速等傳感器的變化,因為使用者在手機螢幕點選時,必然會帶來角度、重力的變化。如果使用者點選過程中這些傳感器沒有任何變化,則有使用腳本的嫌疑。再加上一個次元去判斷使用者近期電量變化,就可以确認這是一台人類在用的手機,還是黑産工作室的手機。黑産在對抗中發現公司用了這一類的政策,則很輕易的進行了化解,一切資料都可以僞造出來,在某寶上可以看到大量的此類技術工具在出售。

爬蟲對抗則是另一個新問題,之前有文章說,某些公司的資料通路流量75%以上都是爬蟲。爬蟲不帶來任何業務價值,而且還要為此付出大量資源,同時還面臨資料洩漏的問題。

在網際網路金融興起後,爬蟲又産生了新的變化,從原來的未授權爬取資料,變成了使用者授權爬取資料。舉例來說,小張缺錢,在網際網路金融公司網站申請小額貸款,而網際網路金融公司并不知道小張能不能貸,還款能力如何,是以要求小張提供在購物網站、郵箱或其他應用的賬号密碼,爬取小張的日常消費資料,作為信用評分參考。小張為了擷取貸款,提供了賬号密碼,則構成了授權爬取。這和以往的未授權爬取産生了很大的變化,網際網路金融公司可以進來擷取更多敏感資訊,不但加重了資源負擔,還存在使用者密碼洩漏的可能。

網際網路公司資料安全保護新探索

對爬蟲的對抗,也是一個綜合課題,不存在一個技術解決所有問題的方案。解決思路上除了之前的裝置指紋、ip信譽等手段之外,還包括了各種機器學習的算法模型,以區分出正常行為和異常行為,也可以從關聯模型等方向入手。但這也是個對抗過程,黑産也在逐漸摸索試探,進而模拟出人類行為。未來會形成機器與機器的對抗,而決定輸赢的,則是成本。

近年來業界也出現了一些将内部敏感檔案,截圖外發的事件。有些事件引起了媒體的炒作,對公司造成了輿論影響,這就需要能夠對這種外發行為進行溯源。而水印在技術上要解決的抗魯棒性問題,針對圖檔的水印技術包括空間濾波、傅立葉變換、幾何變形等,簡單的說是将資訊經過變換,在惡劣條件下還原的技術。

是指制作一個假的資料集合,來捕獲通路者,進而發現攻擊行為。國外已經有公司做出了對應的産品,其實作可以粗暴地了解為,在一個資料檔案上加入了一個“木馬”,所有的通路者再打開後,會把對應記錄發回伺服器。通過這個“木馬”,可以追蹤到攻擊者細節資訊。我們也曾做過類似的事情,遺憾的是,這個資料檔案放在那裡很久,都無人通路。無人通路和我我們對蜜罐的定位有關,現階段我們更願意把它作為一個實驗性的小玩意,而不是大規模采用,因為“木馬”本身,可能帶有一定的風險。

大資料的出現,為關聯審計提供了更多的可能性,可以通過各種資料關聯起來分析異常行為。這方面,傳統安全審計廠商做了一些嘗試,但從客觀的角度來看,還比較基礎,無法應對大型網際網路公司複雜情況下的行為審計,當然這不能苛求傳統安全審計廠商,這與生意有關,生意是要追求利潤的。這種情況下,網際網路公司就要自己做更多的事情。

例如防範内鬼,可以通過多種資料關聯分析,通過“與壞人共用過一個裝置”規則,來發現内鬼。舉一反三,則可以通過資訊流、物流、資金流等幾個大的方向衍生出更多符合自身資料特點的抓内鬼規則。

除此之外,還可以通過ueba(使用者與實體行為分析)來發現異常,這需要在各個環節去埋點采集資料,後端則需要對應的規則引擎系統、資料平台、算法平台來支撐。

例如常見的聚類算法:某些人與大多數人行為不一緻,則這些人可能有異常。具體場景可以是:正常使用者行為首先是打開頁面,選擇産品,然後才是登入、下單。而異常行為可以是:先登入,然後修改密碼,最後下單選了一個新開的店,使用了一個大額優惠券。這裡每一個資料字段,都可以衍生出各種變量,通過這些變量,最後可以有一個異常判斷。

再例如關聯模型,一個壞人團夥,通常是有聯系的。這些次元可以包括ip、裝置、wifi mac位址、gps位置、物流位址、資金流等若幹次元,再結合自己的其他資料,可以關聯出一個團夥。而團夥中如果有一個人标記為黑,則關系圈則會根據關系強弱進行信譽打分降級。

網際網路公司資料安全保護新探索

ueba的基礎是有足夠的資料支撐,資料可以是外部的資料供應商。例如騰訊、阿裡都提供一些對外資料服務,包括對ip信譽的判斷等,使用這些資料,可以起到聯防聯控的效果。也可以是内部的,網際網路公司總會有若幹條業務線服務一個客戶,這就要看安全人員的資料敏感度了,哪些資料能為自己所用。

在應用系統中,總會有很多使用者敏感資料。應用系統分為對内和對外,對外的系統脫敏,主要是防止撞号和爬蟲。對内的系統脫敏,主要是防止内部人員洩漏資訊。

對外系統的脫敏保護,可以分層來對待。預設情況下,對于銀行卡号、身份證、手機号、位址等關鍵資訊,強制脫敏,以**替換關鍵位置,這樣即使被撞庫或者爬蟲,也擷取不到相關資訊,進而保護使用者資料安全。但總有客戶需要看到自己或修改自己的完整資訊,這時就需要分層保護,主要是根據常用裝置來判斷,如果是常用裝置,則可以無障礙的點選後顯示。如果非常用裝置,則推送一個強驗證。

在日常業務中,美團點評還有一個特點。外賣騎手與買家的聯系,騎手可能找不到具體位置,需要和買家進行溝通,這時至少包括了位址、手機号兩條資訊暴露。而對于買家資訊的保護,我們也進行了摸索試探。手機号碼資訊,我們通過一個“小号”的機制來解決,騎手得到的是一個臨時中轉号碼,用這個号碼與買家聯系,而真實号碼則是不可見的。位址資訊,我們在系統中使用了圖檔顯示,在訂單完成之後,位址資訊則不可見。

對内系統的脫敏保護,實踐中可以分為幾個步驟走。首先是檢測内部系統中的敏感資訊,這裡可以選擇從log中擷取,或者從js前端擷取,兩個方案各有優劣。從log中擷取,要看公司整體上對日志的規範,不然每個系統一種日志,對接周期長工作量大。從前端js擷取,方案比較輕量化,但要考慮性能對業務的影響。

檢測的目的是持續發現敏感資訊變化,因為在内部複雜環境中,系統會不斷的改造更新,如果缺少持續監控的手段,會變成運動式工程,無法保證持續性。

檢測之後要做的事情,則是進行脫敏處理。脫敏過程需要與業務方溝通明确好,哪些字段必須強制完全脫敏,哪些是半脫敏。應用系統權限建設比較規範的情況下,可以考慮基于角色進行脫敏,例如風控案件人員,是一定需要使用者的銀行卡完整資訊的,這時候可以根據角色賦予免疫權限。但客服人員則不需要檢視完整資訊,則進行強制脫敏。在免疫和脫敏之間,還有一層叫做半脫敏,是指在需要的時候,可以點選檢視完整号碼,點選動作則會被記錄。

就脫敏整體而言,應該有一個全局視圖。每天有多少使用者敏感資訊被通路到,有多少資訊脫敏,未脫敏的原因是什麼。這樣可以整體追蹤變化,目标是不斷降低敏感資訊通路率,當視圖出現異常波動,則代表業務産生了變化,需要追蹤事件原因。

資料倉庫是公司資料的核心,這裡出了問題則面臨巨大風險。而資料倉庫的治理,是一個長期漸進的建設過程,其中安全環節隻是其中一小部分,更多的則是資料治理層面。本文主要談及安全環節中的一些工具性建設,包括資料脫敏、隐私保護、大資料行為審計、資産地圖、資料掃描器。

資料倉庫的脫敏是指對敏感資料進行變形,進而起到保護敏感資料的目的,主要用于資料分析人員和開發人員對未知資料進行探索。脫敏在實踐過程中有若幹種形式,包括對資料的混淆、替換,在不改變資料本身表述的情況下進行資料使用。但資料混淆也好,替換也好,實際上都是有成本的,在大型網際網路公司的海量資料情況下,這種資料混淆替換代價非常高昂,

實踐中常用的方式,則是較為簡單的部分遮蓋,例如對手機号的遮蓋,139****0011來展示,這種方法規則簡單,能起到一定程度上的保護效果。

但有些場景下,簡單的遮蓋是不能滿足業務要求的,這時就需要考慮其他手段,例如針對信用卡号碼的的tokenization,針對範圍資料的分段,針對病例的多樣性,甚至針對圖檔的base64遮蓋。是以需要根據不同場景提供不同服務,是成本、效率和使用的考量結果,

資料遮蓋要考慮原始表和脫敏後的表。原始資料一定要有一份,在這個基礎上是另外複制出一張脫敏表還是在原始資料上做視覺脫敏,是兩種不同成本的方案。另外複制一張表脫敏,是比較徹底的方式,但等于每張敏感資料表都要複制出來一份,對存儲是個成本問題。而視覺脫敏,則是通過規則,動态的對資料展現進行脫敏,可以較低成本的實作脫敏效果,但存在被繞過的可能性。

隐私保護上學術界也提出了一些方法,包括k匿名、邊匿名、差分隐私等方法,其目的是解決資料聚合情況下的隐私保護。例如有的公司,拿出來一部分去除敏感資訊後的資料公開,進行算法比賽。這個時候就要考慮不同的資料聚合後,可以關聯出某個人的個人标志。目前看到業界在生産上應用的是google的dlp api,但其使用也較為複雜,針對場景比較單一。隐私保護的方法,關鍵是要能夠進行大規模工程化,在大資料時代的背景下,這些還都是新課題,目前并不存在一個完整的方法來解決隐私保護所有對抗問題。

是指對大資料平台的資料資産進行分析、資料可視化展現的平台。最常見的訴求是,a部門申請b部門的資料,b作為資料的owner,當然想知道資料給到a以後,他是怎麼用的,有沒有再傳給其他人使用。這時候則需要有一個資産地圖,能夠跟蹤資料資産的流向、使用情況。換個角度,對于安全部門來說,需要知道目前資料平台上有哪些高敏感資料資産,資産的使用情況,以及平台上哪些人擁有什麼權限。是以,通過中繼資料、血緣關系、記錄檔,形成了一個可視化的資産地圖。形成地圖并不夠,延伸下來,還需要能夠及時預警、回收權限等幹預措施。

是指對大資料平台的資料掃描,其意義在于發現大資料平台上的敏感資料,進而進行對應的保護機制。一個大型網際網路公司的資料表,每天可能直接産生多達幾萬張,通過這些表衍生出來更多的表。按照傳統資料安全的定義,資料安全第一步是要分類分級,但這一步就很難進行下去。在海量存量表的情況下,該怎樣進行分類分級?人工梳理顯然是不現實的,梳理的速度還趕不上新增的速度。這時候就需要一些自動化的工具來對資料進行打标定級。是以,資料庫掃描器可以通過正規表達式,發現一些基礎的高敏感資料,例如手機号、銀行卡等這些規整字段。對于非規整字段,則需要通過機器學習+人工标簽的方法來确認。

綜上,資料安全在業務發展到一定程度後,其重要性越發突出。微觀層面的工具建設是一個支撐,在盡量減少對業務的打擾同時提高效率。宏觀層面,除了自身體系内的資料安全,合作方、投資後的公司、物流、騎手、商家、外包等各類組織的資料安全情況,也會影響到自身安全,可謂“唇亡齒寒”。而在目前各類組織安全水準參差不齊的情況下,就要求已經發展起來的網際網路公司承擔更多的責任,幫助合作方提高安全水準,聯防共建。

鵬飛,美團點評集團安全部資料安全負責人,負責集團旗下全線業務的資料安全與隐私保護。

美團點評集團安全部彙集國内多名尖端安全專家及諸多優秀技術人才,堅持打造“專業、營運和服務”的理念,共同為集團全線業務的高速發展保駕護航。團隊緻力于建構一套基于海量 idc 環境下橫跨網絡層、虛拟化層、server 軟體層(核心态/使用者态)、語言執行虛拟機層(jvm/zend/javascript v8)、web應用層、資料通路層(dal)的基于大資料+機器學習的全自動安全事件感覺系統并努力打造内置式安全架構和縱深防禦體系,借助廣闊平台及良機,深度發展,注重企業安全建設方面的實踐,向安全團隊最佳發展方向努力前行。

美團點評集團安全部正在招募web&二進制攻防、背景&系統開發、機器學習&算法等各路小夥伴,對在安全和工程技術領域有所追求的同學來說應該是一個很好的機會。

如果你想加入我們,歡迎履歷請發至郵箱zhaoyan17#meituan.com

具體職位資訊可參考連結:freebuf招聘站

美團點評 src首頁:美團點評安全應急響應中心

敬請關注我們的企業安全系列文章——面向實操的大型網際網路安全解決方案

《從google白皮書看企業安全最佳實踐》

《網際網路企業安全之端口監控》

《個人資訊保護關鍵點識别與思考》

《美團點評千億量級waf是如何打造的》

《海量idc下的分布式入侵感覺系統設計與實作》

《大型網際網路安全體系成熟度度量》

網際網路公司資料安全保護新探索

繼續閱讀