天天看點

爬蟲職業是灰色産業麼?違法犯罪麼?

一、爬蟲本身不違法,說白了就是用機器自動擷取資料。

大資料分析爬蟲用得多了去了。關鍵看你弄什麼資料,以及是否販賣敏感資料。百度谷歌說白了就是爬蟲,多看些網站的robot協定。

二、以下屬于違法:

1.爬取資料商業化,例如爬取某家公司的内部資訊轉手賣了,這是不行的,屬于侵犯知識産權

2.還有是爬取一些敏感資訊,比如機關機關、個人資訊(手機号、身份證、郵箱)等。

3.高并發請求導緻别人伺服器崩潰,屬于攻擊範疇(破壞計算機系統罪),也算違法

注意:

1.爬取網上公開資訊不犯法,但如果大量開啟爬蟲導緻對方伺服器崩潰也是違法的,這屬于暴力攻擊的範疇了。

2.寫了一段代碼上傳到 Github 上面,有人利用你的代碼做了其它非法的事情,絕大多數都沒有問題的,但如果你寫的軟體涉及到入侵、暴力破解、病毒等就不好說了。

據說網際網路上 50%以上的流量都是爬蟲創造的,也許你看到很多熱門資料都是爬蟲所創造的,是以可以說無爬蟲就無網際網路的繁榮。

前天寫了一篇文章《 隻因寫了一段爬蟲,公司200多人被抓!》,講述程式員因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中讨論最熱是:爬蟲究竟是合法還是違法的?

這個話題涉及到我們很多程式員的日常工作,是以有必要和大家細聊一下。

01.技術無罪?

很多朋友給我留言:技術是無罪的,技術本身确實是沒有對錯的,但使用技術的人是有對錯的,公司或者程式員如果明知使用其技術是非法的,那麼公司或者人就需要為之付出代價。

在今年國家頒布***《中華人民共和國網絡安全法》之後,很多以前處于灰色地帶的業務都不能做了。

君不見之前曾經非常火的各種社工庫網站,現在絕大部分都已經消失匿迹了嗎?因為最新的安全法強調:販賣個人資訊超過50條屬于“情節嚴重”,需要追求其法律責任。

很多草根站長都紛紛主動關閉了網站;還有很多涉及版權資訊的網站*,比如書籍、影視劇、課程等後期也會面臨越來越嚴格的審查,這就是目前大的形勢。

2014年12月20日,人人影視字幕站釋出微網誌稱,人人影視正式關閉,并表示或将繼續為正版商提供翻譯服務,也可能轉變為讨論社群的形式。

2019年6月,吾愛破解因版權問題關站整改…

随着中國經濟的不斷往前走,知識産權問題會越來越重視,非法爬蟲是現在一個重要的打擊部分,

如果有程式員走在灰色的邊緣盡早收手,不要因為一點小的收益導緻觸犯法律,進而得不償失。

技術是無罪的,但是用到了錯的地方代價也是非常巨大的。

02.爬蟲崗位人人自危

我在拉鈎上搜尋: 爬蟲工程師,顯示有 217 條相關招聘資訊,薪資從10-60k 都有,說明市場上對爬蟲的需求是很大的

前天文章發出去之後有很多程式員給我留言:

我們上司安排我爬取公司内部的資訊,這算不算犯罪呢?

爬取網上公開的資訊,這算不算犯罪呢?

寫了一段代碼上傳到 Github,被人用了犯法嗎?

簡單回答一下這些問題:

爬取公司内部資訊有公司授權當然不算犯罪的,但是公司内部不用接口而用爬蟲不知道是為什麼?

爬取網上公開資訊不犯法,但如果大量開啟爬蟲導緻對方伺服器崩潰也是違法的,這屬于暴力攻擊的範疇了。

寫了一段代碼上傳到 Github 上面,有人利用你的代碼做了其它非法的事情,絕大多數都沒有問題的,但如果你寫的軟體涉及到入侵、暴力破解、病毒等就不好說了。

還有朋友認為這事責任在企業不在程式員,日常工作中項目初期設計和最後上線需要通過公司的法務準許,所有代碼必須有其他程式員同僚評審通過才能送出。

這位朋友說的挺對的,按道理每個公司都應該有法務和風控在前面,後面才是産品設計和程式員開發的事情,但如果一家公司為了利益,老闆可以直接讓這兩個部門閉嘴,後面程式員可以不幹嗎?

更甚至很多公司其實就沒有這兩個部門或者說形同虛設。那麼做為程式員自己也需要操一份心,凡是涉及到入侵類的程式都不能幹,因為有一個東西叫做:機關犯罪。

機關犯罪,是指公司、企業、事業機關、機關、團體為機關謀取利益,經機關決策機構或者負責人決定實施的,法律規定應當負刑事責任的危害社會的行為。

我國刑法對機關犯罪原則上采取雙罰制度,即機關犯罪的,對機關判處罰金,并對其直接負責的主管人員和其他直接責任人員判處刑罰。

03.什麼樣的爬蟲是非法的?

爬蟲不能涉及個人隐私!

如果爬蟲程式采集到公民的姓名、身份證件号碼、通信通訊聯系方式、住址、賬号密碼、财産狀況、行蹤軌迹等個人資訊,并将之用于非法途徑的,則肯定構成非法擷取公民個人資訊的違法行為。

也就是說你爬蟲爬取資訊沒有問題,但不能涉及到個人的隐私問題,如果涉及了并且通過非法途徑收益了,那肯定是違法行為。

另外,還有下列三種情況,爬蟲有可能違法,嚴重的甚至構成犯罪:

爬蟲程式規避網站經營者設定的反爬蟲措施或者破解伺服器防抓取措施,非法擷取相關資訊,情節嚴重的,有可能構成“非法擷取計算機資訊系統資料罪”。

爬蟲程式幹擾被通路的網站或系統正常營運,後果嚴重的,觸犯刑法,構成“破壞計算機資訊系統罪”

爬蟲采集的資訊屬于公民個人資訊的,有可能構成非法擷取公民個人資訊的違法行為,情節嚴重的,有可能構成“侵犯公民個人資訊罪”。

現在網上有很多付費的課程,比如極客時間、Gitchat、慕課網、知識星球等等,這些付費内部資訊如果被非法爬取手法出售獲利,一種違法行為。

之前我就遇到一個網友,把各個知識星球的内容都抓下來,合到一起自己去賣,自作聰明覺得發現了一個大的商機,其實自己不知道這個行為其實很危險,風險和收益明顯不對等。

我這兩天看的時候,他的一個公衆号都被封了,後來又轉移了一個小号繼續搞,遲早又是被封的命運,真的很不值當。最可憐是那些買他服務的使用者,因為他宣傳時承諾永久,肯定永久不了。

04.什麼樣的爬蟲是合法的?

1、 遵守 Robots 協定

Robots 協定也叫 robots.txt(統一小寫)是一種存放于網站根目錄下的 ASCII 編碼的文本檔案,它通常告訴網絡搜尋引擎的漫遊器(又稱網絡蜘蛛),此網站中的哪些内容是不應被搜尋引擎的漫遊器擷取的,哪些是可以被漫遊器擷取的。

Robots 協定就是告訴爬蟲,哪些資訊是可以爬取,哪些資訊不能被爬取,嚴格按照 Robots 協定 爬取網站相關資訊一般不會出現太大問題。

2、不能造成對方伺服器癱瘓

但不是說隻要遵守 Robots 協定的爬蟲就沒有問題,還涉及到兩個因素,第一不能大規模爬蟲導緻對方伺服器癱瘓,這等于網絡攻擊。

2019年05月28日國家網信辦釋出的《資料安全管理辦法(征求意見稿)》中,拟通過行政法規的形式,對爬蟲的使用進行限制:

網絡營運者采取自動化手段通路收集網站資料,不得妨礙網站正常運作;此類行為嚴重影響網站運作,如自動化通路收集流量超過網站日均流量三分之一,網站要求停止自動化通路收集時,應當停止。

3、不能非法獲利

惡意利用爬蟲技術抓取資料,攫取不正當競争的優勢,甚至是牟取不法利益的,則可能觸犯法律。實踐中,非法使用爬蟲技術抓取資料而産生的糾紛其實數量并不少,大多是以不正當競争為由提請訴訟。

舉個例子,如果你把大衆點評上的所有公開資訊都抓取了下來,自己複制了一個一模一樣的網站,并且還通過這個網站擷取了大量的利潤,這樣也是有問題的。

一般情況下,爬蟲都是為了企業獲利的,是以需要爬蟲開發者的道德自持和企業經營者的良知才是避免觸碰法律底線的根本所在。

04.最後

最近看了很多關于程式員出事的事件,東南亞程式員被打,多個大資料公司被查等等。做為一名普通的程式員,希望大家也可以多關注此類事件,進而提醒自己。

有風險的行業謹慎進入,比如現金貸、不合規的P2P、賭博類遊戲、黑五類産品的行業。如果公司安排入侵某個網站資料,或者有同僚/朋友邀請洩露公司資訊的都需要保持警惕,有時候一個很小的動作都有可能導緻出問題。

我們絕大多數公司和個人使用的爬蟲都是沒有問題的,不必人人自危,隻要把握住不要爬取個人資訊,不要利用爬蟲非法獲利,不要爬取網站的付費内容,基本上不會有問題。

程式員是世界上最單純的一批人,也是一批高智商低情商的人,工作是工作但也需要适當保持謹慎,對于一些遊走在法律邊緣的事情請保持距離。

敬畏法律,遵紀守法,從我做起。

繼續閱讀