資料安全觀察｜ChatGPT潛在資料保護風險分析及建議

走出去智庫觀察

ChatGPT在開放測試後風靡全球，僅僅兩個月使用者便達到1億，成為網際網路發展二十年來增長速度最快的消費者應用程式。但ChatGPT也會具有兩面性，在其備受追捧的同時，面臨着資料安全方面的争議。

走出去智庫 (CGGT)觀察到，ChatGPT能夠很好地完成代碼、論文、短評、新聞、翻譯等内容的創作，已經引起了各行各業對内容抄襲的擔憂，而且ChatGPT還可能導緻一些敏感資料的洩露風險。微軟和亞馬遜已宣布禁止公司員工向ChatGPT分享敏感資料，因為OpenAI可能會将其用于未來模型的訓練。

如何應對ChatGPT帶來的資料安全問題？今天，走出去智庫（CGGT）刊發相關分析文章，供關注資料安全的讀者參閱。

要點

CGGT，CHINA GOING GLOBAL THINKTANK

1、ChatGPT涉及到對個人資料的收集和處理，例如個人在使用ChatGPT過程中被收集的個人資料用于ChatGPT不斷的訓練和模型優化中，很難保證個人資料的安全合規。

2、ChatGPT擷取資料的方法需要進行評估，如果ChatGPT通過抓取網際網路上的資訊獲得訓練資料，可能存在合規問題。很多網站不允許資料被第三方收集。

3、在使用ChatGPT時，充分保護個人使用者資料和敏感資料，對預計使用的輸入資料進行敏感性識别，限制敏感資料的輸入，或利用脫敏資料使用ChatGPT。

正文

CGGT，CHINA GOING GLOBAL THINKTANK

風靡全球ChatGPT實作了科技的革新，同時也帶來法律和倫理風險。本文通過分析ChatGPT工作原理、應用場景和合規挑戰，重點研究資料保護領域面臨的合規風險，提出應對建議。

背景

ChatGPT是美國人工智能研究實驗室OpenAI新推出的一種人工智能技術驅動的自然語言處理工具。ChatGPT通過大規模的資料訓練，擁有強大的自然語言處理能力，可以生成高品質的文本内容。它能夠通過學習和了解人類的語言來進行對話，還能根據聊天的上下文進行互動，真正像人類一樣來聊天交流，甚至能完成撰寫郵件、視訊腳本、文案、翻譯、代碼等任務。

OpenAI于2022年11月30日開放測試ChatGPT，此後ChatGPT風靡全球。兩個月後，ChatGPT使用者達到1億，在1月份的通路量約為5.9億。瑞銀銀行分析師在報告中寫道，這是網際網路領域發展20年來，增長速度最快的消費類應用程式。

科技革新離不開法律法規的限制，相關監督機制的配套，守住倫理底線和法律底線，才能形成正向互動促進，推動人工智能的發展。

工作原理

1. 什麼是“深度學習”？

2006年，多倫多大學教授傑弗裡·辛頓（Geoffrey Hinton）提出深度信念網絡（Deep Belief Networks，DBNs），“深度學習”由此誕生。“深度學習”在無人駕駛汽車、語音識别、圖像識别等方面對工業界産生了巨大影響。“深度學習”是具有很多層級的神經網絡模型，現代神經網絡模型的網絡結構層數很深，動則幾百萬上千萬參數量。這些神經網絡模型在做特定任務之前，都需要經過“訓練”，即根據标注好的特定訓練資料去反複調整模型裡的參數，最後所有參數調整到位，模型能比對訓練資料集的輸入和輸出。

2. 什麼是“自然語言模型”？

在自然語言處理領域，基本概念是“語言模型”，即計算句子（單詞序列）的機率或序列中下一個單詞的機率的模型。在一句話中的單詞總是順序出現的，每個單詞都可以通過前面所有單詞計算出機率，把所有這些單詞的機率相乘，總機率數值越大，說明越像是人類語言。那麼是否可以用神經網絡來打造這樣一個語言模型呢？通過海量的人類語言語料，來訓練出一個神經網絡，然後向這個神經網絡模型輸入一句話的前面幾個詞，這個模型就能計算出這句話的下一個單詞。從“基于文法的語言模型”到“基于統計的語言模型”，進而到“基于神經網絡的語言模型”，ChatGPT所在的階段正是“基于神經網絡的語言模型”階段。

ChatGPT使用基于GPT-3.5架構的大型神經網絡語言模型，通過強化學習進行訓練。OpenAI使用監督學習和強化學習的組合來調優ChatGPT，其中的強化學習元件獨一無二，即使用了人類回報強化學習（RLHF）的訓練方法，該方法在訓練中使用人類回報，以最小化無益、失真或偏見的輸出。

ChatGPT通過連接配接大量的語料庫來訓練模型，強大的學習能力來自于大規模的、海量的文本資料訓練，通過對其不斷地監督學習、人工糾錯、強化學習進行對話模拟，最終形成越來越接近于人類語言的語言模型。

應用場景

1. 人工互動

ChatGPT可以幫助人們解決語言互動問題，提高工作效率。例如政企辦公、智慧家庭、客服機器人、虛拟人、翻譯、營銷、遊戲、社交、教育、家庭陪護、法律咨詢等多個領域被應用。

2. 輔助工作

依托ChatGPT語言編寫能力，可應用于編寫和調試計算機程式，進行文學相關領域的創作，法律文書編寫等。

3. 搜尋引擎

結合ChatGPT的搜尋引擎很可能會呈現出傳統搜尋引擎為主+基于神經網絡的語言模型為輔的途徑，搜尋結果将會更加“人性化”。百度正式官宣将在3月份完成其ChatGPT産品文心一言的内測，面向公衆開放。微軟現已推出由ChatGPT支援的最新版本Bing搜尋引擎。

“AI不會讓你失業，會用AI的人會讓你失業。”ChatGPT橫空出世，可能會創造新的工作機會，在一個更高的水準上熟練使用最先進的生産工具是我們必須掌握的技能，例如與人工智能相關的開發、研究、資料分析等。随着人工智能技術的不斷發展，它也可以協助解決多項跨越行業的問題，進而創造新的商機。

合規挑戰

ChatGPT固然實作了科技的革新，但也有可能帶來法律和倫理風險，甚至滋生犯罪。

1. 個人資料

ChatGPT涉及到對個人資料的收集和處理，例如個人在使用ChatGPT過程中被收集的個人資料用于ChatGPT不斷的訓練和模型優化中，很難保證個人資料的安全合規。

2. 商業資料

ChatGPT涉及到對商業資料的收集和處理，例如公司員工用ChatGPT輔助其工作，在使用ChatGPT時可能會輸入業務資訊，引起了公司對于商業秘密洩露的擔憂。

3. 知識産權

ChatGPT涉及到智力創造和知識産權問題，例如ChatGPT将文本資料複制使用，可能觸及作品版權、挖掘行為授權、二次創作許可、AI智力成果保護等，都存在争議。

4. 虛假資訊

ChatGPT涉及到模仿冒充和虛假資訊問題，例如ChatGPT利用強大人類說話和行為方式模仿、自然語言編寫能力，冒充真實的人或者組織騙取他人資訊、實施身份盜用等。

5. 數字倫理

ChatGPT和AI可以模拟人類的思想和行為，甚至擁有自己的情感。當AI進化到和人類似的時候，AI這一本體是否擁有人權？如果有，這些權利與責任由誰來規範？是否具有人類社會的基本道德？人工智能是否尊重人的生命價值和尊嚴、自由和平等？ChatGPT和AI面臨巨大的倫理風險。

在學術專業領域，紐約市教育部發言人Jenna Lyle認為，ChatGPT的負面影響超過了積極因素。Lyle表示，“雖然該AI工具可能能夠提供快速簡便的問題答案，但它并不能培養批判性思維和解決問題的能力，而這些技能對于學術和終身成功至關重要”。一項調查顯示，截止2023年1月，美國89%的大學生都是用ChatGPT做作業。甚至國外不少學生已經開始使用ChatGPT代替自己撰寫論文。

資料保護風險分析及建議

在資料保護合規領域，ChatGPT主要面臨着使用者個人資料處理、算法模型訓練、技術不當使用等方面的風險。

1. 使用者個人資料處理風險

1.1 個人資料收集

使用者在使用ChatGPT時，可能會輸入自己的敏感個人資料，甚至是他人的敏感個人資料。在某些法域下，對于敏感個人資料有增強的合規要求，例如中國個人資訊保護法下的單獨同意要求。如缺乏相關考慮，會存在資料收集合規問題。

1.2 個人資料加工使用

ChatGPT使用了RLHF的訓練方法，使用者使用過程中的輸入和互動資訊可能會用于其持續疊代訓練。ChatGPT具備了相當的推理演繹能力，可能從互動資訊中獲得更敏感的使用者資料。此外，使用者的輸入資訊還可能被用于其他使用者提供服務目前述互動中包含個人資料時，在這類場景中，處理目的與使用者初始使用目的相比已發生變化，根據個人資訊保護法和國标35273，需要重新擷取同意。在某些場景下，使用者輸入資訊甚至在可能在ChatGPT提供服務的過程中，被其他使用者擷取進一步使用，進而構成資料共享，帶來更多的資料合規問題。

1.3 資料處理透明性

ChatGPT功能強大，對于個人資料的處理方式可能非常複雜。此外，當涉及前述的二次使用或資料共享時，對ChatGPT處理過程的透明性提出了更高要求。

1.4 資料主體行權

當使用者輸入資訊涉及個人資料時，需要保障資料主體的基本權利，如更改權、删除權、通路權、可攜帶權、拒絕自動化決策權等等。OpenAI承諾ChatGPT會從其使用的記錄中删除所有個人身份資訊，但并未說明如何删除。由于所有輸入可能會被用于持續疊代訓練，是以資料主體的權利主張可能都将對ChatGPT的合規管控機制提出嚴格的考驗。

2. 算法模型訓練風險

2.1 算法開發

ChatGPT是一款智能聊天程式，本質上是人工智能技術驅動的自然語言處理工具，同時還應用了AIGC技術。算法需要滿足算法向善、決策透明性、風險評估等要求，AIGC技術需要關注虛假資料生成、不良資料識别等要求。

在人工智能規制方面，國家新一代人工智能治理專業委員會亦在2021年釋出了《新一代人工智能倫理規範》，提出将倫理道德融入人工智能研發和應用的全生命周期。歐洲、美國較早前也出台了類似的規範甚至法律。2023年1月，美國NIST出台了人工智能風險管理架構，為人工智能合規治理提供了可落地的治理路徑。

AIGC技術落入到網信辦、工信部和公安部2022年釋出的網際網路資訊服務深度合成管理規定，需要健全算法機制機理審查、倫理審查、釋出審查、反詐騙等管理要求。

2.2 訓練資料擷取

ChatGPT擷取資料的方法需要進行評估，如果ChatGPT通過抓取網際網路上的資訊獲得訓練資料，可能存在合規問題。很多網站不允許資料被第三方收集。在個人層面，ChatGPT也需要解決未經使用者同意大量資料抓取是否涉及資料合規的問題。

2.3 資料洩露處置

由于ChatGPT強大的功能，出現了使用ChatGPT輔助辦公的場景，使用者在使用過程中輸入各類工作相關資訊，可能導緻公司敏感資訊洩露。目前，微軟和亞馬遜公司對使用ChatGPT輔助辦公持開放态度，但是禁止分享“任何公司機密資訊”，因為輸入的資訊可能會被用作ChatGPT的持續疊代訓練。

3. 技術不當使用風險

使用者對ChatGPT的不當使用也會帶來很多資料保護和資料安全問題，例如：

a.收集非法資料：利用ChatGPT建立虛假社交媒體賬号，從受害者那裡收集個人資料，實施進一步侵害行為。

b.生成字典：建立大量可用于對線上帳戶進行自動攻擊的潛在使用者名和密碼組合，進行暴力攻擊。

c.生成惡意軟體：利用自然語言編寫的能力，編寫惡意軟體，進而逃避防病毒軟體的檢測。

d.社會工程：使用ChatGPT的編寫功能，利用來自網際網路的大量資料，可以生成極具說服力的釣魚電子郵件或消息，冒充真實的人或者組織騙取他人資訊。

4. 建議

在使用ChatGPT時，關注采取以下方式降低風險：

a.充分保護個人使用者資料和敏感資料，對預計使用的輸入資料進行敏感性識别，限制敏感資料的輸入，或利用脫敏資料使用ChatGPT。

b.建立企業使用者通路控制機制，防止未授權使用ChatGPT，導緻資料洩露。

c.對企業員工進行如何正确使用ChatGPT教育訓練，定期進行安全監測和合規審計。

總結

随着人工智能的逐漸發展，相應的法律合規挑戰隻會持續出現。OpenAI首席技術官米拉·穆拉蒂表示，ChatGPT應該受到監管，因為它可能被“危險分子”使用。全球各國設制度規範ChatGPT等AI産品，制定配套的法律法規，同時設立具有前瞻性和限制性的基本倫理标準，将ChatGPT的功能開發、應用場景以及疊代更新等納入監管範疇。

擁抱人工智能新時代，從個人角度，要學會利用ChatGPT并找到更具創造力的競争優勢；從企業角度，要做好商業模式和技術路線的融合規劃，提升企業核心競争力；從政府角度，要前瞻布局，搭建相關的法律法規和倫理架構。

來源：合規小叨客（作者：L.GJ，S.WQ，X.YJ）

免責聲明：本文僅代表原作者觀點，不代表走出去智庫立場。

資料安全觀察｜ChatGPT潛在資料保護風險分析及建議

繼續閱讀

#尋找數位點評派#華為的技術革新：NearLink星閃領跑無線連接配接技術華為成為全球領先的通信巨頭，靠的就是不斷創新的技術

固态硬碟是否需要安裝？許多人對這個問題感到困惑。固态硬碟（SSD）是一種使用閃存晶片存儲資料的硬碟，與傳統的機械硬碟（H

資料安全服務前十企業名單揭曉中睿天下榮登榜單

巧妙平衡資料安全與業務可用之間的“度”

牟承晉：資料安全是網絡化資訊安全的核心

【法律知識小科普】——"網絡隐私保護：個人資料安全指南"

sas和sata硬碟差別。·1.接口技術。SAS硬碟是并行SCSI接口之後開發出的全新接口，采用串行技術以獲得更高的傳輸

知道創宇受邀探讨基于網空測繪的資産安全管理獲《保密科學技術》重磅推薦...

4.29閉幕｜知道創宇六大行業網安建設分享集錦

ISO/IEC 27018公有雲中個人身份資訊管理體系認證概述

項目團隊中的沖突是項目程序中的必然現象

#榮耀MagicV2#榮耀MagicV2是一款功能強大的智能手機。它采用了最新的技術，提供了許多令人印象深刻的功能。榮耀

自定義報頭協定

資料庫設計報告——用教材管理系統來舉例資料庫設計文檔通用模闆

中國網絡安全能力圖譜(2020.9)公布，中安威士多款産品受到認可

軟考-軟體設計師筆記五（系統安全分析與設計）資訊系統安全屬性對稱加密技術非對稱加密技術資訊摘要數字簽名數字信封與PGP各個網絡層次的安全保障網絡威脅與攻擊防火牆技術