當前位置：廣東省應(yīng)對技術(shù)性貿(mào)易壁壘信息平臺最新動態(tài)國外資訊

歐洲數(shù)據(jù)保護委員會發(fā)布大型語言模型隱私風(fēng)險報告

信息來源：江蘇省技術(shù)性貿(mào)易措施信息平臺發(fā)布日期：2025-04-30 閱讀：4035次

字體：大

小中大

2025年4月10日，歐洲數(shù)據(jù)保護委員會（EDPB）發(fā)布《AI隱私風(fēng)險與緩解措施-大型語言模型（LLMs）》，聚焦于大語言模型（LLMs）在數(shù)據(jù)流動過程中的隱私風(fēng)險，并提出了全面的風(fēng)險評估與管理框架，為保障用戶數(shù)據(jù)安全提供了關(guān)鍵指引。

一、LLMs 基礎(chǔ)與技術(shù)概述

1、定義與架構(gòu)

大語言模型（LLMs）基于Transformer架構(gòu)，通過注意力機制處理上下文關(guān)系，典型模型包括 GPT、BERT、DeepSeek-V3等。

訓(xùn)練流程：數(shù)據(jù)集收集（如 Common Crawl）→預(yù)處理（分詞、嵌入）→模型訓(xùn)練（損失計算、反向傳播）→微調(diào)（監(jiān)督學(xué)習(xí)、RLHF）。

新興技術(shù)：Agentic AI（自主決策代理）結(jié)合LLMs與工具調(diào)用，涉及感知、推理、記憶模塊，2027 年預(yù)計 50% 企業(yè)試點。

2、應(yīng)用場景

垂直領(lǐng)域：客戶支持（Chatbot）、內(nèi)容生成（Jasper AI）、醫(yī)療診斷輔助、代碼生成（GitHub Copilot）。

服務(wù)模式：

即服務(wù)（SaaS）：如 OpenAI GPT-4 API，用戶通過API調(diào)用，數(shù)據(jù)流經(jīng)提供商服務(wù)器。

現(xiàn)成模型（Off-the-Shelf）：如Hugging Face開源模型，用戶可本地部署并微調(diào)。

自研模型：企業(yè)自主開發(fā)，如DeepSeek 自研670億參數(shù)模型。

二、隱私風(fēng)險與數(shù)據(jù)流動分析

1、LLMs生命周期各階段的隱私風(fēng)險

數(shù)據(jù)收集階段：訓(xùn)練、測試和驗證集可能包含可識別的個人數(shù)據(jù)、敏感數(shù)據(jù)或特殊類別數(shù)據(jù)。若收集的數(shù)據(jù)未經(jīng)嚴格篩選，可能會將個人詳細信息、機密文件等敏感內(nèi)容納入其中，比如從網(wǎng)絡(luò)爬取的數(shù)據(jù)中可能包含個人身份證號、醫(yī)療記錄等。此外，數(shù)據(jù)收集過程可能存在違反隱私權(quán)利、缺乏適當同意或侵犯版權(quán)等法律問題，如在未獲得用戶明確授權(quán)的情況下收集其數(shù)據(jù)。

模型訓(xùn)練階段：模型可能會無意中記住敏感數(shù)據(jù)，一旦這些數(shù)據(jù)在輸出中暴露，就會導(dǎo)致潛在的隱私侵犯。例如，模型在訓(xùn)練過程中學(xué)習(xí)到了用戶的敏感信息，當生成輸出時，可能會意外地將這些信息包含在內(nèi)。

推理階段：生成的輸出可能會無意中泄露私人信息或包含錯誤信息。比如，在回答用戶問題時，可能會泄露其他用戶的隱私數(shù)據(jù)，或者由于模型的局限性，生成的答案存在事實錯誤，誤導(dǎo)用戶。在使用RAG過程中，如果知識bases包含敏感數(shù)據(jù)且未實施適當?shù)陌踩胧?，可能會?dǎo)致敏感數(shù)據(jù)的泄露。此外，反饋循環(huán)中用戶交互可能未得到充分保護，存在隱私風(fēng)險。

部署階段：模型與實時數(shù)據(jù)輸入交互，這些實時數(shù)據(jù)可能包含高度敏感的信息，需要對收集、傳輸和存儲進行嚴格控制。例如，在實時聊天應(yīng)用中，用戶輸入的信息可能涉及個人隱私，若處理不當，容易造成數(shù)據(jù)泄露。

運行和監(jiān)控階段：監(jiān)控系統(tǒng)的日志可能會保留個人數(shù)據(jù)，如用戶交互記錄，這增加了數(shù)據(jù)泄露或濫用的風(fēng)險。若日志管理不善，被未經(jīng)授權(quán)的人員獲取，就會導(dǎo)致用戶隱私泄露。

重新評估、維護和更新階段：使用實時用戶數(shù)據(jù)進行更新時，如果沒有獲得適當?shù)耐饣虿扇“踩胧?，可能會違反隱私原則。例如，在模型更新過程中，未經(jīng)用戶同意使用其最新數(shù)據(jù)，可能會侵犯用戶的隱私權(quán)。

退休階段：與模型及其操作相關(guān)的數(shù)據(jù)在存檔或刪除時，如果未能正確擦除個人數(shù)據(jù)，可能會導(dǎo)致長期的隱私漏洞。比如，刪除數(shù)據(jù)不徹底，使得個人數(shù)據(jù)在后續(xù)仍有被恢復(fù)和泄露的風(fēng)險。

2、LLMs不同服務(wù)模式下的隱私風(fēng)險

LLM作為服務(wù)（LLM as a Service）：用戶通過API與模型交互，數(shù)據(jù)流經(jīng)提供商系統(tǒng)?？赡艽嬖诘娘L(fēng)險包括用戶輸入時敏感數(shù)據(jù)披露、未經(jīng)授權(quán)訪問、缺乏透明度和對抗攻擊等；提供商接口和API可能出現(xiàn)數(shù)據(jù)攔截、API濫用和接口漏洞等問題；LLM處理過程中可能存在模型推理風(fēng)險、意外數(shù)據(jù)記錄、匿名化失敗、未經(jīng)授權(quán)訪問日志、數(shù)據(jù)聚合風(fēng)險、第三方暴露和缺乏數(shù)據(jù)保留政策等；處理后的輸出可能存在不準確或敏感響應(yīng)、重新識別風(fēng)險和輸出濫用等問題。以O(shè)penAI GPT-4 API為例，用戶依賴其隱私保障，但難以獨立驗證其合規(guī)性。

LLM“現(xiàn)成的”（LLM ‘off - the - shelf’）：部署者可自定義權(quán)重和微調(diào)模型，與LLM 作為服務(wù)模式有相似之處，但也有獨特風(fēng)險。例如，組織在使用 “現(xiàn)成的” 模型時，可能因?qū)υ加?xùn)練數(shù)據(jù)集內(nèi)容缺乏了解，引入偏見、不準確或未知的隱私風(fēng)險；同時，依賴原始提供商進行模型更新，可能會延遲關(guān)鍵改進或修復(fù)。此外，在使用 RAG 時，可能存在不安全的日志記錄或緩存、第三方數(shù)據(jù)處理和敏感數(shù)據(jù)暴露等風(fēng)險。

自行開發(fā)的LLM（Self - developed LLM）：組織自行負責模型的設(shè)計、訓(xùn)練和部署，雖然有更多控制權(quán)，但也面臨諸多風(fēng)險。在數(shù)據(jù)集收集和準備階段，可能會包含敏感信息、存在法律合規(guī)問題、數(shù)據(jù)有偏差和受到數(shù)據(jù)投毒攻擊等；模型訓(xùn)練階段，訓(xùn)練環(huán)境可能存在安全漏洞、模型可能出現(xiàn)過擬合并暴露敏感信息；微調(diào)階段，可能會暴露專有或敏感數(shù)據(jù)、存在第三方風(fēng)險；部署階段，可能出現(xiàn)未經(jīng)授權(quán)訪問和不安全的托管等問題。

基于LLM的Agentic系統(tǒng)（LLM-based Agentic Systems）：AI Agents與其他系統(tǒng)和應(yīng)用有更多交互，數(shù)據(jù)流動更復(fù)雜。在感知階段，可能會收集和暴露敏感用戶輸入、預(yù)處理不當保留可識別信息、輸入接口存在安全風(fēng)險和缺乏透明度；規(guī)劃階段，敏感數(shù)據(jù)可能在傳輸過程中缺乏保護、第三方系統(tǒng)可能不符合隱私和安全標準；記憶階段，長期存儲用戶數(shù)據(jù)增加風(fēng)險、保留敏感數(shù)據(jù)可能違反法規(guī)；行動階段，生成的輸出可能包含敏感信息、輸出共享可能被攔截或濫用、多個Agent協(xié)同可能增加幻覺概率；反饋和迭代循環(huán)階段，用戶反饋可能在未經(jīng)同意的情況下被用于模型再訓(xùn)練、敏感反饋信息可能在日志或數(shù)據(jù)集中持續(xù)存在。

三、風(fēng)險評估與管理框架

1、風(fēng)險識別

風(fēng)險因素考量：借助多種風(fēng)險因素來識別LLMs使用中的風(fēng)險，如處理敏感數(shù)據(jù)和大量數(shù)據(jù)會增加風(fēng)險等級。同時，需考慮數(shù)據(jù)質(zhì)量、系統(tǒng)安全防護措施等因素，低質(zhì)量數(shù)據(jù)可能導(dǎo)致模型輸出錯誤，而缺乏足夠安全防護則易引發(fā)數(shù)據(jù)泄露。此外，還應(yīng)關(guān)注弱勢群體在數(shù)據(jù)處理中的權(quán)益保護，確保其基本權(quán)利不受侵害。

相關(guān)概念剖析：深入理解《AI法案》中引入的安全概念，如危險（潛在危害源）、危險暴露（個體或系統(tǒng)暴露于危害的程度）、安全（降低危害的措施）、威脅（可能利用系統(tǒng)漏洞的外部因素）和漏洞（系統(tǒng)中可被利用的弱點）等。這些概念相互關(guān)聯(lián)，共同構(gòu)成評估LLMs風(fēng)險的基礎(chǔ)框架，有助于全面把握風(fēng)險的本質(zhì)和來源。

目的與背景的關(guān)鍵作用：明確系統(tǒng)的預(yù)期用途和運行背景對風(fēng)險識別至關(guān)重要?！锻ㄓ脭?shù)據(jù)保護條例》（GDPR）強調(diào)依據(jù)數(shù)據(jù)處理的性質(zhì)、范圍、背景和目的來評估風(fēng)險；《AI 法案》則突出定義和評估AI系統(tǒng)預(yù)期運行方式的重要性。只有精準把握這些方面，才能發(fā)現(xiàn)系統(tǒng)在特定場景下的潛在風(fēng)險，如系統(tǒng)被誤用或在特定環(huán)境中產(chǎn)生意外漏洞等。

威脅建模的運用：威脅建模是系統(tǒng)識別隱私風(fēng)險的有效方法，它通過利用特定的AI威脅、危害和漏洞庫，對AI系統(tǒng)生命周期中的風(fēng)險進行結(jié)構(gòu)化評估。通過該方法，可識別潛在的攻擊面、誤用案例和漏洞，為風(fēng)險評估提供有價值的參考，如發(fā)現(xiàn)數(shù)據(jù)訪問權(quán)限設(shè)置不當可能導(dǎo)致的未經(jīng)授權(quán)訪問風(fēng)險。

證據(jù)收集的重要性：為有效管理風(fēng)險，需基于可靠證據(jù)進行評估。這包括收集系統(tǒng)運行數(shù)據(jù)（如日志和使用模式）、評估結(jié)果（來自指標測試、紅隊演練和外部審計）以及用戶或舉報人反饋等多方面信息。這些證據(jù)相互補充，能全面反映系統(tǒng)潛在的危害和漏洞，為風(fēng)險識別提供有力支持。

2、風(fēng)險評估

評估流程與利益相關(guān)者協(xié)作：在風(fēng)險識別后，需對風(fēng)險進行估計和評估，包括依據(jù)概率和嚴重程度對風(fēng)險進行分類和排序。利益相關(guān)者的協(xié)作在這一過程中至關(guān)重要，由于AI的跨學(xué)科特性，需要技術(shù)、法律、倫理等多領(lǐng)域?qū)I(yè)人員共同參與，從不同角度審視風(fēng)險，確保評估的全面性和準確性。

概率評估標準：采用四級風(fēng)險分類矩陣來確定風(fēng)險概率，即非常高（事件發(fā)生可能性大）、高（有較大可能性發(fā)生）、低（發(fā)生可能性較小）、不太可能（幾乎無發(fā)生跡象）。通過考慮系統(tǒng)使用頻率、暴露于高風(fēng)險場景的程度、歷史先例、環(huán)境因素、系統(tǒng)穩(wěn)健性、數(shù)據(jù)質(zhì)量和完整性以及人為監(jiān)督和專業(yè)知識等標準，對每個風(fēng)險進行評估并打分，進而計算出綜合概率得分，以確定風(fēng)險的概率等級。

嚴重程度評估標準：同樣使用四級風(fēng)險分類矩陣評估風(fēng)險嚴重程度，即非常嚴重（影響基本權(quán)利和公共自由，后果不可逆等）、嚴重（上述情況影響可逆，但存在數(shù)據(jù)主體對個人數(shù)據(jù)失控等問題）、嚴重但有限（對部分個人數(shù)據(jù)失去控制等較小影響）、非常有限（上述有限影響可完全逆轉(zhuǎn)）。評估時考慮基本權(quán)利性質(zhì)、個人數(shù)據(jù)敏感性、數(shù)據(jù)主體類別、處理目的、影響范圍和數(shù)量、上下文和領(lǐng)域敏感性、危害的可逆性、持續(xù)時間和速度、透明度和問責機制以及連鎖反應(yīng)等標準，其中部分標準具有 “阻斷” 作用，若達到最高級別，整體嚴重程度將直接判定為最高等級。

風(fēng)險分類與接受標準：綜合概率和嚴重程度評估結(jié)果，將風(fēng)險分為非常高、高、中、低四個等級。通常，非常高和高等級風(fēng)險應(yīng)優(yōu)先緩解。在風(fēng)險評估階段，還需依據(jù)組織的風(fēng)險承受能力和合規(guī)要求，確定風(fēng)險是否可接受，確保風(fēng)險在組織可控范圍內(nèi)。

3、風(fēng)險控制

風(fēng)險處理標準：風(fēng)險處理包括緩解、轉(zhuǎn)移、避免和接受四種策略。選擇合適的策略需綜合考慮風(fēng)險類型、可用緩解措施、實施成本和效果、對系統(tǒng)預(yù)期用途的影響以及受影響個體的合理期望等因素。例如，對于數(shù)據(jù)泄露風(fēng)險，可通過實施加密技術(shù)、加強訪問控制等措施來緩解；對于一些無法完全避免的風(fēng)險，若在可接受范圍內(nèi)，組織可選擇接受。

緩解措施示例：針對 LLMs 常見的隱私風(fēng)險，如個人數(shù)據(jù)保護不足、訓(xùn)練數(shù)據(jù)匿名化錯誤等，提出了一系列具體的緩解措施。包括確保 API 安全實施、加密數(shù)據(jù)傳輸和存儲、實施訪問控制和匿名化措施、進行定期安全審計、培訓(xùn)員工安全最佳實踐等。同時，不同風(fēng)險的緩解措施在提供商和部署者之間可能存在不同的責任分配，雙方需密切協(xié)作，共同應(yīng)對風(fēng)險。

四、案例分析與工具標準

1、案例分析

虛擬助手（Chatbot）用于客戶查詢：某廚房設(shè)備公司欲部署基于 “現(xiàn)成的” LLM并使用RAG技術(shù)的聊天bot。在設(shè)計與開發(fā)階段，詳細梳理了數(shù)據(jù)流程，包括用戶輸入、數(shù)據(jù)預(yù)處理與API交互、RAG檢索、LLM處理、數(shù)據(jù)存儲、個性化響應(yīng)生成、數(shù)據(jù)共享和反饋收集等環(huán)節(jié)。通過分析系統(tǒng)架構(gòu)和與利益相關(guān)者協(xié)作，識別出如個人數(shù)據(jù)保護不足、訓(xùn)練數(shù)據(jù)匿名化錯誤等風(fēng)險。采用FRASP框架評估風(fēng)險概率和嚴重程度，多數(shù)風(fēng)險被評為高風(fēng)險。針對這些風(fēng)險，采取了如加密數(shù)據(jù)傳輸、限制數(shù)據(jù)收集、審核第三方數(shù)據(jù)保護實踐等一系列緩解措施。實施緩解措施后，風(fēng)險等級降為中等。若風(fēng)險仍不可接受，可進一步強化預(yù)防控制、探索額外緩解措施或重新評估風(fēng)險容忍度。同時，要持續(xù)監(jiān)測聊天bot，確保風(fēng)險始終處于可控范圍內(nèi)。

LLM系統(tǒng)用于監(jiān)測和支持學(xué)生進步：某學(xué)校計劃采用第三方基于“現(xiàn)成的”LLM模型的系統(tǒng)來監(jiān)測學(xué)生學(xué)業(yè)表現(xiàn)。由于涉及未成年人敏感信息，存在諸多隱私風(fēng)險。如數(shù)據(jù)保護措施薄弱可能導(dǎo)致學(xué)生敏感數(shù)據(jù)泄露，訓(xùn)練數(shù)據(jù)可能存在非法處理個人數(shù)據(jù)的情況，模型輸出可能存在偏差影響學(xué)生等。針對這些風(fēng)險，建議學(xué)校采取的措施包括實施強加密協(xié)議、進行安全審計和滲透測試、驗證供應(yīng)商合規(guī)性、審核訓(xùn)練數(shù)據(jù)、監(jiān)測模型偏差、確保人類監(jiān)督、保障數(shù)據(jù)主體權(quán)利、明確數(shù)據(jù)保留政策、評估數(shù)據(jù)傳輸風(fēng)險以及嚴格控制數(shù)據(jù)收集等。這些措施旨在全面降低風(fēng)險，保護學(xué)生的隱私和權(quán)益。

AI助手用于旅行和日程管理：該AI助手基于多種“現(xiàn)成的”LLMs和SLMs開發(fā)，用于管理旅行計劃和日常日程。在運營和監(jiān)測階段，識別出的隱私風(fēng)險包括處理特殊類別數(shù)據(jù)（如從旅行模式推斷出的健康狀況）、操縱或過度依賴建議、用戶對系統(tǒng)操作不了解、缺乏人類監(jiān)督、數(shù)據(jù)主體權(quán)利行使困難、數(shù)據(jù)再利用風(fēng)險、數(shù)據(jù)保留過長以及跨境數(shù)據(jù)共享風(fēng)險等。針對這些風(fēng)險，采取的緩解措施有文檔化數(shù)據(jù)匿名化方法、實施明確同意機制、監(jiān)測輸出偏差、確保關(guān)鍵決策有人工確認、提供用戶友好的數(shù)據(jù)操作界面、限制數(shù)據(jù)使用目的、定義數(shù)據(jù)保留期、驗證第三方服務(wù)合規(guī)性等。這些措施有助于保障用戶數(shù)據(jù)安全和隱私，提升系統(tǒng)的可靠性和用戶信任度。

2、工具和標準

評估指標：LLM評估分為內(nèi)在評估和外在評估。內(nèi)在評估在受控環(huán)境下測試模型性能，外在評估則在實際應(yīng)用中評估模型的泛化能力和相關(guān)性。常用的評估指標包括準確率、精確率、召回率、F1分數(shù)、AUC、AUROC等傳統(tǒng)指標，以及針對LLM的特定指標，如BLEU、ROUGE用于評估文本生成質(zhì)量，MoverScore評估語義相似性。此外，還有用于評估模型效率和可用性的指標，如每分鐘完成請求數(shù)、首次令牌生成時間等。同時，通過一些工具和框架，如GLUE、MMLU、ChatbotArena等基準測試來評估模型在不同任務(wù)和場景下的表現(xiàn)。

保障措施和工具：LLMs中的保障措施（或護欄）用于確保模型安全、符合道德和可靠運行。例如，內(nèi)容過濾器可阻止或標記有害內(nèi)容，提示拒絕可防止對危險提示的響應(yīng)，偏差緩解可減少不公平輸出，人在回路方法用于高風(fēng)險應(yīng)用中的人工監(jiān)督，后處理解毒可去除有害內(nèi)容，對抗測試可評估模型應(yīng)對有害提示的能力。此外，還介紹了一些開源工具，如Anthropic Model Context Protocol用于構(gòu)建安全連接，llmperf用于評估 LLM API性能，以及OWASP AI Exchange 提供的AI安全指導(dǎo)等。在隱私保護方面，有Clio、RAG with differential privacy guarantees等技術(shù)和工具，以及用于標記或匿名化敏感信息的工具，如Google Cloud Data Loss Prevention、Microsoft Presidio、OpenAI Moderation API 等。

方法和指導(dǎo)：介紹了一些用于識別數(shù)據(jù)保護和隱私風(fēng)險的方法和工具，如 Practical Library of Threats (PLOT4ai) 用于 AI 系統(tǒng)風(fēng)險識別，MITRE ATLAS 提供對抗策略知識，Assessment List for Trustworthy Artificial Intelligence (ALTAI) 指導(dǎo)開發(fā)者實施可信 AI 原則。同時，還列舉了一些相關(guān)的指導(dǎo)文件和標準，如 OECD 關(guān)于 AI 語言模型的報告、NIST 的 GenAI Security 和 AI Risk Management Framework、FRIA 方法以及 AI Cyber Security Code of Practice 等，這些指導(dǎo)和標準為 LLM 系統(tǒng)的開發(fā)、部署和風(fēng)險評估提供了重要的參考依據(jù)。

轉(zhuǎn)載鏈接：https://www.tbtguide.com/c/mypt/gwxw/595823.jhtml

廣東技術(shù)性貿(mào)易措施微信公眾號
關(guān)注“廣東技術(shù)性貿(mào)易措施”，獲取更多服務(wù)。

本文包含附件，您需要登錄后，才能查看此附件內(nèi)容！
如果您還不是會員，請先注冊！

[上一篇]歐盟發(fā)布《可持續(xù)產(chǎn)品生態(tài)設(shè)計和能源標簽2025-2030工作計劃》

[下一篇]以色列更新甲醛在化妝品中的標簽標準

日本不卡在线观看|亚洲欧美国产va|欧美激情四射在线|亚洲熟女超碰精品|在线天堂人人二区|草草草视频免费看|怡红院AV资源站|精品国产亚洲AV|欧美色婷婷五月天|自拍偷拍另类4p

歐洲數(shù)據(jù)保護委員會發(fā)布大型語言模型隱私風(fēng)險報告

相關(guān)資訊