2025年4月10日,歐洲數(shù)據(jù)保護(hù)委員會(huì)(EDPB)發(fā)布《AI隱私風(fēng)險(xiǎn)與緩解措施-大型語(yǔ)言模型(LLMs)》,聚焦于大語(yǔ)言模型(LLMs)在數(shù)據(jù)流動(dòng)過(guò)程中的隱私風(fēng)險(xiǎn),并提出了全面的風(fēng)險(xiǎn)評(píng)估與管理框架,為保障用戶數(shù)據(jù)安全提供了關(guān)鍵指引。
一、LLMs 基礎(chǔ)與技術(shù)概述
1、定義與架構(gòu)
大語(yǔ)言模型(LLMs)基于Transformer架構(gòu),通過(guò)注意力機(jī)制處理上下文關(guān)系,典型模型包括 GPT、BERT、DeepSeek-V3等。
訓(xùn)練流程:數(shù)據(jù)集收集(如 Common Crawl)→預(yù)處理(分詞、嵌入)→模型訓(xùn)練(損失計(jì)算、反向傳播)→微調(diào)(監(jiān)督學(xué)習(xí)、RLHF)。
新興技術(shù):Agentic AI(自主決策代理)結(jié)合LLMs與工具調(diào)用,涉及感知、推理、記憶模塊,2027 年預(yù)計(jì) 50% 企業(yè)試點(diǎn)。
2、應(yīng)用場(chǎng)景
垂直領(lǐng)域:客戶支持(Chatbot)、內(nèi)容生成(Jasper AI)、醫(yī)療診斷輔助、代碼生成(GitHub Copilot)。
服務(wù)模式:
即服務(wù)(SaaS):如 OpenAI GPT-4 API,用戶通過(guò)API調(diào)用,數(shù)據(jù)流經(jīng)提供商服務(wù)器。
現(xiàn)成模型(Off-the-Shelf):如Hugging Face開源模型,用戶可本地部署并微調(diào)。
自研模型:企業(yè)自主開發(fā),如DeepSeek 自研670億參數(shù)模型。
二、隱私風(fēng)險(xiǎn)與數(shù)據(jù)流動(dòng)分析
1、LLMs生命周期各階段的隱私風(fēng)險(xiǎn)
數(shù)據(jù)收集階段:訓(xùn)練、測(cè)試和驗(yàn)證集可能包含可識(shí)別的個(gè)人數(shù)據(jù)、敏感數(shù)據(jù)或特殊類別數(shù)據(jù)。若收集的數(shù)據(jù)未經(jīng)嚴(yán)格篩選,可能會(huì)將個(gè)人詳細(xì)信息、機(jī)密文件等敏感內(nèi)容納入其中,比如從網(wǎng)絡(luò)爬取的數(shù)據(jù)中可能包含個(gè)人身份證號(hào)、醫(yī)療記錄等。此外,數(shù)據(jù)收集過(guò)程可能存在違反隱私權(quán)利、缺乏適當(dāng)同意或侵犯版權(quán)等法律問(wèn)題,如在未獲得用戶明確授權(quán)的情況下收集其數(shù)據(jù)。
模型訓(xùn)練階段:模型可能會(huì)無(wú)意中記住敏感數(shù)據(jù),一旦這些數(shù)據(jù)在輸出中暴露,就會(huì)導(dǎo)致潛在的隱私侵犯。例如,模型在訓(xùn)練過(guò)程中學(xué)習(xí)到了用戶的敏感信息,當(dāng)生成輸出時(shí),可能會(huì)意外地將這些信息包含在內(nèi)。
推理階段:生成的輸出可能會(huì)無(wú)意中泄露私人信息或包含錯(cuò)誤信息。比如,在回答用戶問(wèn)題時(shí),可能會(huì)泄露其他用戶的隱私數(shù)據(jù),或者由于模型的局限性,生成的答案存在事實(shí)錯(cuò)誤,誤導(dǎo)用戶。在使用RAG過(guò)程中,如果知識(shí)bases包含敏感數(shù)據(jù)且未實(shí)施適當(dāng)?shù)陌踩胧?,可能?huì)導(dǎo)致敏感數(shù)據(jù)的泄露。此外,反饋循環(huán)中用戶交互可能未得到充分保護(hù),存在隱私風(fēng)險(xiǎn)。
部署階段:模型與實(shí)時(shí)數(shù)據(jù)輸入交互,這些實(shí)時(shí)數(shù)據(jù)可能包含高度敏感的信息,需要對(duì)收集、傳輸和存儲(chǔ)進(jìn)行嚴(yán)格控制。例如,在實(shí)時(shí)聊天應(yīng)用中,用戶輸入的信息可能涉及個(gè)人隱私,若處理不當(dāng),容易造成數(shù)據(jù)泄露。
運(yùn)行和監(jiān)控階段:監(jiān)控系統(tǒng)的日志可能會(huì)保留個(gè)人數(shù)據(jù),如用戶交互記錄,這增加了數(shù)據(jù)泄露或?yàn)E用的風(fēng)險(xiǎn)。若日志管理不善,被未經(jīng)授權(quán)的人員獲取,就會(huì)導(dǎo)致用戶隱私泄露。
重新評(píng)估、維護(hù)和更新階段:使用實(shí)時(shí)用戶數(shù)據(jù)進(jìn)行更新時(shí),如果沒(méi)有獲得適當(dāng)?shù)耐饣虿扇“踩胧?,可能?huì)違反隱私原則。例如,在模型更新過(guò)程中,未經(jīng)用戶同意使用其最新數(shù)據(jù),可能會(huì)侵犯用戶的隱私權(quán)。
退休階段:與模型及其操作相關(guān)的數(shù)據(jù)在存檔或刪除時(shí),如果未能正確擦除個(gè)人數(shù)據(jù),可能會(huì)導(dǎo)致長(zhǎng)期的隱私漏洞。比如,刪除數(shù)據(jù)不徹底,使得個(gè)人數(shù)據(jù)在后續(xù)仍有被恢復(fù)和泄露的風(fēng)險(xiǎn)。
2、LLMs不同服務(wù)模式下的隱私風(fēng)險(xiǎn)
LLM作為服務(wù)(LLM as a Service):用戶通過(guò)API與模型交互,數(shù)據(jù)流經(jīng)提供商系統(tǒng)??赡艽嬖诘娘L(fēng)險(xiǎn)包括用戶輸入時(shí)敏感數(shù)據(jù)披露、未經(jīng)授權(quán)訪問(wèn)、缺乏透明度和對(duì)抗攻擊等;提供商接口和API可能出現(xiàn)數(shù)據(jù)攔截、API濫用和接口漏洞等問(wèn)題;LLM處理過(guò)程中可能存在模型推理風(fēng)險(xiǎn)、意外數(shù)據(jù)記錄、匿名化失敗、未經(jīng)授權(quán)訪問(wèn)日志、數(shù)據(jù)聚合風(fēng)險(xiǎn)、第三方暴露和缺乏數(shù)據(jù)保留政策等;處理后的輸出可能存在不準(zhǔn)確或敏感響應(yīng)、重新識(shí)別風(fēng)險(xiǎn)和輸出濫用等問(wèn)題。以O(shè)penAI GPT-4 API為例,用戶依賴其隱私保障,但難以獨(dú)立驗(yàn)證其合規(guī)性。
LLM“現(xiàn)成的”(LLM ‘off - the - shelf’):部署者可自定義權(quán)重和微調(diào)模型,與LLM 作為服務(wù)模式有相似之處,但也有獨(dú)特風(fēng)險(xiǎn)。例如,組織在使用 “現(xiàn)成的” 模型時(shí),可能因?qū)υ加?xùn)練數(shù)據(jù)集內(nèi)容缺乏了解,引入偏見(jiàn)、不準(zhǔn)確或未知的隱私風(fēng)險(xiǎn);同時(shí),依賴原始提供商進(jìn)行模型更新,可能會(huì)延遲關(guān)鍵改進(jìn)或修復(fù)。此外,在使用 RAG 時(shí),可能存在不安全的日志記錄或緩存、第三方數(shù)據(jù)處理和敏感數(shù)據(jù)暴露等風(fēng)險(xiǎn)。
自行開發(fā)的LLM(Self - developed LLM):組織自行負(fù)責(zé)模型的設(shè)計(jì)、訓(xùn)練和部署,雖然有更多控制權(quán),但也面臨諸多風(fēng)險(xiǎn)。在數(shù)據(jù)集收集和準(zhǔn)備階段,可能會(huì)包含敏感信息、存在法律合規(guī)問(wèn)題、數(shù)據(jù)有偏差和受到數(shù)據(jù)投毒攻擊等;模型訓(xùn)練階段,訓(xùn)練環(huán)境可能存在安全漏洞、模型可能出現(xiàn)過(guò)擬合并暴露敏感信息;微調(diào)階段,可能會(huì)暴露專有或敏感數(shù)據(jù)、存在第三方風(fēng)險(xiǎn);部署階段,可能出現(xiàn)未經(jīng)授權(quán)訪問(wèn)和不安全的托管等問(wèn)題。
基于LLM的Agentic系統(tǒng)(LLM-based Agentic Systems):AI Agents與其他系統(tǒng)和應(yīng)用有更多交互,數(shù)據(jù)流動(dòng)更復(fù)雜。在感知階段,可能會(huì)收集和暴露敏感用戶輸入、預(yù)處理不當(dāng)保留可識(shí)別信息、輸入接口存在安全風(fēng)險(xiǎn)和缺乏透明度;規(guī)劃階段,敏感數(shù)據(jù)可能在傳輸過(guò)程中缺乏保護(hù)、第三方系統(tǒng)可能不符合隱私和安全標(biāo)準(zhǔn);記憶階段,長(zhǎng)期存儲(chǔ)用戶數(shù)據(jù)增加風(fēng)險(xiǎn)、保留敏感數(shù)據(jù)可能違反法規(guī);行動(dòng)階段,生成的輸出可能包含敏感信息、輸出共享可能被攔截或?yàn)E用、多個(gè)Agent協(xié)同可能增加幻覺(jué)概率;反饋和迭代循環(huán)階段,用戶反饋可能在未經(jīng)同意的情況下被用于模型再訓(xùn)練、敏感反饋信息可能在日志或數(shù)據(jù)集中持續(xù)存在。
三、風(fēng)險(xiǎn)評(píng)估與管理框架
1、風(fēng)險(xiǎn)識(shí)別
風(fēng)險(xiǎn)因素考量:借助多種風(fēng)險(xiǎn)因素來(lái)識(shí)別LLMs使用中的風(fēng)險(xiǎn),如處理敏感數(shù)據(jù)和大量數(shù)據(jù)會(huì)增加風(fēng)險(xiǎn)等級(jí)。同時(shí),需考慮數(shù)據(jù)質(zhì)量、系統(tǒng)安全防護(hù)措施等因素,低質(zhì)量數(shù)據(jù)可能導(dǎo)致模型輸出錯(cuò)誤,而缺乏足夠安全防護(hù)則易引發(fā)數(shù)據(jù)泄露。此外,還應(yīng)關(guān)注弱勢(shì)群體在數(shù)據(jù)處理中的權(quán)益保護(hù),確保其基本權(quán)利不受侵害。
相關(guān)概念剖析:深入理解《AI法案》中引入的安全概念,如危險(xiǎn)(潛在危害源)、危險(xiǎn)暴露(個(gè)體或系統(tǒng)暴露于危害的程度)、安全(降低危害的措施)、威脅(可能利用系統(tǒng)漏洞的外部因素)和漏洞(系統(tǒng)中可被利用的弱點(diǎn))等。這些概念相互關(guān)聯(lián),共同構(gòu)成評(píng)估LLMs風(fēng)險(xiǎn)的基礎(chǔ)框架,有助于全面把握風(fēng)險(xiǎn)的本質(zhì)和來(lái)源。
目的與背景的關(guān)鍵作用:明確系統(tǒng)的預(yù)期用途和運(yùn)行背景對(duì)風(fēng)險(xiǎn)識(shí)別至關(guān)重要?!锻ㄓ脭?shù)據(jù)保護(hù)條例》(GDPR)強(qiáng)調(diào)依據(jù)數(shù)據(jù)處理的性質(zhì)、范圍、背景和目的來(lái)評(píng)估風(fēng)險(xiǎn);《AI 法案》則突出定義和評(píng)估AI系統(tǒng)預(yù)期運(yùn)行方式的重要性。只有精準(zhǔn)把握這些方面,才能發(fā)現(xiàn)系統(tǒng)在特定場(chǎng)景下的潛在風(fēng)險(xiǎn),如系統(tǒng)被誤用或在特定環(huán)境中產(chǎn)生意外漏洞等。
威脅建模的運(yùn)用:威脅建模是系統(tǒng)識(shí)別隱私風(fēng)險(xiǎn)的有效方法,它通過(guò)利用特定的AI威脅、危害和漏洞庫(kù),對(duì)AI系統(tǒng)生命周期中的風(fēng)險(xiǎn)進(jìn)行結(jié)構(gòu)化評(píng)估。通過(guò)該方法,可識(shí)別潛在的攻擊面、誤用案例和漏洞,為風(fēng)險(xiǎn)評(píng)估提供有價(jià)值的參考,如發(fā)現(xiàn)數(shù)據(jù)訪問(wèn)權(quán)限設(shè)置不當(dāng)可能導(dǎo)致的未經(jīng)授權(quán)訪問(wèn)風(fēng)險(xiǎn)。
證據(jù)收集的重要性:為有效管理風(fēng)險(xiǎn),需基于可靠證據(jù)進(jìn)行評(píng)估。這包括收集系統(tǒng)運(yùn)行數(shù)據(jù)(如日志和使用模式)、評(píng)估結(jié)果(來(lái)自指標(biāo)測(cè)試、紅隊(duì)演練和外部審計(jì))以及用戶或舉報(bào)人反饋等多方面信息。這些證據(jù)相互補(bǔ)充,能全面反映系統(tǒng)潛在的危害和漏洞,為風(fēng)險(xiǎn)識(shí)別提供有力支持。
2、風(fēng)險(xiǎn)評(píng)估
評(píng)估流程與利益相關(guān)者協(xié)作:在風(fēng)險(xiǎn)識(shí)別后,需對(duì)風(fēng)險(xiǎn)進(jìn)行估計(jì)和評(píng)估,包括依據(jù)概率和嚴(yán)重程度對(duì)風(fēng)險(xiǎn)進(jìn)行分類和排序。利益相關(guān)者的協(xié)作在這一過(guò)程中至關(guān)重要,由于AI的跨學(xué)科特性,需要技術(shù)、法律、倫理等多領(lǐng)域?qū)I(yè)人員共同參與,從不同角度審視風(fēng)險(xiǎn),確保評(píng)估的全面性和準(zhǔn)確性。
概率評(píng)估標(biāo)準(zhǔn):采用四級(jí)風(fēng)險(xiǎn)分類矩陣來(lái)確定風(fēng)險(xiǎn)概率,即非常高(事件發(fā)生可能性大)、高(有較大可能性發(fā)生)、低(發(fā)生可能性較小)、不太可能(幾乎無(wú)發(fā)生跡象)。通過(guò)考慮系統(tǒng)使用頻率、暴露于高風(fēng)險(xiǎn)場(chǎng)景的程度、歷史先例、環(huán)境因素、系統(tǒng)穩(wěn)健性、數(shù)據(jù)質(zhì)量和完整性以及人為監(jiān)督和專業(yè)知識(shí)等標(biāo)準(zhǔn),對(duì)每個(gè)風(fēng)險(xiǎn)進(jìn)行評(píng)估并打分,進(jìn)而計(jì)算出綜合概率得分,以確定風(fēng)險(xiǎn)的概率等級(jí)。
嚴(yán)重程度評(píng)估標(biāo)準(zhǔn):同樣使用四級(jí)風(fēng)險(xiǎn)分類矩陣評(píng)估風(fēng)險(xiǎn)嚴(yán)重程度,即非常嚴(yán)重(影響基本權(quán)利和公共自由,后果不可逆等)、嚴(yán)重(上述情況影響可逆,但存在數(shù)據(jù)主體對(duì)個(gè)人數(shù)據(jù)失控等問(wèn)題)、嚴(yán)重但有限(對(duì)部分個(gè)人數(shù)據(jù)失去控制等較小影響)、非常有限(上述有限影響可完全逆轉(zhuǎn))。評(píng)估時(shí)考慮基本權(quán)利性質(zhì)、個(gè)人數(shù)據(jù)敏感性、數(shù)據(jù)主體類別、處理目的、影響范圍和數(shù)量、上下文和領(lǐng)域敏感性、危害的可逆性、持續(xù)時(shí)間和速度、透明度和問(wèn)責(zé)機(jī)制以及連鎖反應(yīng)等標(biāo)準(zhǔn),其中部分標(biāo)準(zhǔn)具有 “阻斷” 作用,若達(dá)到最高級(jí)別,整體嚴(yán)重程度將直接判定為最高等級(jí)。
風(fēng)險(xiǎn)分類與接受標(biāo)準(zhǔn):綜合概率和嚴(yán)重程度評(píng)估結(jié)果,將風(fēng)險(xiǎn)分為非常高、高、中、低四個(gè)等級(jí)。通常,非常高和高等級(jí)風(fēng)險(xiǎn)應(yīng)優(yōu)先緩解。在風(fēng)險(xiǎn)評(píng)估階段,還需依據(jù)組織的風(fēng)險(xiǎn)承受能力和合規(guī)要求,確定風(fēng)險(xiǎn)是否可接受,確保風(fēng)險(xiǎn)在組織可控范圍內(nèi)。
3、風(fēng)險(xiǎn)控制
風(fēng)險(xiǎn)處理標(biāo)準(zhǔn):風(fēng)險(xiǎn)處理包括緩解、轉(zhuǎn)移、避免和接受四種策略。選擇合適的策略需綜合考慮風(fēng)險(xiǎn)類型、可用緩解措施、實(shí)施成本和效果、對(duì)系統(tǒng)預(yù)期用途的影響以及受影響個(gè)體的合理期望等因素。例如,對(duì)于數(shù)據(jù)泄露風(fēng)險(xiǎn),可通過(guò)實(shí)施加密技術(shù)、加強(qiáng)訪問(wèn)控制等措施來(lái)緩解;對(duì)于一些無(wú)法完全避免的風(fēng)險(xiǎn),若在可接受范圍內(nèi),組織可選擇接受。
緩解措施示例:針對(duì) LLMs 常見(jiàn)的隱私風(fēng)險(xiǎn),如個(gè)人數(shù)據(jù)保護(hù)不足、訓(xùn)練數(shù)據(jù)匿名化錯(cuò)誤等,提出了一系列具體的緩解措施。包括確保 API 安全實(shí)施、加密數(shù)據(jù)傳輸和存儲(chǔ)、實(shí)施訪問(wèn)控制和匿名化措施、進(jìn)行定期安全審計(jì)、培訓(xùn)員工安全最佳實(shí)踐等。同時(shí),不同風(fēng)險(xiǎn)的緩解措施在提供商和部署者之間可能存在不同的責(zé)任分配,雙方需密切協(xié)作,共同應(yīng)對(duì)風(fēng)險(xiǎn)。
四、案例分析與工具標(biāo)準(zhǔn)
1、案例分析
虛擬助手(Chatbot)用于客戶查詢:某廚房設(shè)備公司欲部署基于 “現(xiàn)成的” LLM并使用RAG技術(shù)的聊天bot。在設(shè)計(jì)與開發(fā)階段,詳細(xì)梳理了數(shù)據(jù)流程,包括用戶輸入、數(shù)據(jù)預(yù)處理與API交互、RAG檢索、LLM處理、數(shù)據(jù)存儲(chǔ)、個(gè)性化響應(yīng)生成、數(shù)據(jù)共享和反饋收集等環(huán)節(jié)。通過(guò)分析系統(tǒng)架構(gòu)和與利益相關(guān)者協(xié)作,識(shí)別出如個(gè)人數(shù)據(jù)保護(hù)不足、訓(xùn)練數(shù)據(jù)匿名化錯(cuò)誤等風(fēng)險(xiǎn)。采用FRASP框架評(píng)估風(fēng)險(xiǎn)概率和嚴(yán)重程度,多數(shù)風(fēng)險(xiǎn)被評(píng)為高風(fēng)險(xiǎn)。針對(duì)這些風(fēng)險(xiǎn),采取了如加密數(shù)據(jù)傳輸、限制數(shù)據(jù)收集、審核第三方數(shù)據(jù)保護(hù)實(shí)踐等一系列緩解措施。實(shí)施緩解措施后,風(fēng)險(xiǎn)等級(jí)降為中等。若風(fēng)險(xiǎn)仍不可接受,可進(jìn)一步強(qiáng)化預(yù)防控制、探索額外緩解措施或重新評(píng)估風(fēng)險(xiǎn)容忍度。同時(shí),要持續(xù)監(jiān)測(cè)聊天bot,確保風(fēng)險(xiǎn)始終處于可控范圍內(nèi)。
LLM系統(tǒng)用于監(jiān)測(cè)和支持學(xué)生進(jìn)步:某學(xué)校計(jì)劃采用第三方基于“現(xiàn)成的”LLM模型的系統(tǒng)來(lái)監(jiān)測(cè)學(xué)生學(xué)業(yè)表現(xiàn)。由于涉及未成年人敏感信息,存在諸多隱私風(fēng)險(xiǎn)。如數(shù)據(jù)保護(hù)措施薄弱可能導(dǎo)致學(xué)生敏感數(shù)據(jù)泄露,訓(xùn)練數(shù)據(jù)可能存在非法處理個(gè)人數(shù)據(jù)的情況,模型輸出可能存在偏差影響學(xué)生等。針對(duì)這些風(fēng)險(xiǎn),建議學(xué)校采取的措施包括實(shí)施強(qiáng)加密協(xié)議、進(jìn)行安全審計(jì)和滲透測(cè)試、驗(yàn)證供應(yīng)商合規(guī)性、審核訓(xùn)練數(shù)據(jù)、監(jiān)測(cè)模型偏差、確保人類監(jiān)督、保障數(shù)據(jù)主體權(quán)利、明確數(shù)據(jù)保留政策、評(píng)估數(shù)據(jù)傳輸風(fēng)險(xiǎn)以及嚴(yán)格控制數(shù)據(jù)收集等。這些措施旨在全面降低風(fēng)險(xiǎn),保護(hù)學(xué)生的隱私和權(quán)益。
AI助手用于旅行和日程管理:該AI助手基于多種“現(xiàn)成的”LLMs和SLMs開發(fā),用于管理旅行計(jì)劃和日常日程。在運(yùn)營(yíng)和監(jiān)測(cè)階段,識(shí)別出的隱私風(fēng)險(xiǎn)包括處理特殊類別數(shù)據(jù)(如從旅行模式推斷出的健康狀況)、操縱或過(guò)度依賴建議、用戶對(duì)系統(tǒng)操作不了解、缺乏人類監(jiān)督、數(shù)據(jù)主體權(quán)利行使困難、數(shù)據(jù)再利用風(fēng)險(xiǎn)、數(shù)據(jù)保留過(guò)長(zhǎng)以及跨境數(shù)據(jù)共享風(fēng)險(xiǎn)等。針對(duì)這些風(fēng)險(xiǎn),采取的緩解措施有文檔化數(shù)據(jù)匿名化方法、實(shí)施明確同意機(jī)制、監(jiān)測(cè)輸出偏差、確保關(guān)鍵決策有人工確認(rèn)、提供用戶友好的數(shù)據(jù)操作界面、限制數(shù)據(jù)使用目的、定義數(shù)據(jù)保留期、驗(yàn)證第三方服務(wù)合規(guī)性等。這些措施有助于保障用戶數(shù)據(jù)安全和隱私,提升系統(tǒng)的可靠性和用戶信任度。
2、工具和標(biāo)準(zhǔn)
評(píng)估指標(biāo):LLM評(píng)估分為內(nèi)在評(píng)估和外在評(píng)估。內(nèi)在評(píng)估在受控環(huán)境下測(cè)試模型性能,外在評(píng)估則在實(shí)際應(yīng)用中評(píng)估模型的泛化能力和相關(guān)性。常用的評(píng)估指標(biāo)包括準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)、AUC、AUROC等傳統(tǒng)指標(biāo),以及針對(duì)LLM的特定指標(biāo),如BLEU、ROUGE用于評(píng)估文本生成質(zhì)量,MoverScore評(píng)估語(yǔ)義相似性。此外,還有用于評(píng)估模型效率和可用性的指標(biāo),如每分鐘完成請(qǐng)求數(shù)、首次令牌生成時(shí)間等。同時(shí),通過(guò)一些工具和框架,如GLUE、MMLU、ChatbotArena等基準(zhǔn)測(cè)試來(lái)評(píng)估模型在不同任務(wù)和場(chǎng)景下的表現(xiàn)。
保障措施和工具:LLMs中的保障措施(或護(hù)欄)用于確保模型安全、符合道德和可靠運(yùn)行。例如,內(nèi)容過(guò)濾器可阻止或標(biāo)記有害內(nèi)容,提示拒絕可防止對(duì)危險(xiǎn)提示的響應(yīng),偏差緩解可減少不公平輸出,人在回路方法用于高風(fēng)險(xiǎn)應(yīng)用中的人工監(jiān)督,后處理解毒可去除有害內(nèi)容,對(duì)抗測(cè)試可評(píng)估模型應(yīng)對(duì)有害提示的能力。此外,還介紹了一些開源工具,如Anthropic Model Context Protocol用于構(gòu)建安全連接,llmperf用于評(píng)估 LLM API性能,以及OWASP AI Exchange 提供的AI安全指導(dǎo)等。在隱私保護(hù)方面,有Clio、RAG with differential privacy guarantees等技術(shù)和工具,以及用于標(biāo)記或匿名化敏感信息的工具,如Google Cloud Data Loss Prevention、Microsoft Presidio、OpenAI Moderation API 等。
方法和指導(dǎo):介紹了一些用于識(shí)別數(shù)據(jù)保護(hù)和隱私風(fēng)險(xiǎn)的方法和工具,如 Practical Library of Threats (PLOT4ai) 用于 AI 系統(tǒng)風(fēng)險(xiǎn)識(shí)別,MITRE ATLAS 提供對(duì)抗策略知識(shí),Assessment List for Trustworthy Artificial Intelligence (ALTAI) 指導(dǎo)開發(fā)者實(shí)施可信 AI 原則。同時(shí),還列舉了一些相關(guān)的指導(dǎo)文件和標(biāo)準(zhǔn),如 OECD 關(guān)于 AI 語(yǔ)言模型的報(bào)告、NIST 的 GenAI Security 和 AI Risk Management Framework、FRIA 方法以及 AI Cyber Security Code of Practice 等,這些指導(dǎo)和標(biāo)準(zhǔn)為 LLM 系統(tǒng)的開發(fā)、部署和風(fēng)險(xiǎn)評(píng)估提供了重要的參考依據(jù)。
轉(zhuǎn)載鏈接:https://www.tbtguide.com/c/mypt/gwxw/595823.jhtml
關(guān)注“廣東技術(shù)性貿(mào)易措施”,獲取更多服務(wù)。