2024年4月15日-19日,第27屆聯(lián)合國科技大會于在瑞士日內(nèi)瓦召開。16日,在以“塑造人工智能的未來”為主題的人工智能邊會上,世界數(shù)字技術(shù)院(WDTA)發(fā)布了一系列突破性成果,包括《生成式人工智能應(yīng)用安全測試標(biāo)準(zhǔn)》和《大語言模型安全測試方法》兩項國際標(biāo)準(zhǔn)。這是國際組織首次就大模型安全領(lǐng)域發(fā)布國際標(biāo)準(zhǔn),代表全球人工智能安全評估和測試進(jìn)入新的基準(zhǔn)。據(jù)了解,這兩項國際標(biāo)準(zhǔn)是由OpenAI、螞蟻集團、科大訊飛、谷歌、微軟、英偉達(dá)、百度、騰訊等數(shù)十家單位的多名專家學(xué)者共同編制而成。其中《大語言模型安全測試方法》由螞蟻集團牽頭編制。
1.大語言模型安全測試方法
標(biāo)準(zhǔn)為評估大型語言模型(LLM)抵御對抗性攻擊的能力提供了一個框架。該框架適用于對LLM進(jìn)行各種攻擊分類的測試和驗證,包括 L1隨機攻擊、L2盲盒攻擊、L3黑盒攻擊和L4白盒攻擊。用于評估這些攻擊有效性的關(guān)鍵指標(biāo)包括攻擊成功率(R)和下降率(D)。本文件概述了各種攻擊方法,如指令劫持和提示屏蔽,以全面測試LLM對不同類型對抗技術(shù)的抵抗能力。本標(biāo)準(zhǔn)文件中詳述的測試程序旨在建立一種結(jié)構(gòu)化方法,用于評估LLMs抵御對抗性攻擊的魯棒性,使開發(fā)人員和組織能夠識別并減少潛在漏洞,最終提高使用LLMs構(gòu)建的人工智能系統(tǒng)的安全性和可靠性。通過建立 "大型語言模型安全測試方法",WDTA將引領(lǐng)創(chuàng)建一個先進(jìn)并且安全、符合道德規(guī)范的數(shù)字生態(tài)系統(tǒng)。
2.生成式人工智能應(yīng)用安全測試和驗證標(biāo)準(zhǔn)
標(biāo)準(zhǔn)為測試和驗證生成式人工智能應(yīng)用程序的安全性提供了一個框架。該框架涵蓋整個人工智能應(yīng)用生命周期的關(guān)鍵領(lǐng)域,包括基礎(chǔ)模型選擇、檢索增強生成設(shè)計模式中的嵌入和矢量數(shù)據(jù)庫、提示執(zhí)行/推理、代理行為、微調(diào)、響應(yīng)處理和人工智能應(yīng)用運行時安全。其主要目標(biāo)是確保人工智能應(yīng)用程序在其整個生命周期內(nèi)都能安全地按照預(yù)期設(shè)計運行。通過為人工智能應(yīng)用棧的每一層提供一套測試與驗證標(biāo)準(zhǔn)和指南,本文件旨在幫助開發(fā)人員和組織提高使用LLM構(gòu)建的人工智能應(yīng)用的安全性和可靠性,降低潛在的安全風(fēng)險,提高整體質(zhì)量,并促進(jìn)負(fù)責(zé)任的人工智能技術(shù)開發(fā)和部署。
關(guān)注“廣東技術(shù)性貿(mào)易措施”,獲取更多服務(wù)。