美國國家標準與技術研究院 (NIST) 近日發布了有關對抗性機器學習 (AML) 攻擊和緩解措施指南,呼吁人們再度關注近年來人工智能 (AI) 系統部署增加所帶來的隱私和安全挑戰,并表示這類系統目前沒有萬無一失的方法進行保護。
NIST指出,這些安全和隱私挑戰包括惡意操縱訓練數據、惡意利用模型漏洞對人工智能系統的性能造成不利影響,甚至是惡意操縱、修改或僅僅是與模型交互,就可以外泄關乎個人、企業甚至是模型本身專有的敏感數據。
伴隨著OpenAI ChatGPT 和 Google Bard 等生成式人工智能系統的出現,人工智能系統正快速融入在線服務,但支持這些技術的模型在機器學習操作的各個階段都面臨著許多威脅。NIST ,重點關注了四種主要類型的攻擊:逃避、中毒、隱私和濫用。
- 規避攻擊:目的是在模型部署后產生對抗性輸出
- 中毒攻擊:通過引入損壞的數據,針對算法的訓練階段進行攻擊
- 隱私攻擊:目的是通過提出規避現有防護措施的問題,收集有關系統或其訓練數據的敏感信息
- 濫用攻擊:目的是破壞合法的信息來源,如包含錯誤信息的網頁,以重新利用系統的預期用途
在規避攻擊中,NIST 以對自動駕駛車輛的攻擊作為示例,例如創建令人困惑的車道標記導致汽車偏離道路。
針對自動駕駛車輛的規避攻擊
在中毒攻擊中,攻擊者試圖在人工智能訓練期間引入損壞的數據。例如,通過將大量此類語言實例植入對話記錄中,讓聊天機器人使用不恰當的語言,以使人工智能相信這是常見的用語。
在隱私攻擊中,攻擊者試圖通過詢問聊天機器人大量問題,并使用給出的答案對模型進行逆向工程,進而發現弱點來獲取有關人工智能或其訓練數據中存在的敏感數據。
濫用攻擊涉及將不正確的信息插入到源中,例如網頁或在線文檔,然后人工智能吸收這些信息。與前面提到的中毒攻擊不同,濫用攻擊試圖從合法但受損的來源向人工智能提供不正確的信息,以重新調整人工智能系統的預期用途。
NIST表示,上述攻擊并不需要完全掌握人工智能系統某些方面就可以輕松實施,希望科技界能拿出更好的防御措施來應對這些風險。