使用 GPT 的擔憂之一是它可能會受到攻擊而產生惡意內容,從而導致錯誤訊息的傳播、輿 論操縱和詐欺。在這個專案中,我們強調測試平台在滿足基於人工智慧的模型的安全需求 方面的重要性。該計畫建議專門針對 GPT 攻擊創建測試平台。探索的一種重要攻擊技術是 提示注入,其中精心設計的提示操縱 GPT 忽略指令或執行意外操作。儘管正在發現有關攻 擊技術的新研究,但針對即時注入攻擊的防禦仍處於早期階段。該計畫的另一個建議是開 發評估框架來衡量即時注入攻擊的影響、成功機率和加權彈性得分。可交付成果包括攻擊 資料集的建構、每次攻擊的平均影響指標的測量、攻擊成功機率的計算以及加權彈性分數 的確定。此外,我們還將評估 3 種常見的 GPT 模型,包括不同國家開發的線上版本和在地 化版本。