成果展示

隊伍名稱 第三次比賽
作品名稱 語言模型越獄攻擊偵測與防禦系統
指導教授 黃仁竑
團隊成員 王羿婷、歐杰妮
作品介紹 隨著生成式 AI 在各產業的應用日益廣泛,大型語言模型(Large Language Models, LLMs)雖展現了強大的理解與生成能力,卻也伴隨著越獄(Jailbreak Prompt)、提示語注入(Prompt Injection)與語意操控等資安風險。Ollama 是目前最受歡迎的本地 LLM 平台,開發者可透過它在本地機器上部署像是 Llama、Mistral 等等的模型。然而,部分模型在經精心設計的提示語注入下,仍可能產生仇恨、歧視或其他有害內容。為了試著解決此一問題,我們提出了一個系統,一個專為LLM安全性測試與防禦驗證所設計的分析平台。其核心理念並非取代模型內建的防禦機制,而是提供一套 AI 滲透測試流程,協助使用者驗證模型在實際應用中的安全性與穩定性。 系統以多層次風險偵測與決策架構為核心,整合經過訓練的DeBERTa V3作為我們系統的Toxicity Classifier、Context Compliance Checker、Harmfulness Sub-detector等,能同時分析模型輸出中的潛在風險來源。本系統透過加權計分機制將風險量化為五級(Very Low 至 Critical),並據此啟動對應的動態防禦策略:低風險內容保留原文,中風險自動清洗敏感片段,高風險重新生成安全替代回應,極高風險則直接阻擋輸出。此架構確保 AI 回應具備可控性、安全性與合規性。 在技術設計上,系統使用網頁全端架構,支援即時測試與批次分析兩種模式。批次模式可於 15 分鐘內完成超過 1,000 筆測試案例,並自動生成三層視覺化報告(Overview、Model Comparison、Detailed Results),協助使用者比較不同模型的安全性表現與防禦成功率。為提升使用彈性,系統提供即時可調的防禦參數設定介面,使用者可自由調整毒性閾值、危害偵測門檻與替代生成策略。
照片