成果展示

隊伍名稱	第三次比賽
作品名稱	語言模型越獄攻擊偵測與防禦系統
指導教授	黃仁竑
團隊成員	王羿婷、歐杰妮
作品介紹	隨著生成式 AI 在各產業的應用日益廣泛，大型語言模型（Large Language Models, LLMs）雖展現了強大的理解與生成能力，卻也伴隨著越獄（Jailbreak Prompt）、提示語注入（Prompt Injection）與語意操控等資安風險。Ollama 是目前最受歡迎的本地 LLM 平台，開發者可透過它在本地機器上部署像是 Llama、Mistral 等等的模型。然而，部分模型在經精心設計的提示語注入下，仍可能產生仇恨、歧視或其他有害內容。為了試著解決此一問題，我們提出了一個系統，一個專為LLM安全性測試與防禦驗證所設計的分析平台。其核心理念並非取代模型內建的防禦機制，而是提供一套 AI 滲透測試流程，協助使用者驗證模型在實際應用中的安全性與穩定性。系統以多層次風險偵測與決策架構為核心，整合經過訓練的DeBERTa V3作為我們系統的Toxicity Classifier、Context Compliance Checker、Harmfulness Sub-detector等，能同時分析模型輸出中的潛在風險來源。本系統透過加權計分機制將風險量化為五級（Very Low 至 Critical），並據此啟動對應的動態防禦策略：低風險內容保留原文，中風險自動清洗敏感片段，高風險重新生成安全替代回應，極高風險則直接阻擋輸出。此架構確保 AI 回應具備可控性、安全性與合規性。在技術設計上，系統使用網頁全端架構，支援即時測試與批次分析兩種模式。批次模式可於 15 分鐘內完成超過 1,000 筆測試案例，並自動生成三層視覺化報告（Overview、Model Comparison、Detailed Results），協助使用者比較不同模型的安全性表現與防禦成功率。為提升使用彈性，系統提供即時可調的防禦參數設定介面，使用者可自由調整毒性閾值、危害偵測門檻與替代生成策略。
照片