隨著生成式 AI 在各產業的應用日益廣泛,大型語言模型(Large Language Models, LLMs)雖展現了強大的理解與生成能力,卻也伴隨著越獄(Jailbreak Prompt)、提示語注入(Prompt Injection)與語意操控等資安風險。Ollama 是目前最受歡迎的本地 LLM 平台,開發者可透過它在本地機器上部署像是 Llama、Mistral 等等的模型。然而,部分模型在經精心設計的提示語注入下,仍可能產生仇恨、歧視或其他有害內容。為了試著解決此一問題,我們提出了一個系統,一個專為LLM安全性測試與防禦驗證所設計的分析平台。其核心理念並非取代模型內建的防禦機制,而是提供一套 AI 滲透測試流程,協助使用者驗證模型在實際應用中的安全性與穩定性。
系統以多層次風險偵測與決策架構為核心,整合經過訓練的DeBERTa V3作為我們系統的Toxicity Classifier、Context Compliance Checker、Harmfulness Sub-detector等,能同時分析模型輸出中的潛在風險來源。本系統透過加權計分機制將風險量化為五級(Very Low 至 Critical),並據此啟動對應的動態防禦策略:低風險內容保留原文,中風險自動清洗敏感片段,高風險重新生成安全替代回應,極高風險則直接阻擋輸出。此架構確保 AI 回應具備可控性、安全性與合規性。
在技術設計上,系統使用網頁全端架構,支援即時測試與批次分析兩種模式。批次模式可於 15 分鐘內完成超過 1,000 筆測試案例,並自動生成三層視覺化報告(Overview、Model Comparison、Detailed Results),協助使用者比較不同模型的安全性表現與防禦成功率。為提升使用彈性,系統提供即時可調的防禦參數設定介面,使用者可自由調整毒性閾值、危害偵測門檻與替代生成策略。