友善列印
科技新視野

概念抹除技術——教AI模型避免暴力與侵權

2025/12/17
邀訪來賓:王鈺強 台大電機系教授
單元介紹

生成式AI從繪圖、影音到文字創作,都展現驚人的創造能力,也伴隨著侵權、濫用與倫理風險,包括血腥暴力影像、深偽詐騙,以及未授權模仿特定藝術家風格等問題如,何防止高風險內容擴散,成了迫切課題。本集邀請國立臺灣大學電機系王鈺強教授,分享其團隊在國科會支持下研發的「概念抹除」(concept erasing)技術── Receler(Reliable Concept Erasing via Lightweight Erasers)。這項技術不需重新訓練整個模型,即能「精準切斷」AI對特定高風險概念的理解與生成能力。例如,在抹除暴力概念後,即便輸入相關描述,AI也不會輸出暴力內容;若抹除特定藝術家風格,模型會轉而以中性、不侵權的方式呈現,避免侵犯創作權益。與傳統關鍵字過濾或人工審查不同,Receler直接作用於模型內部的語意聯結,使AI「根本無法」生成該概念,大幅降低漏網或誤攔的情況。這項技術已於2024年底發表在國際計算機視覺頂尖會議 ECCV,受到高度關注。近一年來,研究在 Google Scholar 的引用數快速攀升,也成為 GitHub 上熱門的開源工具。Receler具備輕量、高效率、可審核且能持續進化的特性,可協助教育單位、平台業者、品牌與政府打造可信任的生成式AI環境。AI安全並非限制創意,而是為創意提供更健康的發展框架。未來,台灣將持續投入AI安全、可解釋性與隱私保護等核心研究,推動以人為本的AI發展願景。

留言回應
其他節目