概念抹除技術——教AI模型避免暴力與侵權

生成式AI從繪圖、影音到文字創作，都展現驚人的創造能力，也伴隨著侵權、濫用與倫理風險，包括血腥暴力影像、深偽詐騙，以及未授權模仿特定藝術家風格等問題如，何防止高風險內容擴散，成了迫切課題。本集邀請國立臺灣大學電機系王鈺強教授，分享其團隊在國科會支持下研發的「概念抹除」（concept erasing）技術── Receler（Reliable Concept Erasing via Lightweight Erasers）。這項技術不需重新訓練整個模型，即能「精準切斷」AI對特定高風險概念的理解與生成能力。例如，在抹除暴力概念後，即便輸入相關描述，AI也不會輸出暴力內容；若抹除特定藝術家風格，模型會轉而以中性、不侵權的方式呈現，避免侵犯創作權益。與傳統關鍵字過濾或人工審查不同，Receler直接作用於模型內部的語意聯結，使AI「根本無法」生成該概念，大幅降低漏網或誤攔的情況。這項技術已於2024年底發表在國際計算機視覺頂尖會議 ECCV，受到高度關注。近一年來，研究在 Google Scholar 的引用數快速攀升，也成為 GitHub 上熱門的開源工具。Receler具備輕量、高效率、可審核且能持續進化的特性，可協助教育單位、平台業者、品牌與政府打造可信任的生成式AI環境。AI安全並非限制創意，而是為創意提供更健康的發展框架。未來，台灣將持續投入AI安全、可解釋性與隱私保護等核心研究，推動以人為本的AI發展願景。

國立教育廣播電臺

節目總覽

概念抹除技術——教AI模型避免暴力與侵權