AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

機器之心分析師網絡

作者：仵冀穎

編輯：H4O

本文聚焦于研究和開發可解釋性工具的内容，對AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三類可解釋性工具/方法（局部可解釋性、規則可解釋性、概念可解釋性）進行了解讀，重點了解可解釋性工具和方法的最新研究進展。

1 背景

近年來，學術界、工業界以及政府部門對 AI 倫理的重視程度日益加強，從 AI 倫理監管政策到 AI 倫理技術手段，提升 AI 倫理合規性和打造 AI 倫理技術工具、産品服務成為不斷提升 AI 市場競争優勢的一個核心點。從工業界的具體實踐角度看，國外的主流科技公司，包括 IBM、微軟、Google 等，以及國内的騰訊、微網誌、美團等，都持續加大對 AI 倫理的研究和實踐，騰訊研究院還釋出了業内首份《可解釋 AI 發展報告 2022—打開算法黑箱的理念與實踐》。

可解釋 AI 是一個非常龐雜的領域，除了涉及 AI 算法 / 模型等技術，還涉及倫理、法律法規等問題。同時，追求可解釋 AI 還需要平衡 AI 的效率和性能的問題。是以，可解釋 AI 是一個有待進一步探索的長期問題，也是迫切需要解決的關鍵問題。從可解釋 AI 研究的切入點角度來說，目前主要可以分為兩類，一類是關注如何促進模型透明性，例如，通過控制或解釋 AI 模型 / 算法的訓練資料、輸入輸出、模型架構、影響因素等，提高模型的透明性，使監管部門、模型使用者以及使用者能夠更加容易了解 AI 模型；另一類則是研究和開發可解釋性工具，即利用工具對已有的 AI 模型進行解釋，例如微軟的用于訓練可解釋模型、解釋黑盒系統的開源軟體包 InterpretML、TensorFlow 2.0 可解釋性分析工具 tf-explain、IBM 的 AI Explainability 360 toolkit 等。

本文聚焦于研究和開發可解釋性工具的内容，對 AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三類可解釋性工具 / 方法（局部可解釋性、規則可解釋性、概念可解釋性）進行了解讀，重點了解可解釋性工具和方法的最新研究進展。

在剛剛過去的 AAAI-2022 中，有一個專門的 tutorial 介紹互動式機器學習的可解釋性。整個 tutorial 由四名專家分别介紹了動機和挑戰、通過局部解釋進行互動、通過基于規則的解釋進行互動和通過基于概念的解釋進行互動四部分内容[2]，聚焦于可解釋性工具，即從技術角度上提升 AI 模型本身的可解釋性，使其對于使用者來說更加“透明”。

2 通過局部解釋進行互動

通過局部解釋進行互動的方法是最常見的可解釋 AI 方法，即給定一個預測器和一個目标決策，輸入屬性确定哪些輸入變量與決策 "最相關"，我們比較熟悉的 SHAP 解釋模型（SHapley Additive exPlanation）、LIME 解釋器（Local Interpretable Model-agnostic Explanations）都屬于這一類方法。

基于局部解釋方法的特點包括：

使使用者能夠建立個别預測的心理模型；
較難擷取足夠多的樣本來獲得模型決策過程的概況；
可能會根據使用者觀察到的樣本而産生偏見。

本文從 AAAI-2022 的 tutorial 中選擇一種方法，即 FIND，來進行解讀。本文正式發表在 EMNLP 2020 中，相關代碼已公布 https://github.com/plkumjorn/FIND。

FIND: Human-in-the-Loop Debugging Deep Text Classifiers

由于獲得一個完美的訓練資料集（即一個相當大的、無偏見的、能很好地代表未見案例的資料集）幾乎是不可能的，許多現實世界的文本分類器是在現有的、不完美的資料集上訓練的。是以，這些分類器有可能具有不理想的特性。例如，它們可能對某些子群體有偏見，或者由于過度拟合而在實際環境中不能有效工作。本文提出了一個架構，使人類能夠通過禁用不相關的隐藏特征來調試深度學習文本分類器[3]。作者将這個架構命名為 FIND（Feature Investigation aNd Disabling，特征調查和禁用）。FIND 利用一種解釋方法，即層級相關性傳播（layer-wise relevance propagation，LRP）[1]，來了解分類器預測每個訓練樣本時的行為。然後，它使用詞雲彙總所有資訊，以建立一個模型的全局視覺圖，使得人類能夠了解由深度分類器自動學習的特征，然後在測試期間禁用一些可能影響預測準确性的特征。

LRP 是一種基于深度泰勒分解的解釋方法，利用輸入特征的重要性分數來解釋神經網絡預測。LRP 利用深度泰勒分解技術，通過預先訓練的網絡，将輸出的相關性向後配置設定，并确定節點對分類的貢獻。根據激活度和網絡權值，通過在下一層傳播相關性來獲得每層的相關性。解釋器給出了與輸入圖像具有相同維數的像素級熱圖，進而可視化了輸入圖像中對所選類别有貢獻的重要區域。

現代 NLP 模型通常是端到端的，沒有顯式編碼語義特征，了解和分析它們的工作都不直覺，是以人們很想知道模型到底都學到了什麼。如圖 1 所示，NLP 黑盒模型很難清晰的表征單詞 (x) 和類别機率 (p) 之間的關聯關系：

圖 1. 單詞 (x) 和類别機率 (p) 之間的關聯難以映射 (圖檔來自 Tutorial slides, https://sites.google.com/view/aaai22-ximl-tutorial)

一般來說，深度文本分類器可以分為兩部分。第一部分進行特征提取，将輸入文本轉化為代表輸入的密集向量（即特征向量）。第二部分進行分類，将特征向量通過密集層後，用 softmax 激活來獲得預測的類的機率。這些深度分類器都是不透明的，因為人類無法解釋中間向量或用于特征提取的模型參數的含義。這使得人類無法運用他們的知識來修改或調試分類器。相反，如果我們了解每個特征中捕獲了輸入的哪些模式或品質，就可以了解模型的整體推理機制，因為分類部分的密集層就變得可解釋了。本文通過引入 LRP，檢查每個特征檢測到的輸入模式是否與分類有關。另外，這些特征可以應用于密集層以支援正确的類别。圖 2 具體展示了 FIND 的架構。

圖 2. FIND 調試架構概述

考慮一個包含 | C | 個類别的文本分類任務，其中 C 是所有類别的集合，V 表征語料庫（詞彙）中唯一的詞彙集合。給定訓練資料集 D = {(x_1, y_1), ..., (x_N, y_N)}，其中 x_i 是第 i 個文檔，包含 L 個詞的序列[xi1, xi2,..., xiL]，y_i 為 x_i 的類别标簽。使用一個在資料集 D 上訓練的深度文本分類器 M 将一個新的輸入檔案 x 歸入其中一個類别 M(x) 。M 可以分為兩部分—特征提取部分 M_f 和分類部分 M_c:

其中，f 為 x 的特征向量，W 和 b 為 M_c 的層參數。最終輸出為預測機率向量 p。

為了了解模型 M 是如何工作的，作者分析了激活每個特征 f_i 的輸入模式或特征。具體來說，使用 LRP，對于訓練資料集中的樣本 x_j 的每一個 f_i，我們計算一個相關性向量 r_ij，以表征 x_j 中每個詞對于 f_i 值的相關性分數（貢獻）。具體的，對于一個一般的神經網絡

z_ij 為神經元 i 神經元 i 與神經元 j 之間的權重
把所有神經元到神經元 j 的 z_ij 合起來加上 bias term 偏置項，得到上一層所有神經元到神經元 j 的向量 zj
經激活函數 g 處理得到下一層神經元 xj

了解特定神經元與分類決策函數 f(x)的相關性 R_j ^( l + 1 )，希望根據發送到前一層的神經元的消息來獲得這種相關性的分解，将這些消息記作 R_ (i ← j)。

l + 1 層的某個神經元 j 的相關性 = l + 1 層的神經元 j 給 l 層所有神經元的相關性之和。

x_j 和 f_i 的相關性向量 r_ij 可以依上式計算得到。

在對訓練樣本的所有 d 個特征執行上述操作後，可以生成詞雲來幫助使用者更好地了解模型 M。這樣就做到了：不清楚潛在特征是什麼意思，但清楚它是如何映射到每個類别的，即模型的可解釋性。

詞雲: 對于每個特征 f_i，建立（一個或多個）詞雲，以可視化輸入文本中高度激活 f_i 的模式。這可以通過分析訓練資料中所有 x_j 的 r_ij 并在詞雲中顯示獲得高相關性分數的詞或 n-grams 來實作。作者表示，不同的模型架構可能有不同的方式來生成詞雲，以有效地揭示特征的行為。

本文選擇 CNN 作為分類器，來自訓練樣本的每個特征都有一個包含 n-grams 的詞雲，由 CNN 的 max-pooling 選擇。如圖 3，對應于過濾器大小為 2 的特征，給出了 bi-grams（例如，“love love”, “love my”, “loves his” 等），其字型大小與 bi-grams 生成的特征值的大小相對應。這與之前的工作分析 CNN 特征的方式類似，相當于使用 LRP 對輸入的特征值進行反向傳播，并裁剪出 LRP 得分不為零的連續輸入詞，顯示在詞雲中。

圖 3. 來自 CNN 的一個特征的詞雲（或字面意思是 n-gram）

如前所述，我們想知道學到的特征是否有效，是否與分類任務相關，以及它們是否從下一層獲得适當的權重，可以通過讓人類考慮每個特征的詞雲并告訴我們該特征與哪個類别相關來實作。

不過，在實際場景中這樣的直接應用還是存在問題。如果一個詞雲接收的答案與它真實的類别（表征為 W）不同，則表明該模型存在問題。例如，假定圖 3 中的詞雲表征情感分析任務中的特征 f_i，但 W 的第 i 列暗示 f_i 分類為“負面情感類别(negative sentiment class)”，則我們可以判斷這個模型是不正确的。如果這個詞雲出現在産品分類任務中，這也是有問題的，因為詞雲中的短語對任何産品類别都不具有鑒别性，是無法給出正确的分類結果的。是以，作者進一步修正該方法，為使用者提供了禁用與任何有問題的詞雲相對應的特征的處理方式。将 M_c 修正為 M’_c：

Q 是一個掩碼矩陣，⊙是一個元素相乘的運算符。最初，Q 中的所有元素都是能夠實作特征和輸出之間所有連接配接的元素。為了禁用特征 f_i，将 Q 的第 i 列設定為零向量。禁用特征後，當機 M_f 的參數并微調 M’_c 的參數 (除了掩碼矩陣 Q) 在最後一步用原始訓練資料集 D 進行微調。

作為示例，作者在 Yelp 資料庫中進行了實驗。Yelp 庫用于預測餐廳評論的情緒（正面或負面），作者抽出 500 個樣本作為 Yelp 的訓練資料。使用 MTurk 上的人類反應來給特征配置設定等級。由于每個分類器有 30 個原始特征（d = 30），作者将它們分為三個等級（A、B 和 C），每個等級有 10 個特征。預計排名 A 的特征對預測任務最相關、最有用，而排名 C 的特征最不相關，可能會破壞模型的性能。

圖 4 顯示了來自 Yelp 資料集的三個 CNN 樣本之一的平均特征分數的分布。圖 5 給出了每個等級的詞雲的示例。我們可以清楚地看到這三個特征的不同品質。一些參與者回答說，圖 5 中的等級 B 特征與正面類别相關（可能是由于 "delicious" 這個詞），W 中這個特征的權重也是如此（正面：負面 = 0.137：-0.135）。有趣的是，圖 5 中的等級 C 特征得到了負分，因為一些參與者認為這個詞雲與正面類别有關，但實際上模型将這個特征作為負面類别的證據（正面：負面 = 0.209：0.385）。

圖 4. 在 Yelp 資料集上訓練的 CNN 模型的平均特征分數的分布

圖 5. 排名 A、B、C 的 CNN 特征的詞雲示例

3 通過基于規則的解釋進行互動

通過基于規則的解釋可以看做是一種基于全局解釋的方法。基于全局解釋方法的特點包括：

能夠提供一個概述圖；
能夠避免表述性偏見；
這種全局簡化的概述處理是以忠實性為代價的。

規則可以直接從資料中學習（白盒模型），也可以從模型的替代物中學習（黑盒模型）。現有基于規則的解釋方法的差別主要在于“規則的複雜性、準确性、非重疊性” 這三方面。此外，他們在展示規則的方式上也有差異（決策清單、決策集）。為了準确反映決策邊界，規則必須涵蓋越來越窄的資料片 / 集，而這反過來會對可解釋性産生負面影響。我們也從 tutorial 給出的方法中選擇一篇進行深入解讀。

Machine Guides, Human Supervises: Interactive Learning with Global Explanations

本文是 AAAI 2021 中的一篇文章，提出了解釋性引導學習（explanatory guided learning，XGL），這是一種新型的互動式學習政策，在這種政策中，機器引導人類監督者為分類器選擇資訊豐富的樣本。這種引導是通過全局解釋來提供的，全局解釋總結了分類器在樣本空間的不同區域的行為，并暴露出其缺陷。與其他由機器發起并依賴局部解釋的解釋式互動學習政策相比，XGL 的設計是為了應對機器提供的解釋超過分類器品質的情況。此外，XGL 利用全局解釋來打開人類發起的互動的黑匣子，使監督員能夠選擇挑戰所學模型的資訊樣本。XGL 最大的優勢在于：規則可以是簡單的，同時用來指導人類的回報[4]。

令 H 表征一類黑盒分類器 h，即神經網絡或核心機。我們的目标是從資料中學習一個分類器 h。最初我們可能隻能獲得一個小的訓練集 S_0，随後可以通過 supervisor 擷取更多的樣本。為了便于了解和控制，還要求機器以專家 supervisor 可以了解的方式解釋自己的信念（belief），這将有助于識别預測器邏輯中的錯誤。解釋式主動學習（explanatory active learning，XAL）就是這一類代表方法。在 XAL 中，機器從一個未标記的樣本池中選擇 queries x，并要求 supervisor 對其進行标記，此外，XAL 還給出對 queries 的預測結果以及對預測結果的局部解釋。這些解釋揭示了生成這些預測結果的原因，例如特征相關性，并與預測結果一起建構一個 narrative。此外，supervisor 還可以通過對解釋提供回報來控制 predictor，例如，可以指出 predictor 錯誤地依賴了哪些特征。

不過，由于局部解釋側重于 queries，XAL 輸出的 "narrative" 忽略了未知數（unknown unknowns，UU），根據定義，機器在這種情況下表現得很差。UU 可能會誘使機器向使用者過度推銷自己的性能，特别是當它們與高成本相關聯時。這就導緻了叙述性偏見（narrative bias，NB）。直覺地說，NB 衡量的是 queries x1,...,X_T 傳達給使用者的性能與真正的風險 R_T。使用者感受到的性能是 XAL 的 narrative 随着時間推移所暴露的損失的函數。圖 6（左）具體展示了這個問題，合成資料的設計是為了誘發未知的 UU。将紅色的樣本分組為間隔均勻的叢集，而藍色的樣本則均勻地分布在其他地方。主動 RBF SVM 經過 140 次不确定性采樣疊代後選擇的 queries 被圈在黃色的地方，背景是決策面。queries 明顯集中在已知的紅色叢集周圍，在這些區域中分類器的預測和解釋（如特征相關性或梯度資訊）性能都較好。queries 完全忽略了模型在未知的紅色叢集上的糟糕表現，是以也被 XAL 的輸出 narrative 所忽略。

AL（active learning）在存在未知數（unknown unknowns，UU）的情況下，也就是分類器會犯高置信度錯誤的區域，工作效果很差。這在類别偏移和概念漂移的情況下是很常見的，而當與高錯誤标記成本相關時，尤其具有挑戰性。圖 6（左）說明了這個問題，合成資料的設計是為了誘發未知的未知數 UU。将紅色的樣本分組為間隔均勻的叢集，而藍色的樣本則均勻地分布在其他地方。主動 RBF SVM 經過 140 次不确定性采樣疊代後選擇的查詢被圈在黃色的地方，背景是決策面。查詢明顯集中在已知的紅色叢集周圍，該區域中分類器在預測和解釋（如特征相關性或梯度資訊）方面都已經表現良好。模型在未知的紅色叢集上的糟糕表現完全被查詢所忽略，是以也被 XAL 的表述輸出所忽略。

圖 6. 左圖：基于不确定性的 AL 查詢已知紅色聚類周圍的點（黃色圈出）而忽略了未知的聚類；中圖：XGL 發現了大多數的紅色叢集；右圖：HINTER 從肝炎資料集中提取的規則樣本（類别為活體、死體）：醫生隻需花費很少的精力就能了解和（驗證）這樣的規則

本文提出使用由人類發起的互動學習作為解決叙述性偏見（NB）的方法。該方法的出發點是：如果 supervisor 能看到并了解 h 的決策面，她就能識别已知和未知的錯誤—進而确定 predictor 是否行為不當—并明智地選擇可以糾正這些錯誤的例子。當然，在實際應用的場景中 h 是非常複雜的，是以本文所讨論的問題是理想狀态下的，真正的挑戰是如何使其可行。

本文提出了一種使用人類發起的互動學習作為應對表述性偏見的方法，即 XGL。如果一個有動力的、有知識的監督者能看到并了解 h 的決策面，她就能識别已知和未知的錯誤，進而确定預測者是否有錯誤行為，并智能地選擇糾正這些錯誤的樣本。當然，由于 h 的決策面可能非常複雜，這種政策純屬在理想狀态下的措施。是以，應用這種政策的關鍵性挑戰在于如何使其實用。

作者提出通過利用全局解釋以一種緊湊和可解釋的方式概括 h 來解決這個問題。全局解釋是一個可解釋的 h 的替代品 g，通常是一個淺層決策樹或一個規則集。這些模型能夠分解成簡單的原子元素，如簡短的決策路徑或簡單的規則，進而可以獨立描述和可視化，并與個别樣本相關聯。圖 6（右）展示了一個樣本子產品。通常 g 是通過模型蒸餾得到的，即，通過使用一個全局解釋器π将 h 投影到 G 上：

其中，P 是 ground-truth 分布，M 為損失函數，Ω用于衡量解釋的複雜度，λ>0 控制忠實于 h 和簡單性之間的權衡。期望值通常由一個經驗性的蒙特卡洛估計所取代，該估計使用來自 P 的新的 i.i.d. 樣本或使用任何可用的無标簽樣本。

XGL 的僞代碼如 Algorithm 1 所示。在每次疊代中，在目前訓練集 S 上拟合一個分類器 h，并使用全局解釋 g=π(h)進行概括。然後，将 g 送出給 supervisor。每條規則都被翻譯成 visual artifact 或文字描述，并與它所涵蓋的樣本一起展示。按照規則對樣本進行标注。然後要求 supervisor 提供一個或多個解釋有誤的樣本，将這些樣本添加到訓練集 S 中。循環往複，直到 h 足夠好或查詢 budget 用完。

在實踐中，supervisor 可以通過以下方式查找錯誤：

掃描樣本，每個樣本都與預測和規則一起顯示，并指出一個或多個錯誤；
搜尋錯誤的規則，然後為其提供反例。

第一種政策模仿的是引導式學習（guided learning，GL）：在 GL 中，給定一個關于某些目标概念的文本描述和一個通過搜尋引擎獲得的樣本清單，使用者必須在清單中識别該概念的樣本。不同的是，在 XGL 中，樣本與相應的預測結果和解釋一起呈現，這使得使用者有可能識别實際的錯誤并了解模型。從這個角度講，XGL 之于 GL，就像 XAL 之于 AL 一樣：一種讓無互動的東西變得不透明的方法。樣本可以按規則分組，以便于對它們進行掃描。鑒于 GL 已經成功地部署在工業應用中，作者認為 XGL 也可以做到。第二種政策是針對有能力識别不良規則并識别或合成反例的專家。由于規則通常比樣本少得多（在本文實驗中，通常是 5-30 條規則 vs 數百或數千條樣本），這種政策可能效率更高。通過對規則進行适當的規範化，可以促進規則的可解釋性。

XGL 的設計是為了抵禦叙述性偏見（NB），同時使專家 supervisor 能夠識别錯誤。作者強調，簡單地将全局解釋與機器啟動的互動式學習結合起來，并不能達到同樣的效果，因為 queries 的選擇仍然會受到 UU 的影響。XGL 的另一個好處是，它原生支援在每次疊代中選擇成批的執行個體，進而降低了 queries 成本。作者在本文中将讨論和實驗限制在 one example-per-query 的情況下，以簡化與競争對手的比較。

将選擇例子的責任轉移給人類 supervisor 也存在風險。全局性的解釋可能是一個太粗略的總結，或者可能被 supervisor 誤解。這一問題同樣影響了 AL 和 XAL。是以，作者表示，應将 XGL 應用于不太可能出現這些問題或其影響可以忽略的環境中。

XGL 的主要缺點無疑是全局解釋的認知和計算成本。計算成本可以通過随着 h 的更新而遞增地更新 g 來減少。認知成本可以通過以下幾種方式改善：可以将全局解釋限制在執行個體空間的那些區域中；根據需要調整全局解釋的分辨率，例如可以先向 supervisor 提供粗略的規則 g，然後允許他完善 g，并 "放大" 那些看起來可疑的區域或子空間。不管怎麼說，全局解釋必然比局部解釋或不解釋要求更高。像其他互動協定一樣，XGL 涉及一個 human-in-the-loop 的步驟，supervisor 必須參與進來并在其中投入時間和注意力。作者的論點是：在高估錯誤模型的代價很大的應用中，這種額外的努力是合理的。

作者将本文基于規則的 XGL 的實作方法命名為 HINTER（Human-INiTiated Explanatory leaRning），并在幾個 UCI 資料集上使用标準的二進制分類器（SVM 和梯度提升樹）與幾個由人類和機器發起的替代方案進行了比較。作者在圖 6 所示的合成資料集以及來自 UCI 存儲庫的幾個分類資料集中進行了實驗，實驗結果見圖 7。在大多數資料集中，HINTER 的預測結果與競争對手的預測結果相同或更好。在特别難的合成資料上，性能差異相當明顯，XGL 比競争對手高出近 20% 的 F1 分數。作者分析這也是由于 UU 的原因。AL 和随機抽樣隻是很少查詢紅色類别的樣本，這就是他們在圖 7（左）中顯示的進展緩慢的原因，而 GL 對少數類别過度抽樣。在所有原始資料集和所有 "+uu" 變體中，XGL 的表現與所有競争對手相似或更勝一籌。表現最差的是 german 資料集，無論選擇何種基礎分類器，XGL 在 F1 方面的表現都很差，但在表述性偏見（NB）方面仍然表現最好。綜上所述，結果表明，在存在 UU 的情況下，XGL 傾向于學習更好的分類器，而如果 UU 的問題不大，XGL 的表現也是合理的。

圖 7：在三個有代表性的資料集上，當查詢次數增加時，所有競争者的 F1 得分（上）和表述偏見（下，越低越好）：合成任務（左），banknote（中）和 german（右）

4 通過基于概念解釋進行互動

本節重點讨論基于概念解釋的互動方法，包括基于概念的模型（Concept-based models，CBMs）和神經符号模型（Neuro-symbolic models），這些模型注重模型解釋的更高語義水準的優勢。前述的局部或基于規則的方法難以通路模型内部、概念層面的原因，特别是對于黑箱模型而言。而基于概念解釋的方法則試圖從概念和語義的角度分析 AI 模型的工作機理。文獻 [5] 為 tutorial 中提及的一篇文章，我們對其加以解讀。

Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations

本文最新發表在 CVPR 2022 中，主要研究目的是通過弱監督和人機互動在原型離散的潛在空間上學習視覺概念。本文提出了互動式概念交換網絡（interactive Concept Swapping Networks，iCSNs），這是一個通過弱監督和隐性原型表征來學習以概念為基礎的表征的新架構[5]。這種以語義為基礎的、離散的潛在空間有利于人類了解和人機互動。

由于概念學習的複雜性，同時受到心理學和認知科學領域中關于概念原型的研究結果的啟發，作者研究了原型表征在學習人類可了解和可修訂的概念表征方面對神經概念學習者的優勢。為此，本文提出了 iCSN，它通過弱監督方式來學習隐含地将語義概念與原型表征結合起來。這種結合是通過離散的距離估計和配對資料樣本之間的共享概念表征的交換來實作的。iCSN 允許查詢和修訂其學習的概念（如圖 8），并整合關于未見過的概念的知識（如圖 9）。

圖 8. 一個經過訓練的模型（左）詢問人類使用者（右），如果它從資料中提取的概念與使用者的知識相吻合。随後，該模型可以接受來自使用者的修改意見

圖 9. 用于學習新概念的人機互動。使用者查詢一個對象，并在必要時引導機器的原型建議

iCSN 的完整架構見圖 10。

圖 10. 互動式概念交換網絡。iCSN 基于一個确定性的自動編碼器結構，提供一個最初的 entangled latent encoding（1）read-out 編碼器；（2）從潛在空間中提取相關資訊，并将其提取的概念編碼與一組原型插槽進行比較；(3)通過一個權重的、基于 softmax 的點積；(4)生成一個離散代碼，表明每個概念編碼的最相似的原型插槽。iCSNs 是通過簡單的重建損失、通過比對配對的弱監督和互動方法來訓練的；(5)共享概念的潛在概念表征，強制将語義資訊與特定的原型表征結合起來

基于原型的概念架構。給定輸入 x_i，為了簡單起見，下述表述中會從符号中删除樣本索引 i，并用 x 表示整個圖像。在本文架構中，x 也可以是圖像子區域的潛在表征。通過預處理步驟，例如通過分割算法或合成生成場景模型，可以隐式或顯式地從圖像中提取該子區域。此外，假設每個 x 包含幾個屬性，例如顔色、形狀和大小。将這些屬性的實作稱為基本概念，例如 “藍色” 或“三角形”。将 “顔色” 稱為一個範疇概念，或者在認知和心理科學領域中經常被稱為上位概念（superordinate concept）。由此，每個圖像 x 都有 ground-truth 基本概念 c，J 表示上位概念的總數。作者做了一個必要的假設，即每個上位概念 x 隻能包含一個基本概念實作。為了簡單起見，進一步假設每個上位概念包含相同數量的基本概念 K，這些概念在實踐中可能會有所不同。

假設編碼器 - 解碼器結構，定義一個輸入編碼器 h(·)，它接收圖像 x 并将其編碼為潛在表征 h(x)=z。iCSN 沒有像許多基于自動編碼器的方法那樣直接從 z 重建，而是首先将幾個 read-out 編碼器 Mj(·)應用于潛在表征 z，進而生成 Mj(z)=φ_j。将編碼φ_j 稱為概念編碼。每個 read-out 編碼器的目标是從糾纏的潛在空間 z 中提取與上位概念（例如顔色）相對應的相關資訊。我們将在下面讨論如何強制提取特定于概念的資訊。iCSN 的一個核心元件是一組代碼本，每個代碼本包含多個原型插槽（prototype slots）。将這個集合定義為Θ:=[p_1,…,p_j]。其中，p_j 表示代碼本，每個代碼本包含一組有序的可訓練、随機初始化的原型插槽。

為了将每個概念編碼φ_j 配置設定給 p_j 的一個原型插槽，将相似度分數 S_dot(·,·)定義為其兩個輸入的點積上的 softmax。通過這種方式，得到概念編碼φ_j 和特定原型插槽(p_j)^k 之間的相似度：

得到的相似度向量 s_j 包含類别 j 的每個原型插槽的相似度得分，對應的概念編碼為φ_j。為了進一步離散化和将概念綁定到各個原型插槽，引入第二個函數 Sτ(·)，将權重 softmax 函數應用于相似度分數：

本文實驗中，逐漸降低τ以逐漸加強資訊的綁定。在τ的極端情況下，∏j 類似于一個獨熱向量（在 j>1 的情況下，多标簽獨熱向量），以表征概念編碼φ_j 最類似于第 j 個類别的哪個原型插槽。最後，将每個類别的權重相似性分數連接配接到一個向量中，以接收最終的原型距離碼 y，并将其傳遞給解碼器 g(·)，以重建圖像。

概念交換和弱監督。在訓練之前，即初始化之後，還沒有語義知識綁定到原型插槽。然而，在收斂的 iCSN 中發現的語義知識是通過弱監督的訓練過程和簡單的互動技巧間接學習的。本文采用比對配對方法，這是一種實用的弱監督訓練過程，以克服無監督解糾纏的問題。在這種方法中，觀察到一對圖像 (x,x’)，它們共享資料中潛在變化因素的已知子集的值，例如顔色，而共享因素的總數可以在 1 到 J− 1 之間變化。通過這種方式，模型可以使用配對的附加資訊來限制和指導其潛在表征的學習。以前關于弱監督訓練（特别是 VAEs）的工作恢複方法主要是在共享因子 ID 處應用 x 和 x’的編碼器分布的乘積或平均值，而 iCSN 則是在成對表征之間使用一個簡單的交換技巧。具體來說，當 v 是圖像對(x,x’) 之間的共享因子 ID 時，相應的相似度分數 (∏_v, ∏’_v) 在最終對應的原型代碼之間交換：

這種交換過程具有直覺的語義，它迫使 iCSN 從第一幅圖像中提取資訊，用于表征第二幅圖像的類别 v 的屬性。

訓練目标。iCSN 最終通過在大小為 N 的批次中每對圖像的單像素重建損失進行訓練：

該損失項與之前關于原型學習的幾項工作形成對比，之前的這些工作會通過額外的一緻性損失來加強語義綁定。iCSN 則通過将語義綁定隐式地包含到網絡體系結構中，減少了引入額外超參數以及對多個目标進行更複雜的優化過程的需要。

與 iCSNs 互動。iCSNs 的目标，尤其是與 VAEs 相比，不一定是學習底層資料分布的生成潛在變量模型，也可以是學習人類可以了解和互動的原型概念表征。是以，自編碼器結構是達到目的的一種手段，而不是必要條件。然而，iCSN 不是在收斂後丢棄解碼器，而是可以呈現輸入樣本對每個概念最接近的原型重建。是以，通過在測試時查詢這些原型重建，人類使用者可以确認預測的概念是否有意義，并可能檢測到不想要的模型行為。通過定義測試時重構誤差的門檻值，iCSN 可以給出其在識别新樣本中概念的确定性的啟發式訓示。

由于存在離散且語義受限的潛在代碼 y，人類使用者可以通過将 y 視為多标簽獨熱編碼與 iCSNs 互動。例如，邏輯陳述∀img. ⇒ ¬hasconcept(img, p 11 ) or ∀img. isin(img, imgset) ⇒ hasconcept(img, p 12 )，使用者可以制定邏輯限制，分别讀作“從未檢測到原型 p 11 所代表的概念”“對于這組圖像中的每一幅圖像，你都應該檢測到原型 p 12 所代表的概念。”。使用者可以以互動方式管理一組表現不正确的圖像。

最後，iCSNs 的子產品化特點還具有互動式線上學習能力。例如，當模型提供包含新概念的資料樣本時，或當資料中存在的一個因素最初被認為不重要，但在初始學習階段被認為很重要時，在這兩種情況下，互動的方法取決于要學習的概念的層次結構，即它是基本概念還是上位概念。假設人類使用者對 iCSN 之前的概念表示滿意，并且 J（每個代碼本的原型槽總數）被設定為高估，使用者可以簡單地通過相關類别的一個未使用的原型插槽給出回報以表示新的基本概念。如果需要學習一個新的上位概念，可以在初始訓練階段通過添加額外的 read-out 編碼器來實作。與其他 read-out 編碼器相比，該編碼器不映射到原型插槽的空間。最終，可以訓練 iCSN 的初始潛在空間 z 來表征完整的資料分布。為了包含最初被認為不相關的概念，可以隻擴充 J，這意味着添加一個新的 read-out 編碼器 m_J+1(z)=φ_J+1 和代碼本 P_J+1 到 iCSN。然後，m_J+1 學習将新的基本概念從 “新的” 上位概念綁定到 p_J+1，p_J+1 隻需要新的資料對來舉例說明以前不重要的概念。

本文提出了一個新的基準資料集：基本概念推理（Elementary Concept Reasoning，ECR），如圖 11。ECR 由恒定顔色背景上二維幾何對象的 RGB 圖像（64×64×3）組成。對象的形狀（圓形、三角形、正方形和五邊形）、大小（大小）和顔色（紅色、綠色、藍色、黃色）可以不同。為每種顔色添加均勻的抖動，進而産生不同的色調。每個圖像都包含一個固定在圖像中心的對象。對圖像進行配對處理，使單個圖像中的對象至少共享 1 個、最多共享 J− 1 個共有屬性。ECR 包含 5000 個圖像對和 2000 個用于驗證的圖像的訓練集。

圖 11. 基本概念推理資料集樣本。每張樣本圖像（左）描繪了一個居中的二維物體，具有三種不同的屬性：顔色、形狀和大小。對圖像進行配對，使得這些物體共享一個和兩個概念（右）

在本文實驗中，作者将 iCSN 與幾個基線方法進行比較，包括無監督訓練的β-VAE 和使用編碼器分布的算術平均值的 Ada-VAE。為了與通過共享比對配對訓練的 iCSN 和 Ada-VAE 進行公平的比較，最初将 Ada-VAE 作為一種較弱的監督形式引入，作者也用已知的共享因子 ID 訓練 Ada-VAE。這個基線本質上類似于β-VAE，在已知的共享因子 ID 處對圖像進行編碼器分布的平均化。這一方法在本文實驗結果中表示為 VAE。最後，作者将 iCSN 與一個離散化的 VAE 方法進行比較，該方法通過 Gumbel-softmax 技巧使用分類分布（Cat-VAE）。Cat-VAE 的訓練方式與 VAE 相同，即通過份額配對和編碼器分布的平均化。

作者通過線性探測研究每個模型的潛在編碼。表 6（上）中的結果記錄了不同模型在五次随機初始化過程中所進行驗證集的平均精度和标準偏差。我們觀察到，CSN 的潛在編碼具有近乎完美的預測性能，并且超過了所有變分方法。重要的是，CSN 的表現甚至超過了 VAE 方法（VAE 和 Cat VAE），後者與 CSN 在同樣類型的弱監督下接受訓練。β-VAE 的平均性能比弱監督模型差。然而，Ada-VAE 的表現比β-VAE 差。此外，Cat VAE 的離散潛在表征也比 CSN 表現差。Cat VAE 運作情況表明性能存在較大偏差，同時表明多個 Cat VAE 運作收斂到次優狀态。總之，盡管 ECR 資料集僅包含單個 2D 幾何對象的變化，但基線模型的性能不如 CSN，即使使用相同數量的資訊進行訓練。

表 6. 通過決策樹（DT）和邏輯回歸（LR）進行線性探測。(上)對 iCSN 模型和各種基線的 latent codes 進行探測。(下)通過對 Cat-VAE 的 latent codes 進行探測，并進行編碼器分布交換和 iCSN 概念編碼平均化的消融研究。所有的分類準确率都是在測試集上計算出來的

iCSN 的語義限制離散潛在空間的一個優點是，人類使用者可以直接識别次優概念表征，見上文所示的圖 8。在識别正确或錯誤學習的概念後，使用者可以在這個離散的概念空間上應用簡單的邏輯回報規則。具體來說，在通過弱監督進行訓練後，建議機器和人類使用者讨論所學的概念，并确定這些概念是否與使用者的知識一緻，或者是否需要修改。例如，iCSN 可以學習在幾個原型插槽上表示顔色，或者通過一個插槽表示兩個形狀，這表明它錯誤地認為這些形狀屬于同一個概念。然後，iCSN 可以通過兩種方式傳達其學到的概念。首先，它可以根據推斷出的離散原型距離代碼對共享一個概念的新圖像進行分組，并詢問人類使用者分組後的圖像是否确實共享一個共同的基本概念，如圖 8 所示。其次，利用解碼器，它可以呈現每個學習概念的原型重建，例如，呈現具有藍色原型陰影的對象，參見上文所示的圖 9。在确定了潛在的次優概念表征之後，人類使用者可以通過邏輯規則在 iCSNs 的離散化潛在空間上進行互動，并進一步改進表征。

對于之前所有的 vanilla CSN 配置，人工檢查了 32 個可能的概念組合中的一個示例的概念編碼 y，并确定了在每個單獨概念的大多數示例中 “激活” 的原型插槽（主插槽），此外，根據概念識别那些在示例子集（輔助插槽）中從未激活或很少激活的原型插槽。接下來，在 y 上應用 L2 損失，使用原始重建損失和該額外 L2 損失微調原始訓練集上的先前運作結果。這種回報的語義是，應該隻由主要原型槽來表示概念。此外，在兩次運作中，修改了一個觀察到的次優解，即五邊形和圓綁定到同一原型插槽。是以，在訓練集的所有五邊形樣本上提供回報，以綁定到另一個空的原型插槽，并再次通過額外的 L2 損失限制優化。

5 小結

我們在這篇文章中從可解釋性工具的研發角度讨論了可解釋 AI 問題，讨論的依據是 AAAI-2022 tutorial 中提及的最新研究成果。目前，國内外關于可解釋 AI 真正落地的應用還比較少，主要集中在幾個超大型公司，而學術界對這一問題的關注也遠不如其它 AI 領域多。但是随着數字經濟的重要性越來越高，平台企業的合規性發展成為了下一步 AI 算法 / 模型應用的關鍵。此外，從監管端來說，促進可解釋 AI 的發展也是有效監管數字經濟的重要抓手。最後，可解釋 AI 也是我們廣大使用者應用 AI 模型的定心石。随着越來越多國内大型企業對可解釋 AI 的重視度不斷提升，相信可解釋 AI 會很快在大量的應用場景中使用，可解釋性工具的研發也會受到更多研究人員的關注。

本文參考引用的文獻

[1] Bach S , Binder A , Montavon G , et al. On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation， PLOS ONE, 2015, 10

[2] Tutorial on Explanations in Interactive Machine Learning，AAAI 2022，https://sites.google.com/view/aaai22-ximl-tutorial

[3] Lertvittayakumjorn et al., 2020, FIND: Human-in-the-Loop Debugging Deep Text Classifiers, EMNLP 2020

[4] Teodora Popordanoska, Mohit Kumar, Stefano Teso, Human-in-the-Loop Debugging Deep Text Classifiers,AAAI 2021

[5] Stammer, W. , et al. "Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations." CVPR 2022

仵冀穎，工學博士，畢業于北京交通大學，曾分别于香港中文大學和香港科技大學擔任助理研究員和研究助理，現從事電子政務領域資訊化新技術研究工作。主要研究方向為模式識别、計算機視覺，愛好科研，希望能保持學習、不斷進步。

關于機器之心全球分析師網絡

Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智能專業知識共享網絡。在過去的四年裡，已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家，利用自己的學業工作之餘的閑暇時間，通過線上分享、專欄解讀、知識庫建構、報告釋出、評測及項目咨詢等形式與全球 AI 社群共享自己的研究思路、工程經驗及行業洞察等專業知識，并從中獲得了自身的能力成長、經驗積累及職業發展。

申請加入分析師網絡：機器之心全球分析師網絡 - Application Form

AAAI/CVPR論文詳解 | 萬字長文了解可解釋AI工具及技術的最新進展

繼續閱讀

CVPR2023錄用公布

CVPR2023:ScaleDet:一個可伸縮的多資料集目标檢測器

CVPR2023:圖像分類中的學習瓶頸概念

雲孚快寫：自動生成多級目錄，一鍵生成萬字長文

CVPR 2023｜小紅書提出 OvarNet 模型：開集預測的新SOTA，“萬物識别”有了新玩法

萬字長文：抖音達人直播分銷業務的底層邏輯和實操玩法！

萬字長文：淺談“産品思維”于工作、于生活

兩萬字長文詳解：如何用C++從零實作神經網絡

創新奇智榮獲CVPR2023細粒度視覺挑戰賽兩項冠軍

3分鐘剖析萬字長文（向量資料庫-總結版）

CVPR 2023上AIGC大爆發！46篇論文、代碼和資料集彙總

CVPR2010跟蹤算法MOSSE的配置（Visual Object Tracking using Adaptive Correlation Filters）

【CVPR 2021】Refine Myself by Teaching Myself : Feature Refinement via Self-Knowledge Distillation論文位址：主要問題：主要思路：具體實作：實驗結果：分割：聯系作者：我的公衆号：

CVPR 2018 目标檢測（Object Detection）

【醫學+深度論文：F26】2018 CVPR Performance assessment of the deep learning technologies in grading glaucoma26

人群密度估計 - CVPR2018最新論文CSRNet原理、配套代碼解析1 簡介2 提出問題3 解決辦法4 評估和比較