論文筆記 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

2026-05-10 生活百科

motivationActive Learning 存在的重要問題：現實數據極度不平衡，有許多類別很少見（rare），又有很多類別是冗余的（redundancy），又有些數據是 OOD 的（out-of-distribution）。
1. 不同的次模函數提出三種次模函數的變體：

次模條件增長（Submodular Conditional Gain, SCG），越大說明差異越大：

【論文筆記 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios】$$f(\mathcal{A}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})-f(\mathcal{P})$$

次模交互信息（Submodular Mutual Information, SMI），越大說明相似性越大：

$$I_f(\mathcal{A};\;\mathcal{Q})=f(\mathcal{A})+f(\mathcal{Q})-f(\mathcal{A}\cup\mathcal{Q})$$

次模條件交互信息（Submodular Conditional Mutual Information, SCMI），上面二者的結合：

$$I_f(\mathcal{A};\;\mathcal{Q}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})+f(\mathcal{Q}\cup\mathcal{P})-f(\mathcal{A}\cup\mathcal{Q}\cup\mathcal{P})-f(\mathcal{P})$$
其中 SCMI 可以通過設置不同的 $\mathcal{Q}$ 和 $\mathcal{P}$ 得到另外兩種次模函數（算上標準次模函數的話就是三種），對應關系和適用場景如下：

論文筆記 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

文章插圖
圖 1 各種SIM 函數
2. 次模函數的實例化問題次模信息度量（submodular information measures, SIM）,一般有三種實例化的問題：

設施選址問題（Facility Location）
圖切問題（Graph Cut）
對數行列式問題（Log Determinant）

Analysis1. 標準 Active Learning見圖 1 的第一行，此時問題退化：AL 的檢索樣本過程只考慮多樣性（不考慮檢索的數據是否冗余、OOD，也不偏向 rare 的樣本）。
2. 樣本不平衡主要指某些類別出現很少的情況，例如醫療影像病灶判斷，真正 positive 的數據是很少的，因此可以使用 SMI 次模函數（圖 1 第二行），在保證多樣性的基礎上，使得 AL 檢索的樣本與 $\mathcal{Q}$（有病灶的影像）盡可能接近。
3. 樣本冗余雖然次模函數本身保證了多樣性，但是在 batch active learning 中，多樣性的保證指存在與一個 batch 中。因此可以使用 SCG 次模函數（圖 1 第三行），提供額外的多樣性正則信息。
4. OOD 數據未標注的數據容易出現 OOD 的數據，例如在手寫數字識別的任務中，未標注的數據集中出現了手寫字母的圖片（不是任務目標也無法提供有效信息），是應當避免的。因此可以使用 SCMI 次模函數（圖 1 第四行），使得 AL 檢索的樣本與 in-domin 的數據盡可能相似，與 out-of-domin 的數據盡可能遠離，同時保證多樣性。
5. 混合場景當未標注數據出現了多種情景時也可以進行組合（例如即出現了冗余的數據，也出現了 OOD 的數據）：

論文筆記 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

文章插圖
圖 2 混合場景
同時，類似于在線學習（online learning），未標注的數據集有可能是在不斷產生中的，因此一開始數據集未出現上述場景的時候可以使用標準次模函數，出現了上述場景之后（例如某次數據收集之后出現了大量 OOD 樣本）了可以再改用 SIM 的變體。

推薦閱讀

上一篇："xxx cannot be cast to jakarta.servlet.Servlet "報錯解決方式

下一篇：你不知道的React Developer Tools，20 分鐘帶你掌握 9 個 React 組件調試技巧