論文筆記 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

motivationActive Learning 存在的重要問題:現實數據極度不平衡,有許多類別很少見(rare),又有很多類別是冗余的(redundancy),又有些數據是 OOD 的(out-of-distribution) 。
1. 不同的次模函數提出三種次模函數的變體:

  • 次模條件增長(Submodular Conditional Gain, SCG),越大說明差異越大:
【論文筆記 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios】$$f(\mathcal{A}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})-f(\mathcal{P})$$
  • 次模交互信息(Submodular Mutual Information, SMI),越大說明相似性越大:
$$I_f(\mathcal{A};\;\mathcal{Q})=f(\mathcal{A})+f(\mathcal{Q})-f(\mathcal{A}\cup\mathcal{Q})$$
  • 次模條件交互信息(Submodular Conditional Mutual Information, SCMI),上面二者的結合:
$$I_f(\mathcal{A};\;\mathcal{Q}|\mathcal{P})=f(\mathcal{A}\cup\mathcal{P})+f(\mathcal{Q}\cup\mathcal{P})-f(\mathcal{A}\cup\mathcal{Q}\cup\mathcal{P})-f(\mathcal{P})$$
其中 SCMI 可以通過設置不同的 $\mathcal{Q}$ 和 $\mathcal{P}$ 得到另外兩種次模函數(算上標準次模函數的話就是三種),對應關系和適用場景如下:
論文筆記 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

文章插圖
圖 1 各種SIM 函數
2. 次模函數的實例化問題次模信息度量(submodular information measures, SIM),一般有三種實例化的問題:
  • 設施選址問題(Facility Location)
  • 圖切問題(Graph Cut)
  • 對數行列式問題(Log Determinant)
Analysis1. 標準 Active Learning見圖 1 的第一行,此時問題退化:AL 的檢索樣本過程只考慮多樣性(不考慮檢索的數據是否冗余、OOD,也不偏向 rare 的樣本) 。
2. 樣本不平衡主要指某些類別出現很少的情況,例如醫療影像病灶判斷,真正 positive 的數據是很少的,因此可以使用 SMI 次模函數(圖 1 第二行) , 在保證多樣性的基礎上,使得 AL 檢索的樣本與 $\mathcal{Q}$(有病灶的影像)盡可能接近 。
3. 樣本冗余雖然次模函數本身保證了多樣性,但是在 batch active learning 中,多樣性的保證指存在與一個 batch 中 。因此可以使用 SCG 次模函數(圖 1 第三行) , 提供額外的多樣性正則信息 。
4. OOD 數據未標注的數據容易出現 OOD 的數據,例如在手寫數字識別的任務中,未標注的數據集中出現了手寫字母的圖片(不是任務目標也無法提供有效信息),是應當避免的 。因此可以使用 SCMI 次模函數(圖 1 第四行),使得 AL 檢索的樣本與 in-domin 的數據盡可能相似,與 out-of-domin 的數據盡可能遠離,同時保證多樣性 。
5. 混合場景當未標注數據出現了多種情景時也可以進行組合(例如即出現了冗余的數據 , 也出現了 OOD 的數據):
論文筆記 - SIMILAR: Submodular Information Measures Based Active Learning In Realistic Scenarios

文章插圖
圖 2 混合場景
同時,類似于在線學習(online learning),未標注的數據集有可能是在不斷產生中的,因此一開始數據集未出現上述場景的時候可以使用標準次模函數,出現了上述場景之后(例如某次數據收集之后出現了大量 OOD 樣本)了可以再改用 SIM 的變體 。

    推薦閱讀