論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

AnalysisCoreset 是帶有權重的數據子集,目的是在某個方面模擬完整數據的表現(例如損失函數的梯度,既可以是在訓練數據上的損失 , 也可以是在驗證數據上的損失);
給出優化目標的定義:

論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
$w^t$ 是 t 輪得到的 coreset 權重,$X_t$ 是 t 輪得到的 coreset,$L$ 既可以是在訓練數據上的損失,也可以是在驗證數據上的損失,$L_T$ 是在 coreset 上的損失函數,$\theta_t$ 是 t 輪得到模型參數;
最小化 ERR 來使 Coreset 最好地模擬損失函數(訓練集或驗證集)的梯度 。
論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
如何優化這個問題
論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
將其轉化為次模函數:
論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
之后可以用貪心算法快速解決 。
Tricks
  • 只計算最后一層的梯度;
  • 現在完整的數據集上跑幾個 epoch,獲得一個較為靠近的模型權重(類似于 warm-up 和 pre-training);
  • 每過 R 個 epoch 再更新 coreset 。
【論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning】

    推薦閱讀