論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

2026-05-10 生活百科

AnalysisCoreset 是帶有權重的數據子集，目的是在某個方面模擬完整數據的表現（例如損失函數的梯度，既可以是在訓練數據上的損失，也可以是在驗證數據上的損失）；
給出優化目標的定義：

論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
$w^t$ 是 t 輪得到的 coreset 權重，$X_t$ 是 t 輪得到的 coreset，$L$ 既可以是在訓練數據上的損失，也可以是在驗證數據上的損失，$L_T$ 是在 coreset 上的損失函數，$\theta_t$ 是 t 輪得到模型參數；
最小化 ERR 來使 Coreset 最好地模擬損失函數（訓練集或驗證集）的梯度。

論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
如何優化這個問題

論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
將其轉化為次模函數：

論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖

論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning

文章插圖
之后可以用貪心算法快速解決。
Tricks

只計算最后一層的梯度；
現在完整的數據集上跑幾個 epoch，獲得一個較為靠近的模型權重（類似于 warm-up 和 pre-training）；
每過 R 個 epoch 再更新 coreset 。

【論文筆記 - GRAD-MATCH: A Gradient Matching Based Data Subset Selection For Efficient Learning】

推薦閱讀

上一篇：RHCE習題

下一篇：PRISM: A Rich Class of Parameterized Submodular Information Measures for Guided Subset Selection