蒸餾 (Distillation)
將一個大型、複雜的模型(通常稱爲教師模型)所學到的知識轉移到一個更小、更簡單的模型
過程:首先,訓練一個複雜的教師模型,它在處理大量數據時表現出色。接著,利用教師模型生成“軟標簽”,即對每個類別的預測概率分布。這些軟標簽不僅包含了類別信息,還反映了模型對不同類別間關係的理解。
然後,學生模型使用這些軟標簽進行訓練,學習模仿教師模型的輸出。最終,經過訓練的學生模型在參數較少的情况下,能够在特定任務中表現出與教師模型相近的性能。
應用:蒸餾技術廣泛應用于移動設備和邊緣計算等資源受限的環境,使得複雜的深度學習模型能够在這些設備上高效運行,同時確保響應速度和準確性。
Comments