内部構造を全く参照しない形の蒸留はないのだろうか
これでローカルで動くくらい小さいモデルが作れるとおもしろいんだけどなあ
ディスティラーについての解説、とのこと。
"先生が自分の知恵を要点だけノートにまとめて、生徒に渡すようなイメージですね"
“「蒸留」ってなに?、知識蒸留の基本概念とメカニズム、知識蒸留の3つの手法 ロジット蒸留(応答ベース蒸留) 特徴蒸留(特徴マップ蒸留) アテンション蒸留 PyTorchで知識蒸留、知識蒸留はどこで使われている?”
deepseek-r1:8b がMacBookAir程度でもで動くのマジですごい
読み物としてとてもおもしろかった
Deepseekでも使われてる技術「蒸留」ってなに? - Qiita
内部構造を全く参照しない形の蒸留はないのだろうか
これでローカルで動くくらい小さいモデルが作れるとおもしろいんだけどなあ
ディスティラーについての解説、とのこと。
"先生が自分の知恵を要点だけノートにまとめて、生徒に渡すようなイメージですね"
“「蒸留」ってなに?、知識蒸留の基本概念とメカニズム、知識蒸留の3つの手法 ロジット蒸留(応答ベース蒸留) 特徴蒸留(特徴マップ蒸留) アテンション蒸留 PyTorchで知識蒸留、知識蒸留はどこで使われている?”
deepseek-r1:8b がMacBookAir程度でもで動くのマジですごい
読み物としてとてもおもしろかった