MacでローカルLLM勢には待望のツールだな。Paged KV Cacheの恩恵でメモリ節約と高速化を両立できるのは普通に強いわ
vllm-mlxはApple Silicon向けのvLLMライクな推論フレームワーク。Metal/MPSによるGPUアクセラレーションで、マルチモーダルモデルを高速・省メモリ実行でき、OpenAI互換APIとしても利用可能。
そろそろ Mac 買い替えなのだが、奮発してメモリ盛るか悩むな…。
凄いこと言ってる。dgx sparkもう終わりとか… https://www.reddit.com/r/LocalLLaMA/s/CilUyjvrmC
Metal GPUの性能を最大限引き出すvllm-mlxの出現で従来のフレームワークを発展的に統合出来る可能性も出てきた MLXの従来のフレームワークであるmlx-lm/mlx-vlmを継承しつつ、更に高パフォーマス(高速且つ省メモリ)化
試してみるか?
M5のMac mini Proが早いところ出て欲しい
Apple SiliconでAIやっている人に朗報です。vllm-mlxが凄い。 - Qiita
MacでローカルLLM勢には待望のツールだな。Paged KV Cacheの恩恵でメモリ節約と高速化を両立できるのは普通に強いわ
vllm-mlxはApple Silicon向けのvLLMライクな推論フレームワーク。Metal/MPSによるGPUアクセラレーションで、マルチモーダルモデルを高速・省メモリ実行でき、OpenAI互換APIとしても利用可能。
そろそろ Mac 買い替えなのだが、奮発してメモリ盛るか悩むな…。
凄いこと言ってる。dgx sparkもう終わりとか… https://www.reddit.com/r/LocalLLaMA/s/CilUyjvrmC
Metal GPUの性能を最大限引き出すvllm-mlxの出現で従来のフレームワークを発展的に統合出来る可能性も出てきた MLXの従来のフレームワークであるmlx-lm/mlx-vlmを継承しつつ、更に高パフォーマス(高速且つ省メモリ)化
試してみるか?
M5のMac mini Proが早いところ出て欲しい