開発

DeepSeek V4 FlashをMacBook Proでローカル実行、トークン無料化を実現

イタリア人開発者antirezがDeepSeek V4 Flash専用の推論エンジン『ds4』をオープンソース化。Apple MacBook Proでローカル実行が可能となり、トークンコストゼロで高性能AIを利用できるようになった。

8分で読める SINGULISM 編集チームが確認・編集

DeepSeek V4 FlashをMacBook Proでローカル実行、トークン無料化を実現
Photo by Daniil Komov on Unsplash

エージェント時代のトークンコスト問題

エージェントの時代において、最も高価なものは何か?それはトークンだ。ヘビーユーザーの中には、毎月数億トークンを消費し、請求額が数万円に及ぶことも珍しくない。しかし今、ある開発者がローカル環境での実行方案をオープンソース化した。Appleのノートパソコン1台でデプロイできるというもので、これにより「ロブスター自由」を実現したと言える。どんなに多くのタスクを実行しても、トークンのために1円たりとも支払う必要がなくなるのだ。

ds4プロジェクトの登場

数日前、antirezがGitHubに「ds4」というプロジェクトを公開した。これはDeepSeek V4 Flash専用に設計された推論エンジンで、わずか数千行のC言語コードで、このモデルを128GBメモリ搭載のAppleコンピュータ上で動作させることができる。

開発者のantirez、本名Salvatore Sanfilippoはイタリアのプログラマーであり、オープンソースデータベースRedisの原作者でもある。Redisは後にグローバルなインターネットインフラで最も広く使用されるインメモリデータベースの一つとなった。

DeepSeek V4 Flashの特徴と選定理由

なぜantirezはDeepSeek V4 Flashを選んだのか?それはDeepSeekが「ローカルコンピュータへの組み込み」に最も適しているからだ。総パラメータ数は284Bと十分に大きいが、推論ごとに活性化されるのは13Bパラメータだけで、従来の巨大モデルのように重くない。100万トークンのコンテキストをサポートし、プログラミングアシスタントのような長時間タスクに適している。同時にKVキャッシュが十分に圧縮されており、ローカルメモリとSSDに操作の余地を残している。DeepSeek V4 Flashは、ちょうどそのような不思議なバランスポイントに立っている。手を加える価値があるほど大きく、Appleノートパソコンに組み込めるほど小さいのだ。

ds4の核心:専用エンジンの最適化

ds4とは一体何なのか?結論から言えば、ds4はモデルではなく「専用エンジン」だ。これまで人々が自分のコンピュータで大規模モデルを実行する際、一般的に使用されていたのはllama.cppというツールだ。その利点はあらゆるモデルを実行できることで、Llama、Qwen、DeepSeekすべてをサポートしている。しかし問題は、すべてを実行できるということは、すべてが最速で実行できるわけではないということだ。

antirezの考え方はまったく逆で、彼は他のモデルのことは気にせず、DeepSeek V4 Flashこの一つに専念し、極限まで最適化することに注力した。彼は主に3つのことを行った。

非対称の2ビット量子化

DeepSeek V4 FlashのアーキテクチャはMoE(Mixture of Experts)で、284Bの総パラメータのうち、推論ごとに活性化されるのは13Bだけで、この13Bはルーティングで選ばれたいくつかのエキスパートサブネットワークだ。それはツールボックスに284本の工具があり、毎回13本だけを取り出して使うようなものだ。

antirezのアプローチは、これらのrouted expertsに対してのみ積極的な2ビット量子化を行い、upおよびgate行列にはIQ2_XXSを、down行列にはQ2_Kを使用するというものだ。一方、モデル内のすべての重要なパス上のコンポーネント、shared experts、projections、ルーティングネットワークなどはすべて元の精度のまま保持する。つまり、antirezはこれらの「待機エキスパート」を徹底的に圧縮し、元のサイズの4分の1にするが、毎回使用されるコアコンポーネントはまったく手を加えず、そのまま維持するのだ。これは体積の大部分を削減しながら品質の生命線を守る、非対称な圧縮戦略と言える。

KVキャッシュをSSDに移動

DeepSeek V4 Flashは100万トークンのコンテキストをサポートしており、これはまるで小説一冊を丸ごと渡してもすべて記憶できるということだ。しかし、これほど長いコンテキストは、AIが作業中に何度も以前の内容を振り返る必要があることを意味する。この「振り返り」動作が遅すぎてフリーズしないように、AIはこれらの内容を「キャッシュ」と呼ばれる場所に一時保存し、随時呼び出せるようにする必要がある。

以前のアプローチでは、このキャッシュをメモリに置くのが一般的だった。しかし問題は、128GBメモリのMacBook ProでDeepSeek-V4 Flashを実行すると、キャッシュだけでメモリを食い尽くし、モデル自体を置く場所がなくなってしまうということだ。

そこでantirezは、キャッシュを直接ハードディスク(SSD)に移動するという手法を取った。ds4は一部のKV状態をディスクに書き戻し可能なキャッシュとし、長いプロンプトやエージェントが繰り返し続きを書く際に、毎回最初から処理する必要がないようにした。現代のMac SSDは十分に高速で、KVキャッシュの永続化と復元に適している。加えて、DeepSeek V4 Flash自体がキャッシュに対して圧縮を行っているため、読み書き量が多くなく、ハードディスクでも完全に耐えられるのだ。

結果としてメモリが節約され、100万トークンの超長対話が本当に一台のMacBookで実行可能になった。ただし、ds4自体の説明によれば、2ビットモデル自体が約80GBレベルのメモリを占有し、実際の日常使用では100kから300kのコンテキストがより現実的だという。

純粋なMetalネイティブパスの実現

antirezはすべての最適化をAppleコンピュータのGPUに集中させた。そのため、Appleチップ専用のコードセットを書き、DeepSeek V4 FlashがAppleコンピュータ上で高速に実行できるようにした。CPUについては、このプロジェクトの重点ではない。READMEにも率直に書かれているが、CPUモードは現在まだ不安定で、システムクラッシュを引き起こす可能性すらあると。

実測速度と実用性

M3 Max 128GB搭載のMacBook Proでの実測速度は、毎秒約26文字の生成が可能だった。M3 Ultra 512GB搭載のMac Studioでは毎秒36文字に達する。速いとはいえないが、コード作成やデバッグといった日常業務には十分に実用的なレベルだ。

さらに興味深いのは、antirezがこのプロジェクト全体を単独でGPT-5.5を活用して完成させたという点だ。

DeepSeekにとってのエコシステム的意義

海外メディアの報道によれば、DeepSeekは現在73億5000万ドルに上る資金調達を模索しており、梁文锋氏は今、技術的な語り口から商業的な語り口への転換という重要な転換点に立っている。

投資家は何を見るのか?単にモデルのベンチマークスコアだけでなく、API呼び出し量だけでなく、エコシステム内での地位と代替不可能性を見るのだ。海外で著名な開発者が、あなたのモデルのために専用エンジンを書こうとすることは、それ自体がDeepSeekが海外である程度のエコシステム的地位を確立していることを示している。

過去一年間、中国のオープンソースモデルの海外展開において、主流の評価基準はベンチマークだった。しかし、誰かがあなたのモデルの周りに二次開発をしようとするのは、あなたのモデルが認知されていることを意味する。このような認知はスコアよりも価値があると言える。

よくある質問

ds4を使って本当にトークンコストをゼロにできますか?
はい、ds4はDeepSeek V4 Flashをローカル環境で実行するための専用エンジンです。これにより、クラウドAPIを介さずにモデルを動作させられるため、トークン使用量に応じた課金が発生しません。ただし、動作させるには128GBメモリ搭載のMacBook Proなどの高性能ハードウェアが必要です。
llama.cppと比較してds4の優位性は何ですか?
llama.cppはさまざまなモデルをサポートする汎用ツールですが、ds4はDeepSeek V4 Flashに特化して最適化されています。特に非対称量子化やKVキャッシュのSSD移動などの技術により、限られたリソースでも長コンテキスト処理が可能になる点が優れています。
この技術は今後他のモデルにも適用される可能性がありますか?
現時点ではds4はDeepSeek V4 Flash専用に設計されています。ただし、antirezのアプローチは特定のモデルに深く最適化する手法として、他の開発者にインスピレーションを与える可能性があります。将来的に類似のプロジェクトが登場するかは、コミュニティの動向に依存します。
出典: 钛媒体

コメント

← トップへ戻る