Step 3.7 Flash、Claude Opus 4の9分の1コストで旗艦級性能を実現
階躍星辰(StepFun)がエージェント向けFlashモデルStep 3.7 Flashをオープンソース化。コスト効率とマルチモーダル理解能力で新境地を開く。
1492年、コロンブスが大西洋へと船を向けたとき、遠洋航海を成功に導いたのはロマンだけではなかった。淡水、食料、船体、帆綱が長い嵐に耐えられるかどうか。その後オランダ人が設計した「フリュート」商船は、建造コストが低く、貨物室が大きく、安定して往復できた。この工学的合理性こそが大洋横断貿易を書き換え、冒険家の孤独な航海を、再現可能で拡張可能なビジネスへと変えた。
現在のAIモデル競争も、似た交差点に立っている。かつてモデルを語るときは、パラメータ数やベンチマークのスコア、ピーク性能が注目の的だった。しかしAIエージェントが本格的な生産環境へと移行するにつれ、本当に問われる課題は変わりつつある。高頻度のリクエストを継続的に処理できるか、ツールを安定して呼び出せるか、企業の既存ワークフローに組み込めて長期的に運用できるか。こうした問題の答えは、往往にしてベンチマークリストには載っていない。
こうした転換期に登場したのが、中国のAI企業・階躍星辰(StepFun)が開発したStep 3.7 Flashだ。タスクコストがClaude Opus 4の約9分の1に抑えられながら、エージェントやコーディング、検索、マルチモーダルワークフローに最適化された生産グレードのFlashモデルとして、先日正式にリリースされオープンソース化された。
Flashモデルの役割が根本的に変わりつつある
従来、Flashモデルと聞いて思い浮かべるのは「フラッグシップモデルの軽量版」だった。速くて安い、それが売りのすべてだった。しかしエージェントがワークフローの中心に拠えられるようになると、Flashモデルに求められる要件は一変した。
もしモデルが複数回のタスクで目標から外れやすいなら、企業でも個人でも安心して採用できない。逆に、速度・コスト・ツール呼び出し・マルチモーダル理解・エコシステム互換性のバランスが取れていれば、エージェントシステムの真に依存できる基盤となる可能性がある。
ある意味でエージェント時代が求めるFlashモデルとは、「より速い小さなモデル」から「生産効率が最も高いベースモデル」への進化だ。フラッグシップモデルの能力上限に近づくだけでなく、大規模なエージェント呼び出しの圧力にも耐えられる必要がある。Step 3.7 Flashのポジショニングはまさに後者、すなわち次世代のエージェント型ベースモデルとして設計されている。
ネイティブマルチモーダル理解が切り拓く実務適応力
生産環境で動くエージェントにとって最初の壁は、実際の作業環境を正確に理解できるかどうかだ。現実のエージェントタスクは、複雑なUI、文書、図表システム、ブラウザページ、専門ソフトウェア、内部ツールに分散されている。テキストQ&Aだけに特化したモデルでは、これらの課題に真に立ち向かうのは難しい。
Step 3.7 Flashが重点的に強化したのは、まさにネイティブなマルチモーダル理解と実行能力だ。UI、図表、文書、画像、アプリケーションインターフェースを理解できるだけでなく、複雑な視覚問題では画像を自主的に切り取り・拡大し・再読することもできる。情報が不確かな状況に遭遇すると、モデルは自ら検索を開始し、テキストと画像情報を交差検証する。
ここには直感に反する設計思想がある。活性化パラメータ11BのFlashモデルにとって、大量の視覚知識を重みに無理やり詰め込むのは得策ではない。Step 3.7 Flashは逆のアプローチを取る。重みには最も中核的な推論エンジンだけを残し、知覚の境界と世界知識は推論段階で外挿する。極速の速度で「複数回見て、複数回調べる」ことで、パラメータ本来では不足する部分の能力を補完するのだ。低遅延と高スループットは単なるデプロイ時の優位性ではなく、能力そのものの一部として機能する巧妙な設計だ。
具体的なユースケース
コクピット操作のデモでは、ユーザーが「離陸方法」と入力するだけで、モデルが自動的にコクピット領域を選択し、計器やボタン、主要操作情報を識別し、現在のインターフェースの操作ロジックを理解したうえでステップバイステップのチュートリアルを生成する。密集した見慣れない視覚環境を、人がそのまま実行できるタスクガイドへと変換する能力は、単に画像を識別できるというレベルを超えたものだ。
スマートフォンのGUIエージェントフローとの連携デモも興味深い。実機のスマートフォンをUSBで接続し、スクリーンショットを取得してモデルに送信すると、画面上で何が起こっているかを判断する。例えば読書アプリのトレンドランキングを見せると、ページ上のテキストを読み取るだけでなく、ランキングの構造も理解する。どの項目が本のタイトルか、表紙か、現在のランキング順位は何かといった情報まで把握し、そのうえで次の操作ステップへと進むことが可能になる。
ビジネスプロセスの理解を要する場面にも対応する。ユーザーからの評価、画像証拠、事業者からの返信、そして処理ボタンが同時に表示されるページにおいて、モデルは誰が苦情を申し立てているか、争点は何か、証拠は何かを整理した上で適切な判断を下す。テキスト、画像、判断、操作エントリーが混在するインターフェースこそ、マルチモーダルエージェントが実際に直面する現場だ。
検索能力の強化がもたらす信頼性
Step 3.7 Flashのもう一つの重要な強化ポイントは、ネットワーク接続と視覚検索の能力だ。実際の業務で遭遇する問題は、動的情報や外部資料、複数ソースの証拠、不完全な入力を含みがちであり、モデルが自分の知識だけに頼れば、タイムリーさと正確さで簡単に失敗する。
例えば建物の画像を見せると、モデルはまず画像から見える手がかりを読み取り、その手がかりを中心に検索語を生成し、外部資料を検索したうえで、画像内の視覚情報とネット上のテキスト情報を組み合わせて完全な回答を構成する。検索は単にWebリンクのリストを返すだけではなく、タスク目標を中心に能動的に探し、フィルタリングし、照合し、証拠を組織する。これがSearchエージェントやResearchエージェントが真に必要とする作業方法だ。
公式によると、Step 3.7 FlashはSimpleVQA SearchやV*(Python)といった複雑な視覚タスクベンチマークにおいて、より大規模なフラッグシップモデルに近い性能を示している。情報が不十分な状況でもタスクを進め、未検証の回答を減らせるという実用性の表れだ。
疎MoEアーキテクチャが実現する圧倒的なスケーラビリティ
エージェントと通常のチャットボットの最大の違いは、呼び出し密度の高さにある。普通の質問応答は一往復のインタラクションで終わることが多いが、エージェントがタスクを完了するためには、環境の観察、ツールの呼び出し、結果の読み取りを繰り返す必要がある。コーディングエージェントはコードを読み、ファイルを変更し、コマンドを実行する。検索エージェントは情報を検索・照合・整理する。呼び出し回数が大幅に増加すれば、モデルの速度とコストはシステム全体のボトルネックとなる。
Step 3.7 Flashが採用したのは疎MoE(Mixture of Experts)アーキテクチャだ。総パラメータは196Bに1.8BのViTを加えた規模だが、活性化パラメータはわずか11Bに抑えられている。これにより最高生成速度は400 Tokens/sに達し、40のエージェントを同時に起動させることが可能だという。
これは高頻度エージェント、コーディングエージェント、検索エージェント、マルチモーダルエージェント、企業知識作業エージェントにとって、同じ時間内により多くの観察・呼び出し・推論を完了できることを意味する。40の異なるアイデンティティを持つバーチャルペルソナを並行して動かし、製品評価団として製品問題に対する多角的な判断を同時に行うといった、大規模なエージェントクラスターの構築も想定されている。
「速くて安い」だけではもう通用しない
Step 3.7 Flashの登場が示唆するのは、AIモデルの競争軸が静かに変わりつつあるという事実だ。ピーク性能の限界を競う「冒険家の時代」から、コスト・安定性・拡張性を備えた「商業船の時代」への移行である。
エージェントが企業のワークフローに深く組み込まれるにつれ、モデルに求められるのは必ずしも最高峰のスコアではない。日々何万回も繰り返し呼び出されても安定した結果を返し、マルチモーダルな実環境を理解し、既存のツールやインターフェースとシームレスに連携できる。そのような基盤能力こそが、次の段階でのAIモデルの競争力を決めるのではないだろうか。
タスクコストをClaude Opus 4の9分の1に抑えながら旗艦級の性能に迫るStep 3.7 Flashは、そうした「商業船」の設計思想を体現した存在と言える。オープンソースとして公開されたことも含め、エージェント時代のインフラモデルの在り方に一石を投じる動きとして、今後の動向が注目される。
よくある質問
- Step 3.7 Flashはどのようなアーキテクチャを採用していますか?
- 疎MoE(Mixture of Experts)アーキテクチャを採用しており、総パラメータは196Bに1.8BのViTを加えた規模ですが、活性化パラメータは11Bに抑えられています。これにより最高400 Tokens/sの生成速度を実現し、40のエージェントを同時に動作させることが可能です。
- なぜFlashモデルがエージェント時代に重要視されているのですか?
- エージェントは高頻度でモデルを呼び出すため、速度とコストがシステム全体のボトルネックとなります。Step 3.7 Flashは低コスト・高速・マルチモーダル理解のバランスを取ることで、単なる「速い小さなモデル」ではなく、生産環境で繰り返し使える基盤モデルとしての役割を担います。
- Step 3.7 Flashのオープンソース化にどのような意義がありますか?
- オープンソース化により、企業や開発者は自社のワークフローにモデルを組み込みやすくなります。エージェント時代には、モデルの性能だけでなく、デプロイのしやすさやエコシステムの互換性が重要な要件となるため、オープンソース化は採用の大きな後押しとなるでしょう。
コメント