AI

HiDream-O1-Image-1.5、画像生成ランキングで世界2位に

智象未来(HiDream.ai)が発表した画像生成モデルHiDream-O1-Image-1.5が、Artificial AnalysisのText to Image LeaderboardでOpenAIに次ぐ世界2位を獲得。GoogleやNVIDIAのモデルを上回った。

5分で読める SINGULISM 編集チームが確認・編集

HiDream-O1-Image-1.5、画像生成ランキングで世界2位に
Photo by Justin Morgan on Unsplash

中国のAI企業・智象未来(HiDream.ai)が2026年6月上旬に発表した商用版画像生成モデル「HiDream-O1-Image-1.5」が、独立系AIモデル評価プラットフォーム「Artificial Analysis」のText to Image Leaderboardにおいて、OpenAIに次ぐ世界2位のスコアを記録した。中国の画像生成モデルとしては初の首位獲得となる。

ランキングで世界2位獲得

Artificial Analysisのリーダーボードは、匿名比較とユーザー投票、ELO動的ランキング機構を採用し、ブランドバイアスを排除した評価体系を持つ。HiDream-O1-Image-1.5は4000以上のサンプル比較で1265 ELOを獲得。GoogleのNano Banana 2(Gemini 3.1 Flash Image Preview)、NVIDIAのCosmos3-Super-Text2Image、ByteDanceのSeedream 4.0といった国内外の主要モデルを上回った。

2週間前には、同シリーズのオープンソースモデル「HiDream-O1-Image-Dev-2604」がオープンソース部門で世界1位を獲得しており、連続でのトップ入りが注目される。

高い汎用画像生成能力

HiDream-O1-Image-1.5は、写真級のポートレート生成から動物の動的表現、自然風景の空間階層制御、多様なアートスタイルへの対応まで、幅広い生成シナリオで安定した品質を示す。特に評価されたのは、文字レンダリングとレイアウト制御の能力だ。

ECポスター生成では、商品主体とレイアウト構造、中日英混在のテキスト情報を統合的に制御できる。多層複雑文字レンダリングタスクでは、ポスターや企画書、構造分解図、ダッシュボードなどをシーンに自然に埋め込み、可読性と版面安定性を両立する。IPキャラクターデザインでは、多視点生成とキャラクターの一貫性を維持する。

マルチグリッドやストーリーボードの生成では、連続するナラティブを理解し、論理的に一貫した複数画面を生成可能だ。これらの能力は、広告マーケティング、ブランドデザイン、ECビジュアル、ゲームコンテンツ、映像ストーリーボード、IP制作といった商用シーンでの実用性を高めている。

独自アーキテクチャの優位性

HiDream-O1-Image-1.5の基盤となるのは、業界に先駆けて採用されたネイティブ全モーダルアーキテクチャ「Unified Transformer(UiT)」である。同社はUiTを「技術検証」から「生産検証」へと押し進め、オープンソース版でアーキテクチャの有効性をコミュニティに示した後、商用版で本格的な生産力ツールへと昇華させている。

HiDream-O1シリーズは、8Bパラメータのオープンソース版、Pro版、1.5商用版と明確な能力進化カーブを描いており、アーキテクチャ革新と迅速な反復能力を示す。従来のテキストから画像への生成では困難だった複雑なレイアウトや多言語文字レンダリングの実現は、UiTアーキテクチャの効果を裏付ける。

編集部の見解

短期的には、中国発の画像生成モデルがグローバルリーダーボードで上位を占めたことで、OpenAI一強だった画像生成市場に競争の新たな火種がもたらされた。特にGoogleやNVIDIAといった大手テクノロジー企業のモデルを上回った事実は、市場シェアの再配分を促す可能性がある。

長期的な視点では、ハイパースケーラーが提供する基盤モデルと、中国企業を含む独立系ベンダーとの競争がさらに激化すると見られる。HiDream.aiのように、独自のアーキテクチャをオープンソースと商用の両面で展開する戦略は、コミュニティと企業の双方を取り込む有力な手段となり得る。

編集部としては、Text to Imageリーダーボードにおける評価が、実際の商用ワークフローでの要求(一貫性、文字品質、レイアウト制御)とどの程度一致するかが今後の焦点だと考える。また、中国AI企業が米国の輸出規制下でどのようにモデル開発と運用を継続するのか、その持続可能性にも注目が必要だ。

参考

よくある質問

HiDream-O1-Image-1.5はどのようなアーキテクチャを採用しているか
ネイティブ全モーダルアーキテクチャ「Unified Transformer(UiT)」を採用。従来のテキストから画像への生成モデルが苦手とする複雑なレイアウト制御や多言語文字レンダリングを実現している。
このモデルは実際に商用利用できるのか
商用版としてリリースされており、広告マーケティング、ECビジュアル、ゲームコンテンツ、IP制作などの商用シーンを想定した設計がなされている。オープンソース版(Dev-2604)も存在し、開発者は無料で試用可能。
どのような点でGoogleやNVIDIAのモデルを上回ったのか
Artificial AnalysisのText to Image Leaderboardでは、ELOスコア1265を記録。特に文字レンダリング、複雑な画面構図、マルチオブジェクト制御、多言語混在テキストの品質など総合力で高評価を得た。
出典: 量子位

コメント

← トップへ戻る