AI

DocLang:AI向けドキュメント形式の標準化が始動

IBMやNVIDIAなどが参加するDocLangワーキンググループが発足。既存のPDFやMarkdownに代わるAIネイティブなドキュメント形式の標準化を目指す。トークン効率や構造保持に優れたXMLベースの仕様だ。

9分で読める SINGULISM 編集チームが確認・編集

DocLang:AI向けドキュメント形式の標準化が始動
Photo by 2H Media on Unsplash

Linux Foundation傘下のLF AI & Data Foundationは、AIモデルがドキュメントを効率的に処理するための新たなファイル形式「DocLang」の標準化を進めるワーキンググループを設立した。The Registerが報じている。

DocLangはIBM、NVIDIA、Red Hat、ABBYY、HumanSignal、Forgisの6社が創設メンバーとして参加する。背景には、既存のドキュメント形式が人間による閲覧を前提に設計されており、AIモデルが構造や意味を正確に解釈するのに適していないという問題意識がある。

既存フォーマットの問題点

DocLangの仕様策定者らは、PDF、Markdown、HTML、LaTeXといった現在広く使われている形式がそれぞれ致命的な欠点を抱えると指摘する。PDFはレイアウト情報を保持するが、テキストの意味的な構造(見出し・段落・リストの階層関係など)を失いやすい。Markdownは表現力が限定的で、複雑な表や数式を扱うには十分なスコープを持たない。HTMLは冗長で、AIモデルがトークン化する際に不要なノイズが増える。LaTeXは自由度が高すぎるため、パース時の曖昧さが生じやすい。

これらはいずれも「人間が読むためのレンダリング」を目的として作られており、AIモデルがドキュメントをトークン系列に変換したときにセマンティック情報や構造的な関係性、幾何学的な文脈が欠落するという課題を抱える。特にエンタープライズ領域では、契約書や技術文書、規制関連資料など、正確な構造理解が求められる場面が多く、既存形式の限界がボトルネックとなっていた。

DocLangが目指す設計思想

DocLangはこれらの問題を解決するために、LLMのトークナイザに最適化されたマークアップ言語として設計されている。技術的な核心は、DocLangの要素とLLMのトークンとの間に1対1のマッピングを確立する点にある。これにより、モデルは余計な解釈を介さずに文書構造を直接認識できる。

仕様は限定的なXMLボキャブラリに依存し、テーブル、数式、チャート、マルチモーダルコンテンツなど、一般的なグラフィカル要素をサポートする。またロスレス(可逆)な変換が可能で、人間向けにレンダリングする情報を削除しない。つまり、DocLang形式のドキュメントはAIが読み取りやすいまま、元の情報を完全に保持する。

ワーキンググループのメンバーであるABBYYのAI戦略担当VP Maxime Vermeir氏は、「DocLangはエンタープライズAIにおける根本的な問題を解決するために設計された。文書の構造、レイアウト、意味、ガバナンスを最小限かつ標準化されたAIネイティブな表現で提供し、現代のAIシステムにとってはるかに決定論的な基盤を創り出す」と述べている。

なおDocLangは、IBMが2024年後半に開発したオープンソースツールキット「Docling」の上に構築されている。DoclingはPDFや画像などの多様なファイル形式を構造化データに変換するツールで、MicrosoftのMarkItDown(Microsoft MarkItDown LLM向けMarkdown変換ツール)やMarkerプロジェクトと類似の機能を持つ。DocLangはDoclingの出力を標準化し、異なるシステム間で交換可能な形式として定義する役割を担う。

コスト抑制への寄与

DocLangがもたらす利点の一つは、AI推論コストの抑制にある。The Registerが引用するAI Cost Checkの試算によれば、AIモデルにPDFのOCRスキャンを実行させる場合、1回あたり約1,200入力トークンと150出力トークンを消費する。単発では微々たる金額だが、エンタープライズが数千、数万のドキュメントを処理するスケールでは、トークン消費量が大きなコスト要因となる。

DocLang形式であれば、冗長なレンダリング情報を排除し、AIモデルが直接理解可能な構造でテキストを表現できるため、同じ内容をより少ないトークンで処理可能になる。AIモデルのトークン単価はプロバイダによって大きく変動するため、企業は事前に予想した以上のコストが発生するリスクを抱えている。DocLangはその不確実性を低減する手段としても機能する。

エコシステムと今後の展開

DocLangはオープンスタンダードとして開発される。LF AI & Data Foundationの下でワーキンググループを形成することで、ベンダーニュートラルな形で仕様を策定し、広範な業界参加を促す狙いがある。

創設メンバーにはIBMやNVIDIA、Red Hatといったプラットフォームベンダーに加え、AI文書処理に強みを持つABBYYやHumanSignal(旧Label Studioの開発元)、Forgis(文書分析のコンサルティング企業)が名を連ねている。これにより、ツールチェーン全体での相互運用性を確保しやすくなる。

今後のロードマップとしては、仕様の詳細な公開、リファレンス実装の提供、そして既存のドキュメント処理パイプラインとの統合が予想される。Doclingが対応するフォーマット変換に加え、DocLang形式を出力できるツールや、DocLangを入力としてLLMに渡すためのラッパーが整備される可能性が高い。

編集部の見解

短期的には、DocLangワーキンググループの設立自体がエンタープライズAI業界に一定のシグナルを送ったと評価できる。特にPDFやMarkdownに代わる「AIネイティブ」な形式を標準化する動きは、RAG(検索拡張生成)やエージェントシステムにおいて大きな効率改善をもたらす可能性がある。今後3〜6ヶ月で、DocLangに対応した変換ツールやバックエンド組み込みの事例が登場し、評価が進むと見られる。

長期的観点では、この取り組みが「AI向け書式」のデファクトスタンダードとなり得るかが焦点だ。既存のHTMLやMarkdownが人間と機械の両方にある程度使われてきたのに対し、DocLangは機械可読性に特化している。そのため人間が直接閲覧する用途には別途レンダリングが必要で、エコシステムが二重化されるコストが生じる。1〜3年のスパンで、主要な文書管理システムやCMSがDocLang形式の入出力を標準サポートするかどうかが普及の鍵となる。

編集部としては、特に大規模な文書処理を抱える企業(法律事務所、金融機関、製薬企業など)にとって、DocLangがもたらすトークンコスト削減とデータ品質の向上は検討に値すると考える。ただし、現時点ではまだワーキンググループが発足した段階であり、実際のパフォーマンス測定やコミュニティの賛同がこれからという点に留意すべきだ。業界が本当にこの標準を受け入れるのか、それとも既存ツールの改良で十分とみなされるのか——問われるのはこれからである。

参考

よくある質問

DocLangは既存のPDFやMarkdownを完全に置き換えるものですか?
DocLangは人間が直接読むためのレンダリング形式ではなく、AIモデルが効率的に処理するための交換形式です。企業がバックエンドで文書をAIに渡す際に中間形式として利用し、人間向けには従来のPDFやHTMLへの変換も想定されています。完全な置き換えではなく、AI処理パイプラインの一部として位置づけられます。
DocLangはどのようなXML構造で構成されるのですか?
現時点で公開されている仕様の詳細は限定的ですが、テーブル、数式、チャート、マルチモーダルコンテンツをサポートする限定的なXMLボキャブラリを用います。各要素はLLMのトークンと1対1で対応するように設計されており、冗長性が排除されています。
出典: The Register

コメント

← トップへ戻る