インターネットの声

地方ニュース340社、Internet Archiveをブロック

AIトレーニングデータへの懸念から、340以上の米国地方ニュースサイトがInternet Archiveへのアクセスを制限。パブリックアーカイブとローカルジャーナリズムへの影響が懸念されている。

9分で読める SINGULISM 編集チームが確認・編集

地方ニュース340社、Internet Archiveをブロック
Photo from Unsplash

Nieman Labの追跡調査により、AI企業によるトレーニングデータスクレイピングへの懸念から、米国の地方ニュースサイトがInternet Archiveへのアクセスを制限する動きが急拡大している実態が明らかになった。Slashdotの報道によれば、ブロックを行う組織は340以上に達し、大手地方紙グループ5社が大半を占める。

今年初め、Nieman Labは、The New York TimesやThe Guardian、USA Today Co.といった主要ニュース出版社が、AI企業がInternet Archiveのリポジトリをトレーニングデータとしてスクレイピングすることを恐れて、同アーカイブへのアクセスをブロックし始めたと報じた。非営利アーカイブの最後の砦の一つが封鎖されることは、公共の利益にとって深刻な問題だ。そして4ヶ月後、状況はさらに悪化している。

Nieman Labの新たな分析では、米国全土の340以上の地方ニュースサイトが、Internet Archiveの記事へのアクセスと保存能力を制限していることが確認された。サンプルに含まれるサイトの多くは、米国の地方新聞大手7社のうち5社、すなわちUSA Today Co.、McClatchy、Advance Local、MediaNews Group、Tribune Publishingが所有している。MediaNews GroupとTribune Publishingは、いわゆる「ハゲタカ・ヘッジファンド」Alden Global Capitalの子会社だ。

AI懸念がもたらす副作用

出版社側の論理は、AI企業による無断利用の防止にある。しかし、Techdirtが報じたように、その手段としてInternet Archiveをブロックすることは、歴史的記録の保存という同機関の使命を著しく損なう。特に地方ニュースは、地域の歴史や出来事を伝える唯一の媒体であり、それがペイウォールの背後に隠され、さらにInternet Archiveからも隔離されれば、ジャーナリストや研究者、一般市民による過去の記録へのアクセスが困難になる。

この状況を痛烈に批判するのが、地方ジャーナリストたちだ。200人以上のジャーナリストが署名した請願書の中で、ニューヨーク州のロックランド、サリバン、ロックランド各郡を取材する「The Monroe Gazette」の編集者B.J. Mendelsonは次のように訴えている。「私は大規模なニュース砂漠の中で取材している。このため、すでに廃刊したメディアやゾンビ化したメディアの過去の記事のアーカイブデータに大きく依存している。Internet Archiveがなければ、私の仕事は非常に困難になる。」

パブリックアーカイブの危機

この動きが示すのは、AI時代における出版社とアーカイブ機関の複雑な関係だ。出版社は自社コンテンツの価値保護とAIによる収奪防止を優先する一方、Internet Archiveは人類の知識の保存を使命とする。両者の利害が衝突した結果、犠牲になっているのはパブリックの知的財産と、それを利用する独立系ジャーナリストや研究者だ。

英CMAがGoogle検索に新ルールを課したパブリッシャー保護の動きとは対照的に、ここでは出版社自らが、歴史的記録への扉を閉ざしている。皮肉なことに、彼らが防ごうとしているAIによるスクレイピングは、Internet Archiveがボット対策を強化すれば別の経路から行われる可能性があり、ブロックの実効性は限定的という指摘もある。

Internet Archiveの対応

Internet Archiveは、地方ニュースメディアが提起する懸念に耳を傾けていると表明する一方で、積極的な打開策を打ち出している。昨年12月、Internet ArchiveはPoynter Institute(ポインター研究所)およびInvestigative Reporters and Editors(調査報道記者・編集者協会)と提携し、33の地方および全国ニュースメディアのグループに対し、アーカイブ戦略の策定と実装方法を指導する研修を開始した。この取り組みはPress Forward助成金によるもので、2027年末までに300のニュースルームに対してデジタル保存とInternet Archiveサービスの活用方法を訓練することを目標としている。

つまりInternet Archiveは、単なるブロックの標的に甘んじるのではなく、ニュースメディア自身のアーカイブ能力を高めることで、相互に有益な関係を構築しようとしている。これは、敵対ではなく協調の道を選ぶ現実的な戦略と評価できる。

編集部の見解

短期的影響: このブロックの波は、今後数ヶ月の間にローカルジャーナリズムの現場に深刻な影響を及ぼすと見られる。特に、ニュース砂漠と呼ばれる地域で取材する独立系記者や小規模メディアは、過去の記事へのアクセスを失うことで、調査報道の基盤を失う。本サイトの読者層であるエンジニアやプロダクトマネージャにとっては、Internet Archiveが提供するAPIやWayback Machineの可用性低下として現れる可能性がある。また、AIトレーニングデータをめぐる出版社と非営利アーカイブの対立は、他のデジタルアーカイブ機関(例えば、日本の国立国会図書館のWebアーカイブなど)にも波及リスクをもたらす。

長期的視点: 1〜3年のスパンで見ると、この問題は「デジタル公共財」の概念を再定義する契機になるだろう。出版社が自社コンテンツのAI利用を完全にコントロールしたいという要求は理解できるが、Internet Archiveのような非営利アーカイブの存在が人類の知識基盤として不可欠であることもまた事実だ。法整備が追いつかない中で、業界団体や助成金による自主的な解決策(今回のPoynter Instituteとの連携のような)が標準となる可能性がある。しかし、根本的には、AIのトレーニングデータとしての過去のニュース記事の価値が高まるほど、出版社はそれを自社の資産として囲い込むインセンティブを持ち続ける。この緊張関係は、新しいライセンスモデルや、アーカイブ専用の法的保護枠組みの議論を促すだろう。

編集部からの問い: 出版社によるInternet Archiveブロックは、本当にAI企業のスクレイピングを防ぐ有効な手段なのか。むしろ、過去の記録へのアクセスを制限することで、AIモデルの偏りや、ニュースのない社会の歴史修正を促進するリスクの方が大きいのではないか。読者の皆さんは、Web上の公共アーカイブに対して、どのような権利と責任があるべきだと考えるだろうか。特に、日本においても新聞社や放送局が過去記事をデジタルアーカイブから切り離す動きが加速した場合、私たちはどう対応すべきか。一つのヒントは、オープンソースのアーカイブツールや、分散型の保存ネットワーク(IPFSなど)の活用かもしれない。この問題について、ぜひ意見を共有してほしい。

参考

よくある質問

なぜニュースメディアはInternet Archiveをブロックするのか?
主な理由は、AI企業がInternet Archiveに保存された過去の記事をスクレイピングし、自社のAIモデルトレーニングに無断利用することを懸念しているためです。出版社は自社の知的財産権を守り、AIによる収益の機会損失を防ぎたいと考えています。ただし、このブロックは結果的に、パブリックアーカイブへのアクセスを遮断することになります。
このブロックは誰に影響するのか?
最も影響を受けるのは、地方ニュースを取材する独立系ジャーナリストや小規模メディアです。彼らは過去の記事のアーカイブに依存して調査報道を行っています。また、歴史研究者や一般市民も、ペイウォールのない無料のアーカイブへのアクセスを失います。広い意味では、民主主義の基礎となる情報へのアクセス権の問題です。
Internet Archiveはこの状況にどう対応しているか?
Internet Archiveは、ニュースメディアの懸念を認識しつつ、協調的な解決策を模索しています。Poynter InstituteやInvestigative Reporters and Editorsと提携し、2027年末までに300のニュースルームに対してデジタル保存の戦略策定とInternet Archiveサービスの活用方法を訓練するプログラムを開始しました。これは、敵対ではなく、相互利益を目指すアプローチです。
出典: Slashdot

コメント

← トップへ戻る