AI

Atlantic、AI学習用音楽データベースを公開――1200万曲超を検索可能に

The AtlanticがAIモデルの学習に使われた4つの音楽データセットを検索可能な形で公開。最大1200万曲を含むデータセットが無断で利用され、著作権問題が浮上。

6分で読める SINGULISM 編集チームが確認・編集

Atlantic、AI学習用音楽データベースを公開――1200万曲超を検索可能に
Photo by Steve A Johnson on Unsplash

The Atlanticの記者Alex Reisner氏が、AIモデルの学習に使用されている4つの音楽データセットを発見し、一般向けに検索可能なデータベースとして公開した。The Vergeが2026年6月20日に報じた内容によれば、データセットのうち2つはそれぞれ約1200万曲、900万曲という巨大な規模で、残りの2つも各10万曲を超える規模を持つ。

データセットの実態

Reisner氏の調査によれば、これらのデータセットは数千回ダウンロードされており、GoogleとStability AIは研究論文においてこれらのデータセットを使用したことを確認している。データセットの一部はFree Music Archiveのように個人利用では無料だが、商用利用にはライセンスが必要なものも含まれる。

注目すべきは、データセットの入手方法にある。3つのデータセットはYouTubeやSpotify上の楽曲へのリンク集として配布されており、AI開発者は自動化ツールを用いて実際の音声をダウンロードする。Reisner氏は「これらのツールはログインや広告、クリエイターの収益や購読者獲得に寄与する仕組みをバイパスするものがあり、プラットフォームの利用規約に違反する」と指摘する。

データベースに含まれるアーティストは、Lady Gaga、Fred Again..、Radiohead、Aphex Twin、Wu-Tang Clan、Bruce Springsteen、実験音楽家のHainbachなど多岐にわたる。The Atlanticの特設サイト「AI Watchdog」では、楽曲だけでなく書籍やその他のメディアがどのAIモデルの学習に使われているかを検索できる。

著作権問題の深刻化

AI音楽生成サービスの急速な普及に伴い、学習データの出所と権利処理が深刻な問題となっている。音楽業界は従来からAI企業に対し、無許諾での楽曲使用に強く反発してきた。2024年には主要レコード会社がAI音楽生成スタートアップを提訴する動きもあった。

今回のデータベース公開は、著作権侵害の実態を具体的に可視化した点で重要な意味を持つ。データセットが「理論上はインターネット上で自由に入手可能」であっても、実際の利用にはプラットフォームの利用規約違反や権利処理の問題が伴う。AI推論需要の爆発的好循環を報じた当サイトの記事でも指摘されているように、学習データの調達と権利クリアランスは業界全体の持続可能性に関わる課題だ。

透明性と規制の動き

欧州連合(EU)のAI法案では、学習データの透明性が要求されており、データセットの出所や著作権情報の開示が義務化される方向にある。日本でも文化庁がAIと著作権に関するガイドラインを策定中で、学習データの適法性が焦点となっている。

今回のAtlanticの取り組みは、市民ジャーナリズムの観点からも評価できる。権利者が自身の作品がどのAIモデルの学習に使用されたかを確認する手段を提供することで、透明性を高め、議論の土台を提供する。一方で、データセットそのものが違法に配布され続けている現状に対して、法的措置やプラットフォーム間の連携が求められている。

業界への影響

GoogleやStability AIがこれらのデータセットを研究利用として認めている点は興味深い。両社は研究論文で使用を開示しており、完全な非開示ではない。しかし、商用モデルへの組み込みや、権利者への対価支払いがない場合、訴訟リスクは高まる。

音楽AIスタートアップのSunoは先頃、追加で4億米ドルの資金調達を実施したと報じられている。投資家はAI音楽市場の成長に依然として強気だが、著作権リスクが企業価値評価に与える影響は無視できない。データセットの透明性が高まることで、AI企業は学習データの選別とライセンス調達を迫られる可能性がある。

編集部の見解

短期的には、このデータベース公開により、権利者団体やレコード会社がAI企業に対して訴訟やライセンス契約の要求を強化する動きが加速するだろう。特に大規模データセットを使用した既存のAIモデルについては、過去に遡った権利処理が必要になる可能性がある。音楽業界は既にAIによる著作権侵害に対して厳しい姿勢を示しており、具体的な証拠としてこのデータベースが活用されることは避けられない。 長期的には、この問題はAI学習データのライセンス市場の形成を促進すると見られる。現在は海賊版データセットの横行が常態化しているが、権利クリアランス済みのデータセットを提供する仲介サービスや、プラットフォーム側がAPIを通じて合法にデータを提供するモデルが登場する可能性がある。AI企業にとっては、短期的なコスト増加を受け入れてでも、法的リスクを低減する方向へ舵を切る判断が求められる。 編集部としては、このデータベース公開が単なる「晒し上げ」に終わらず、建設的な解決策の議論につながることを期待したい。

参考

よくある質問

このデータベースで具体的に何が確認できるのか
ユーザーはアーティスト名や楽曲タイトルを検索し、その楽曲がどのAIモデルの学習データセットに含まれているかを確認できる。Atlanticの「AI Watchdog」サイトで楽曲だけでなく書籍などのメディアも検索可能だ。
データセットの入手は誰でも可能なのか
データセットのリンク自体は公開されているが、実際の音声ファイルをダウンロードするにはYouTubeやSpotifyの利用規約に違反するツールが必要となる。この点が著作権問題の核心である。
この問題は音楽AIの将来にどのような影響を与えるか
権利者とAI企業の法的対立が激化する一方、ライセンス市場の形成や透明性向上が促される可能性がある。短期的には訴訟リスクが高まるが、長期的には持続可能なデータ利用の枠組み構築につながる。
出典: The Verge

コメント

← トップへ戻る