第12回 生成AIを開発するIT企業とメディアの複雑な関係

ChatGPTなどで知られるOpenAIが、ここに来て新聞社や出版社などメディアとの連携を加速している。

2024年4〜5月にかけて、同社は英フィナンシャル・タイムズ(日本経済新聞傘下)や米ニューズ・コープ、さらには米アトランティックや米Vox Mediaなど欧米の主要メディアと立て続けに戦略的な提携関係を結んだ。

これらの提携で、OpenAIはメディア各社が保有するアーカイブ(記事データ)などのコンテンツを生成AIのトレーニング(機械学習)に利用できるようになる。またChatGPTが各社記事の要約などを作成・表示したりすることも可能になるという。

一方、メディア各社の方では自社のコンテンツをOpenAIに提供する対価として、OpenAIから(推定で)年間数百万ドル(数億円)の支払いを受ける。またChatGPTなどの生成AI技術を使って、メディア関連の新たな機能や新製品も開発していくと見られる。

これが提携の基本的な枠組みだ。

一部のメディアから訴えられる

このように多くのメディアと連携を進める一方で、OpenAIは逆に一部メディアからの攻撃にも晒されている。

2023年12月末、米ニューヨーク・タイムズは著作権侵害を理由にOpenAIとその筆頭株主であるマイクロソフトを提訴した。訴えによれば、同社の記事データが無断でChatGPTやCopilotなど生成AIのトレーニングに利用されており、それによる被害額は数十億ドル(数千億円)に上るという。

翌2024年4月には、米国のシカゴ・トリビューンやニューヨーク・デイリーニュースなど8つの地方紙(いずれもアルデン・グローバル・キャピタルが所有)が共同で、同じく著作権侵害を理由にOpenAIとマイクロソフトを提訴した。

ここでもやはり生成AIのトレーニングにこれら新聞社の記事データが無断で利用されており、それにより多額の被害が発生しているという(具体的な被害額は明らかにしていない)。

以上のようにOpenAIあるいは同社に代表される生成AI開発業者にとって、新聞社や出版社をはじめメディア産業は味方であると同時に敵でもある。と言うより、実際にはお互い手探りで本来の関係を模索、ないしは構築しようとしている段階かもしれない。

OpenAIやグーグルをはじめIT企業にとって、新聞社などのメディア企業は生成AIの開発に必要な記事データなどの供給元として「無くてはならない存在」である。

一方メディア企業にとって、これらの生成AI開発業者は必ずしも必須の存在とは言えない。むしろ藪から棒に自分達のコンテンツを無断で利用し、そこから巨額の利益を上げようとする「不埒な存在」と映っているかもしれない。

つまり両者の関係はイーブンという理想的な関係からは程遠い状況にある。

しかし社会や産業界への生成AI導入が急ピッチで進む中、メディア側でも時代の流れに即して、そうした新しい技術に対応していく必要に迫られている。好むと好まざるとに関わらず、生成AIを開発するOpenAIのようなIT企業とも適切な関係を築いていかざるを得ない。

以下では、これまでの経緯や背景をおさらいしてから両者の関係を考察・展望してみよう。

無視される存在から提訴される存在へ

現在人気の対話型AI「ChatGPT」や画像生成AI「DALL-E」をはじめ様々な生成AIのベースとなる「大規模言語モデル(Large Language Model:LLM)」の研究が本格的に始まったのは2012年頃のことだ。

当初はカナダ・トロント大学のジェフリー・ヒントン研究室をはじめアカデミア(大学などの学界)から始まったが、やがて2015年前後からグーグル、これに続いて2016年頃からOpenAIなど産業界へもLLMの研究開発が広がっていった。

LLMの開発、中でもそのトレーニング(機械学習)には大量のテキスト・データが不可欠だ。

そこには「コモンクロール」と呼ばれる非営利団体がウェブ上から広範囲に収集したテキスト・データ、あるいは各種のSNSやオンライン・フォーラムのレディット、さらにウィキペディアなど多彩なコンテンツが利用されているが、ひときわ重宝されているのが新聞社や出版社などが所有する記事データである。

たとえばSNSに投稿される細切れの書き込みなどとは対照的に、これらの記事データはある程度のまとまった分量とクォリティが保証されているからだ。

これまでOpenAIやグーグル、メタ(旧フェイスブック)をはじめIT企業は自社で開発するLLMの機械学習に、これらの記事データ(本来著作権で保護されている著作物)をメディアなどコンテンツ・ホルダーに無断で活用してきた。

しかし比較的最近まで、それに抗議したり提訴したりするメディアは皆無だった。と言うより、実際のところメディア各社は自らの記事などコンテンツがそれらIT企業のLLMの機械学習に無断で利用されている事に気付いていなかったと見られる。

それは何故か?

少なくとも2021年頃まで、生成AIのベースにあるLLM技術は大学の研究者や一部IT企業の技術者らが地道に研究開発していたものであり、外部からはほとんど注目されていなかった。

このため、それらLLMの機械学習に新聞社や出版社の記事データ(大体ウェブ上で掲載されている)が無断で使われようと、それらメディアの関係者は気付かないか、あるいは気にも留めなかったのだ。

ところが2022年頃から各種の生成AIが製品化されてヒット商品になると、それを取り巻く状況も徐々に変わってきた。

最初は、同年4月頃からDALL-EやStable Diffusion、Midjourneyなどの画像生成AIが一部ユーザーの注目を浴び、やがて世間で広く使われるようになった。これらの画像生成AIには、そのベースに人間の言葉による命令(プロンプト)を理解するためのLLM技術が使われている。

続いて同年11月末にOpenAIがChatGPTを一般公開すると、瞬く間に世界中の利用者を獲得して記録的ヒット商品となった。

こうして各種の生成AIと、そのベースにあるLLMが商品化されて経済的な価値を持つようになると、それまでの学者らによる研究目的の時代のようにコンテンツ・ホルダー(各種クリエーターや映像ストック業者、メディアなど)から大目に見てもらうわけにはいかなくなった。

まず2023年の年明け早々に米国の漫画家やイラストレーターら一部のクリエーター(いずれも女性)が、(前述の)Stable Diffusionを開発する英Stability AIやMidjoueneyを開発する企業(商品名と同じくMidjourney)などを著作権侵害で提訴した。

彼女達は「自分達の作品が画像生成AIの機械学習に無断で利用されている」として、これら企業にその損害賠償などを求めている。

これに続いて同年2月には、米国の映像ストック業者GettyImagesが同じく著作権侵害を理由にStability AIを提訴した。

一方、テキスト生成AIのChatGPT(つまりOpenAI)に対しては、いきなり訴訟が起こされるということはなかった。

ただ、2023年2月頃から早くも(ワーナーブラザース・ディスカバリー傘下の)CNNや(ニューズ・コープ傘下でウォールストリート・ジャーナルの発行元)ダウ・ジョーンズなど一部のメディアは、OpenAIに対し「自分達の記事や映像などのコンテンツを無断でChatGPTなど生成AIの機械学習に使われている」と抗議し始めた。

その一方で、水面下ではコンテンツ使用料の支払いを求めてOpenAIと交渉に入ったと見られている。

一部メディアを除いて金額面で折り合わない

こうした動きは、やがて他のメディアにも広がっていった。それらの中にはOpenAIとの間で早々と合意に達し、戦略的な提携関係を結ぶ企業も出てきた。

まず2023年7月、米国の通信社AP(Associate Press)がOpenAIの開発するGPT-4などLLMの機械学習に自社のニュース記事を提供する見返りに、OpenAIからコンテンツ使用料を受け取る事で合意に達した。APはまた、OpenAIの生成AI技術を導入してメディア関連の新たな機能や製品を開発していくとも述べている。

ただし、この提携でOpenAIがAPに支払うニュース記事(コンテンツ)の使用料など、金銭的な詳細は明らかにされていない。

これに続いて同年12月の中旬、今度はドイツの大手メディア「アクセル・シュプリンガー」がOpenAIとの間で同様の合意に達した。ここでも金銭的な条件など詳細は明らかにされなかったが、OpenAIは数年間で(推定)数千万ユーロ(数十億円)のコンテンツ使用料をアクセル・シュプリンガーに支払う契約と見られている。

恐らくOpenAIとAPとの間で交わされた契約でも、このアクセル・シュプリンガーの場合と同程度のコンテンツ使用料が支払われると見られる。

しかし、これらAPやアクセル・シュプリンガーは(少なくとも、この時点では)どちらかというと例外的な存在であった。世界的に多くのメディア企業が「この程度の金額ではOpenAIと提携するわけにはいかない」という姿勢を覗かせていた。

これらの企業は「もしもOpenAIが今後も自分達のコンテンツを生成AI(LLM)の機械学習に利用し続けるなら訴訟も辞さない」という構えだった。

そして同年12月の末、(前述のように)ニューヨーク・タイムズがOpenAIとマイクロソフトを、著作権侵害を理由に提訴することになったのだ。そこで示された被害額は数十億ドル(数千億円)と、確かにAPやアクセル・シュプリンガーにOpenAIが提示した補償額(数十億円)とは二桁違う。

つまりニューヨーク・タイムズはOpenAIに対し「我々と提携したいのなら、これくらいの金額(数千億円)は払って当然だ」と示唆しているのだ。 

同社の後を追って、シカゴ・トリビューンやニューヨーク・デイリーニュースなど8つの地方紙も同様の理由でOpenAIを提訴した。

ただし、これらの訴訟が受理され実際の裁判になれば長期化することが予想されている。このためニューヨーク・タイムズなど米国メディアは本音では裁判で決着することを期待していない。むしろ、これらの訴訟はOpenAIを交渉の場に引きずりだすための手段と見られている。

しかし、そうなると同社がOpenAIへの訴訟で示した「数十億ドル」という被害額、つまり損害賠償額は大き過ぎる金額になる。

OpenAIはChatGPT有料版などの売上からなる年間収益を明らかにしていないが、英フィナンシャル・タイムズの報道によれば2023年には推定20億ドル(約3000億円)と見られている。

仮にそうだとすれば、ニューヨーク・タイムズが暗に求めている「数十億ドル(数千億円)」もの損害賠償額(事実上のコンテンツ使用料)をOpenAIが実際に支払うのは無理だろう。これだけで同社の年間収益が吹き飛んでしまうからである。

(前掲の)シカゴ・トリビューンなど8つの地方紙がOpenAIにどれくらいの損害賠償額を要求しているかは不明だが、8つ全部を足し合わせればニューヨーク・タイムズと同程度か、それ以上の額に達してもおかしくない。

以上のように、OpenAIと合意して戦略的な提携関係を結ぶメディアが増加していることは事実だが、逆に残されたメディアとOpenAIとの間では金銭的な条件面で大きな隔たりがある。

今後OpenAIに代表される生成AI開発業者とメディア企業が安定した関係を構築するまでには、まだ相当の時間と紆余曲折が予想される。

KDDI総合研究所リサーチフェロー 小林 雅一

◼️関連コラム
第9回 ミッドジャーニーなど画像生成AIを巡る著作権訴訟でクリエーターらの訴えが概ね棄却される(2023-11-30)
https://rp.kddi-research.jp/atelier/column/archives/4938

第3回 生成AIが著作権侵害などで訴えられる――人間の作品から学んで創る人工知能はクリエーターやジャーナリストの敵となるのか?(2023-3-16)
https://rp.kddi-research.jp/atelier/column/archives/1192