研究員がひも解く未来

研究員コラム

第3回 生成AIが著作権侵害などで訴えられる――人間の作品から学んで創る人工知能はクリエーターやジャーナリストの敵となるのか?

テキストや画像、コンピュータ・プログラムなど様々なコンテンツを出力する生成AI。中でも対話型AI「ChatGPT」の登場以来、世間の関心を集めているが、実は法的にはグレー・ゾーンに置かれている。

これら各種の生成AIは作家や漫画家、イラストレーター、プログラマーなど各方面の知的財産権を侵害し、その職業を脅かしている、という訴えや苦情は以前から聞かれた。

そして今年1月、米国で画像生成AIの合法性を争う集団訴訟が起こされた[1]

原告側の代表は、漫画家のSarah Andersen、コンセプト・デザイナーのKarla Ortiz、そして画家・イラストレーターのKelly McKernanの3氏。

一方、被告となったのは英Stability AI、米Midjourney、米Deviantartの3団体。

このうちStability AIは、世界的に使われている画像生成AI「Stable Diffusion」や「Dream Studio」などを開発・提供する業者。

Midjourneyも同じく世界的な画像生成AI「Midjourney(製品名と組織名が同じ)」を開発・提供する研究団体。

一方、Deviantartは本来オンラインのアーティスト・コミュニティだが、2022年末に「DreamUp」と呼ばれる画像生成AIを自らリリースしてこの分野に参入した。米国の団体だが、イスラエルのウェブ開発企業「Wix.com」の傘下にある。

画像生成AIはクリエーターの仕事を奪うと主張

原告側の訴えによれば、これらの画像生成AIは世界中で数百万人ものアーティストが描いた数十億枚もの各種画像をウェブ上から収集し、これを機械学習の教材(「教師用データ」あるいは「学習用データ」などと呼ばれる)として無断で使用している。これらAIが生成する作品はアーティストの著作権を侵害すると同時に、アート市場での新たな競合関係を作り出すことによって、アーティスト(つまり人間)を市場から締め出しているという。

そうしたケースは既に珍しくないという。「Stable Diffusion」のような画像生成AIを使用する際には、ユーザーが特定のアーティストの描画スタイル、つまり画法のようなものを指定してリクエストできる。

たとえば特定のイラストレーターの氏名(Aさん)を指定し、「Aさんの描画スタイルでこれこれこういう絵柄のイラストを描いてください」とリクエストすると、画像生成AIはまさにAさんが描いたかのようなイラスト作品を出力する。しかも無料でやってくれる。

この結果、過去にAさんに雑誌や書籍、ゲーム等に使うイラストの仕事を依頼していた出版社やゲーム会社などが最近は画像生成AIを使ってイラストを作成してしまうので、こうしたイラストレーターに舞い込んでくる仕事が目立って減少しているという。

また漫画家やデザイナーなど他の職種でも、多かれ少なかれ同じような事が起きているという。しかも画像生成AIの業者らは、元はと言えば自分達の作品を無断で使って、そういうことをやっている。とてもではないが我慢できない、というのが原告側の起訴理由だ。

1月に起こされた同訴訟は現在ペンディングとなっているが、事の重大さから判断して米国の司法当局が最終的にこれを受理し、裁判が始まるのは間違いないと見られている。また、いずれは日本をはじめ他の諸国でも同様の訴訟が起こされる可能性がある。

AIが生成する画像はコピーのコラージュに過ぎないのか?

実際に米国で裁判が始まれば、その主要な争点となりそうなのが、画像生成AIによる作品の生成プロセスだ。

原告側によれば、画像生成AIが実際にやっていることは学習用データとされる多数の画像を複製して、それらをコラージュ、つまり組み合わせている作業だという。基本的にはアーティストが描いたオリジナル作品のコピーに過ぎないから、著作権の侵害に当たるということだ。

実際のところ、画像生成AIが出力する一部の画像には、実在する画家などアーティストによる署名らしきものがぼんやりと残されている場合もあり、まさにこれが「コピー」の証拠だという。

一方、被告側のStability AIなど画像生成AI業者は原告側の訴えを真っ向から否定している。

こうした業者らによれば、画像生成AIが実際にやっていることは、「Dimension Reduction(次元削減)」や「Diffusion Model(拡散モデル)」などの特殊な技術を使って「Latent Space(潜在空間)」と呼ばれる数学的な空間における「AI独自の描画スタイル」を導き出すことだという。

この独自の描画スタイルによって新たな画像を生成しているので、オリジナル作品のコピーには当たらない。従ってアーティストの著作権は侵害していない、というわけだ。

ただ、これらの専門用語はいずれも情報科学や物理学の先端理論に由来しているため、一般人はおろか知的財産権などを専門とする法律の専門家にも対処するのが難しいと見られている。もしも裁判が始まれば、その審理は容易に決着しそうもない。

コード生成AIも訴えられる

実は、この画像生成AIに先立って、コンピュータ・プログラム(コード)を生成するAIに対しても同様の集団訴訟が起こされている。

訴えを起こしたのは米国のプログラマー兼弁護士のMatthew Butterick氏らを代表とする一群の法律専門家達だ。

彼らは2022年11月、コード生成AIの「Copilot」等を開発・提供する米マイクロソフト、OpenAI、そしてGitHubの3者を相手取って、「コード生成AIが数百万人に上るプログラマーの権利を侵害している」として訴えた(因みにButterick氏は前述の画像生成AIに対する集団訴訟の弁護士も兼務している)

コード生成AIは文字通りコードを生成する人工知能である。プログラマーがプログラムの始まりとなる何らかの文字列をタイプ入力すると、ちょうどオート・コンプリート(自動補完)のような格好で、その文字列に続く一連の文字列、つまり新たなコードを推測して大量に出力してくる。もちろん出力結果は完璧ではなく、ときには誤ったコードも出力されるのでプログラマーによるチェックと修正が必要となるが、それでも利用者の間では「プログラミングの生産性を10パーセント程度上げる」と高く評価されている。

コード生成AIは偶然の産物でもある。元々、OpenAIが現在のChatGPTのベースとなる大規模言語モデル「GPT-3」を開発した当時、本来テキストを生成するはずのGPT-3が開発者も驚いたことにコードも出力し始めたのだ。

その理由は、こうしたAIが機械学習用に読み込んで消化した膨大な文献の中に、大量のコンピュータ・プログラムも含まれていたからだ。AIにしてみれば、読み込むものがテキスト(文章)であろうとコードであろうと文字列であることに変わりはない。結果的に、本来テキストを出力するはずのGPT-3はコードも生成し始めた。

これを見たOpenAIの研究者らは、今度は「Codex」と呼ばれる生成AIを開発し、これに大量のコンピュータ・プログラムを読み込ませて機械学習させた。その結果、誕生したのが前述のコード生成AI「Copilot」である。

その際、機械学習用の教材(学習用データ)として使われたのが、マイクロソフト傘下のソフト開発プラットフォーム「GitHub」に眠っている豊富な資源である。GitHub上には世界中のプログラマーから寄せられたオープンソース・コード、つまり誰でも自由に使えるプログラムが大量に保存されている。これら膨大なコードを消化(機械学習)することによってCopilotが生まれたのだ。

前述のようにCopilotはプログラマーの間で高く評価されているが、逆にこれをプログラマーの権利侵害であるとして批判する向きもある。確かにGitHubに保存されている大量のプログラムは「オープンソース」だから誰でも自由に使って構わない。しかし、そもそもそれらは「他のプログラマー」つまり「人間」が使うことを想定しており、まさかAIつまりコンピュータがそれらのコードを機械学習して、新たなコードを自動生成するようになるとは誰も予想していなかった。

つまりGitHub上の膨大なデータ(コード)は想定外の使われ方をしている。これに加えて、AIが今後大量に自動生成するコンピュータ・プログラムがソフト開発市場で新たな競合関係を生み出し、人間のプログラマーを市場から締め出す恐れもある。しかも、その機械学習の教材となっているのは、元々プログラマーがGitHubに提供したオープンソース・コードであるから、人間側は自分で自分の首を絞めているようなものだ。ちょうど画像生成AIのケースと同じロジックで、こうしたコード生成AIの集団訴訟も起こされたのである。

こちらの訴えも米国の司法当局に受理され、間もなく裁判が開始される見込みだ。訴えられたマイクロソフトやOpenAI、GitHub側では、これまでのところ公式のコメントを控えている。

ChatGPTには報道機関から抗議の声が上がる

生成AIの権利侵害を告発する動きは報道業界にも広がっている。

今年2月、ニューズコープ傘下のダウジョーンズは、世界的な人気を誇るOpenAIのテキスト生成AI「ChatGPT」が経済紙ウォールストリート・ジャーナル(WSJ)の記事を無断で利用している、と非難した(ダウジョーンズはWSJの発行元)。

「ウォールストリート・ジャーナルの記事をAIのトレーニング(機械学習)のために利用したいと考える者は誰でもダウジョーンズからそのためのライセンス(利用許諾権)を得なければならない」とする公式コメントを同社は出した。

米ブルームバーグ・ニュースの報道によれば、この背景にはジャーナリスト、フランセスコ・マルコーニ氏の告発があるという。同氏がChatGPTに「君が機械学習のために使っているニュース・ソースは何?」と尋ねたところ、ChatGPTはウォール・ストリートジャーナルやCNN、ニューヨーク・タイムズなど20種類の主要メディアからなるリストを表示したという。

ChatGPTはしばしば誤った回答や嘘の情報などを返すことがあるが、自分の不利になるような嘘を敢えて言う必要もない。つまり、それら20種類のメディアは本当にChatGPTの機械学習に使われている可能性が高い。また、OpenAIはこれらのメディアからコンテンツの利用許諾を取得していない。これを理由にダウジョーンズは抗議のコメントを出したのである。

またワーナーブラザース・ディスカバリー傘下のケーブルテレビ局CNNも同じ理由でOpenAI(ChatGPT)に抗議している。

同じくブルームバーグ・ニュースによれば、CNNはOpenAIに対しChatGPTの機械学習に関するライセンス料(コンテンツ使用料)の支払いを求めて交渉する計画であるという。

仮に、こうしたライセンス交渉が破綻した場合、コード/画像生成AIに続いてChatGPTのようなテキスト生成AIでも訴訟沙汰になる可能性がある。

ChatGPTが世界的ブームを巻き起こしてから、生成AIには本格的なビジネスへの導入が期待されているが、そのためには著作権問題をクリアして今の法的グレーゾーンを脱却する必要があるだろう。

KDDI総合研究所リサーチフェロー 小林 雅一

◼️関連コラム
第2回 話題のテキスト生成AI「ChatGPT」の性能評価――確かに回答には誤りが多いが、本来の実力を見極めるには今しばらく時間が必要(2023-2-7)
https://rp.kddi-research.jp/atelier/column/archives/1115

AIブームの第2波を巻き起こすGenerative AI:第1回 画像生成AIとは何か(2023-1-19)
https://rp.kddi-research.jp/atelier/column/archives/1091

◼️参考文献
[1] https://stablediffusionlitigation.com/pdf/00201/1-1-stable-diffusion-complaint.pdf