第8回 対話型AIがインターネットやパソコンの基本的UIになる時代が到来

私達が日常生活や仕事などで使う基本的なソフトウエアに生成AIが浸透し始めた。

グーグルは今年の9月20日(米国時間、以下同じ)、同社の対話型AI「Bard」の機能を拡張して、GmailやGoogle Docs、YouTubeなど一連の主要サービス(ソフト)と連携して使えるようにすると発表した(Bardのような対話型AIは生成AIの一種)。

この拡張機能は当初、英語でのサービスから着手して、その後、日本語をはじめ多言語に対応していく予定という。

たとえば「最近、誰々から届いたメールの内容を要約して」などと指示すると、BardがGmailのメールボックスを検索し、該当するメールの内容を全てチェックして、それらのポイントを書き出してくれる(図1)。

あるいは「最近、こういう新製品を買ったんだけど、その使い方を説明する動画を見せて」などと指示すると、Bardがそれに該当するビデオをYouTubeから検索して紹介してくれる(図2)。

図1 対話型AI「Bard」が指定されたメールの内容を要約して表示する様子
出典:https://www.youtube.com/watch?v=lr87yrvK86w
図2 BardがYouTubeを検索して、ユーザーに求められた動画を提示する様子
出典:https://www.youtube.com/watch?v=lr87yrvK86w

対話型AIが統合的なユーザー・インタフェースになる

こうしたBardの機能拡張は一見、単なるマイナー・チェンジに思われるかもしれないが、実はかなり重要な意味を持っている。

これまでBardのような対話型AIは単独で使われることを前提としていたが、今後はグーグルの主要サービスと連携することで、インターネットを中心とするコンピュータの操作全般に及んでくる。

従来、私達ユーザーはGmailやYouTubeなど個別のウエブ・サイトにアクセスしてから、所定の手続きに従って、それらのサービスを利用してきた。しかし今後はBardのような対話型AIに私達がやりたい事を指示すれば、以降はAIがどんなサービスをどのように使ってそれを遂行するかを自動的に判断して働いてくれる。

つまり対話型AIがインターネット、ひいてはパソコンを利用する際の、統合的なユーザー・インタフェース(UI)になっていく。あるいは「AIが基本ソフトのような役割を果たす」と言い換えることもできるだろう。

ユーザーは特定のソフトを使うのではなく、やりたいことをパソコンに伝えるだけ

こうした傾向がより鮮明に表れているのがマイクロソフトの動きだ。

グーグルが(前述の)Bardの拡張機能を発表して間もなく、マイクロソフトは同社の基本ソフト「Windows 11」に「Copilot」と呼ばれる対話型AIを導入する計画を明らかにした。まずは今年9月26日のWindows 11のアップデートに合わせて一般消費者向けCopilotの提供を始め、セキュリティ機能を強化したビジネス向けは同11月1日にリリースするという。

これまでマイクロソフトはグーグルに先んじて、自社製の検索エンジン「Bing」、ブラウザーの「Edge」、(WordやExcel、Powerpointなど)業務用ソフト・パッケージ「Windows 365」などに次々と対話型AI「Copilot」を搭載してきた。

これらのうちBingやEdgeのCopilotは公式には未だテスト段階だが、事実上は既に使えるようになっている。またWindows 365のCopilotも、今年11月1日に月額30ドルでリリースされる予定だ。

これらのソフトはこれまで個別に使われてきたが、今後はWindows 11の「Copilot」に言葉で指示を出せば、それらの主要ソフトを統合的に操作できるようになる。もちろん従来のように個々のソフトを起動してから使うこともできるが、基本的にはWindows 11のデスクトップ画面から直接指示を出すだけで使えるようになる。

そのような指示はチャット、つまりテキスト会話の形式でも出せるし、Windows11の音声認識機能と連携して、実際に私達の口からパソコンに話しかけるような形でも出すことができる。

これによって、従来のように「何らかの仕事をするために、それに必要な各種のソフトを起動して使う」というより、むしろ「何らかの仕事をするために、(Windows 11を搭載した)パソコンに『あれしろ、これしろ』と命令する」という使い方になる。

この命令を受けたWindows 11のCopilot(対話型AI)が、それに必要な業務用ソフトなどを自動的に判断して起動し、これを操作して仕事を行うようになる。

つまりグーグルもマイクロソフトも生成AIの業務活用に関して、ほぼ同様のビジョンを描いているのだ。

同様の試みは過去にも

ただ、この種の試みは以前にも実施されているが、満足な成果を上げることができなかった。

たとえばマイクロソフトは2014年、当時のWindows 10や(iOSやアンドロイドなど)モバイルOS向けに「コルタナ(Cortana)」と呼ばれるAIアシスタント機能を導入した。これはユーザーが自然言語、つまり普通の言葉で質問やリクエストを発すると、パソコンやスマホなどのIT端末がそれに応答してくれるというもの。

具体的にはユーザーのカレンダー情報やリマインダーなどを管理し、指定された時刻に通知を行ったり、検索エンジンのBingと連携して情報検索などを行うことができた。これらの操作を言葉で指示できるという点で、基本的には現在のWindows 11やMicorosoft 365などに搭載されているCopilot、あるいはグーグルのBardなどと同じ趣旨の製品と言えるだろう。

しかし当時のCortanaが採用していた自然言語処理の技術は現在と比べれば限定的で、ユーザーと自由自在に会話できるレベルに達していなかった。このためユーザーが多少変化に富んだ質問やリクエストを出すと十分に対応することができず、その評判は芳しくなかった。

マイクロソフトは2021年にモバイルOS上でのCortanaを廃止し、2023年にはWindows 10、11でも同様の措置を発表した。結果的には、このCortanaに代わって導入されることになったのがCopilotという位置付けになる。

製品としての作り込み具合が問題

今回のCopilotもかつてのCortanaと同じ轍を踏む恐れは当然ある。

Copilotの自然言語処理は、ChatGPTのベースにある大規模言語モデルGPT-4をベースに開発されている。これは2014年当時のCortanaとは比較にならない程、ハイレベルの技術だが、それでもユーザーからの多彩なリクエストに完璧に答えられる、という保証はない。

そもそもWordやExcel、Powerpointなど基本的な業務アプリを私達ユーザーは既に使い慣れており、これらを敢えて言葉で操作する必要性はそれほど感じられない。

逆に「私が昔ちょっと使った、あのアプリ。ほら名前なんて言ったっけ、ちょっと思い出せないんだけど、これこれこういうことができるあのアプリだよ、名前分からない?」といった、我儘なユーザーのリクエストにも対応できるほど柔軟な能力をCopilotやBardなど対話型AIが備えているかどうかは現時点で不明だ。

こうした柔軟な能力は、単に自然言語処理の技術だけで実現できるものではない。むしろIT端末の利用履歴などユーザーの個人情報に踏み込んだ上で、それらのデータを詳細に分析して、対話型AIの機能と正確に連動させる必要がある。ここまで製品を作り込むことは、たとえマイクロソフトやグーグルのようなビッグテックでも容易ではあるまい。

さらにCopilotやBardなどのベースにある大規模言語モデルには、誤情報や「幻覚(Hallucination)」と呼ばれる捏造情報などの問題が以前から指摘されている。

実際、ニューヨーク・タイムズの記者が、自らに届いた過去のメールを今回リリースされたBardの拡張機能に分析させてみたところ、実際にはありもしない情報を捏造して回答されたとするレビューを掲載している(1)

パソコンやスマホなどのIT端末に私達が「あれしろ、これしろ」と命令する対話型AIは、恐らく今後のUIの方向性としては間違いない。しかし、それが当初から順調に普及していくかどうかは今しばらく様子を見る必要があるだろう。

KDDI総合研究所リサーチフェロー 小林 雅一

◼️関連コラム
第7回 ChatGPTなどの生成AIは子供たちの教育にどう活用されているか?日本や米国の事例を紹介(2023-8-17)
https://rp.kddi-research.jp/atelier/column/archives/4780

第6回 日本企業のChatGPT利用率は7パーセント、軽率な利用には危険性も(2023-6-21)
https://rp.kddi-research.jp/atelier/column/archives/4683

第5回 グーグルやBingなどの検索エンジンは対話型AIの導入でどう生まれ変わるか(2023-5-22)
https://rp.kddi-research.jp/atelier/column/archives/4368

◼️参考文献
(1)”Google’s Bard Just Got More Powerful.  It’s Still Erratic,” Kevin Roose, The New York Times, Sept. 20, 2023