COLUMN-〔BREAKINGVIEWS〕ＡＩの未来像、来年は音声分野の技術発展に注目

ロイターDec 29, 2025 4:56 AM

Karen Kwok

［ロンドン　２６日　ロイター　BREAKINGVIEWS］ - テクノロジーに関して先見の明がある人々は、人工知能（ＡＩ）の未来像として、しばしばＳＦ映画「ｈｅｒ／世界でひとつの彼女」（２０１３）を引き合いに出す。ホアキン・フェニックスが演じる主人公は、スカーレット・ヨハンソンの声を持つ「サマンサ」というバーチャルアシスタントと小さなイヤホンで１日中会話し、やがて恋愛関係に発展するという内容だ。

この物語は決してＡＩへの「ラブレター」ではないが、投資家の資金や利用者の関心が２０２６年にどこへ向かう可能性があるのかを示唆してはいる。

音声ベースのソフトウエアは目新しくない。例えば多くの人々は既にアップルAAPL.Oの「Ｓｉｒｉ（シリ）」を利用している。アマゾン・ドット・コムAMZN.Oは２５年の初めに、音声サービス「アレクサ」対応機器が世界全体で６億台あると主張。これらはユーザーが調べ物をしたり、音楽を再生したり、居間の照明を操作するのに役立っている。

ただ従来のこうした体験は、どこか不自然で扱いにくいものだった。音声は典型的なロボットのようで、ソフトは硬直的で事前に作成されたプログラムのルールで動作していたので、新しい情報を把握したり、オープンＡＩの「チャットＧＰＴ」やアンソロピックの「クロード」のように新しい情報を処理したり、質問の文脈を判断したりするのは難しかった。

ところがＡＩが全てを一変させつつある。アレクサやシリは今や大規模言語モデル（ＬＬＭ）の力を備え、実用性が大きく向上した。一方でオープンＡＩのサム・アルトマン最高経営責任者（ＣＥＯ）と同社に加わったジョニー・アイブ氏は、画面を持たず音声要素を重視した機器の開発に取り組んでいるもようだ。

米ベンチャーキャピタル（ＶＣ）大手のセコイアが支援するイレブンラブズのようなスタートアップ企業が、この潮流の一端を担っている。イレブンラブズはコンピューターの音声を、人間の声により近い自然な音にする技術を専門としており、人々に短い音声クリップをアップしてもらうために１１００万ドルを支払ってきた。これら１万件のサンプルは、さまざまな声のトーンやアクセント、感情を再現するシステムの訓練に役立っている。

音声対応ＡＩがより賢く、人間らしい響きを持つ流れを、消費者は歓迎するだろう。２０１６年の学術研究によると、英語と中国語（北京語）では、話す方がタイピングの３倍速いとされている。またオープンＡＩの「ウィスパー」のような先進的な音声認識モデルは、誤認識の比率がわずか３％とされ、９７％の単語を正しく認識する。これは２０１９年の実験で、ユーザーの入力時に誤字やタイプミスが発生する割合（タイポ率）が約２％だった点を踏まえれば、スマートフォンのキーボードを使うのとほぼ同じ精度と言える。

今後料理の注文やタクシーの手配においては、ウェブの閲覧ソフトやモバイルアプリを使うよりも、ＡＩアシスタントに話しかけるだけになっていくだろう。例えばウーバー・テクノロジーズUBER.Oは、既に英語、ドイツ語、日本語、フランス語、ヒンドゥー語、ポルトガル語でシリのユーザー向けの音声コマンドをサポートしている。理論的にはイヤホンを付けた顧客が、ポケットからスマートフォンを取り出すことなく、お気に入りの寿司を注文できる。これには文字入力にあまり慣れていない高齢者や、視覚障害者も魅力を感じるはずだ。

消費者が音声ＡＩを受け入れる素地は整っている。ヘッドフォンを着用して１日の大半を過ごすのがますます一般的になり、ワッツアップのユーザーは毎日７０億件以上の音声メッセージを送信しているほか、米アルファベットのベンチャー部門であるＧＶのトム・ヒューム氏によると、若者のほぼ半数は週に１回は音声メモを利用している。

ネクスト・ムーブ・ストラテジー・コンサルティングの分析では、スマートイヤホンを含む音声ＡＩ市場全体の売上高は２０２５年から３０年にかけて３倍以上に拡大し、３０年末までには３４０億ドルに達する見通しだ。一方ピッチブックの調査に基づくと、ベンチャーキャピタルは２５年、音声ＡＩスタートアップ企業に６６億ドル投資しており、これは２３年の４０億ドルから増加した。

より大きな問題は、チャットボットが「オーディオボット」へと進化する中で、どの企業が恩恵を受けるかになる。自然な音声への需要が高まるのは確実で、イレブンラブズにとって追い風だ。同社は合成音声市場で７０－８０％のシェアを握っていると主張しており、２５年末までの年間経常収入を３億ドル、営業利益率は６０％に達すると見込む。

ハイテク大手各社もＡＩを画面ではなく耳で使う方向へと、すでに動き始めている。アップルのワイヤレスイヤホン「ＡｉｒＰｏｄｓ」は現在、５つの言語でリアルタイム翻訳機能を提供しており、ユーザーは外国語話者の発言を即座に理解できる。グーグル親会社アルファベットGOOGL.Oも、ＡＩアシスタント「ジェミニ」の類似のリアルタイム翻訳機能を、ワイヤレスイヤホン「ピクセルバッズ」に搭載している。

だが、真に大きなビジネスチャンスは、従来のテキスト中心のシステムとは異なる、より専門的な音声ＡＩモデルの開発にあるのかもしれない。

現在の音声アシスタントの多くは、音声をテキストに変換し、それをＬＬＭに入力して結果を読み上げる仕組みだ。これに対し、より高コストではあるが、音声を介して直接「聞き、考え、応答する」統合型の音声システムを構築するという、より良い代替案も考えられる。これによってユーザーの抑揚や周囲の環境音を回答に取り込むといった新しい可能性が開けてくる。つまり、映画「ｈｅｒ」のようなＳＦの風景に１歩近づくわけだ。

もう１つの大きな疑問は、オーディオボットの台頭で誰が不利益を被るのかという点だ。オープンＡＩのアルトマン氏とアイブ氏が密かに開発を進めている機器に込めた意図が、そのヒントになるかもしれない。米紙ウォールストリート・ジャーナル（ＷＳＪ）によると、両氏はユーザーが画面を見る時間を減らそうとしているもようだ。そうなるとＴｉｋＴｏｋ（ティックトック）、インスタグラム、ワッツアップといったソーシャルメディアアプリは、適応できなければ打撃を受ける可能性がある。

とはいえ、音声ＡＩにとって最大の問題はプライバシーではないだろうか。常に聞き耳を立てているヘッドホンやその他のデバイスを身につけて人々が歩き回ることを、規制当局や一般市民は好まないだろう。オープンＡＩや他の企業は、そうした障害を乗り越える方法を見つける必要があるかもしれない。

それでもソーシャルメディアの歴史が示すように、ユーザーは気に入った製品があれば、個人情報を喜んで差し出してきた。２０２６年は、ＡＩの未来が「見える」のと同じぐらい「聞こえる」ようになってもおかしくない。

（筆者は「Reuters Breakingviews」のコラムニストです。本コラムは筆者の個人的見解に基づいて書かれています）