tradingkey.logo
tradingkey.logo

COLUMN-〔BREAKINGVIEWS〕AIの未来像、来年は音声分野の技術発展に注目

ロイターDec 29, 2025 4:56 AM

Karen Kwok

- テクノロジーに関して先見の明がある人々は、人工知能(AI)の未来像として、しばしばSF映画「her/世界でひとつの彼女」(2013)を引き合いに出す。ホアキン・フェニックスが演じる主人公は、スカーレット・ヨハンソンの声を持つ「サマンサ」というバーチャルアシスタントと小さなイヤホンで1日中会話し、やがて恋愛関係に発展するという内容だ。

この物語は決してAIへの「ラブレター」ではないが、投資家の資金や利用者の関心が2026年にどこへ向かう可能性があるのかを示唆してはいる。

音声ベースのソフトウエアは目新しくない。例えば多くの人々は既にアップルAAPL.Oの「Siri(シリ)」を利用している。アマゾン・ドット・コムAMZN.Oは25年の初めに、音声サービス「アレクサ」対応機器が世界全体で6億台あると主張。これらはユーザーが調べ物をしたり、音楽を再生したり、居間の照明を操作するのに役立っている。

ただ従来のこうした体験は、どこか不自然で扱いにくいものだった。音声は典型的なロボットのようで、ソフトは硬直的で事前に作成されたプログラムのルールで動作していたので、新しい情報を把握したり、オープンAIの「チャットGPT」やアンソロピックの「クロード」のように新しい情報を処理したり、質問の文脈を判断したりするのは難しかった。

ところがAIが全てを一変させつつある。アレクサやシリは今や大規模言語モデル(LLM)の力を備え、実用性が大きく向上した。一方でオープンAIのサム・アルトマン最高経営責任者(CEO)と同社に加わったジョニー・アイブ氏は、画面を持たず音声要素を重視した機器の開発に取り組んでいるもようだ。

米ベンチャーキャピタル(VC)大手のセコイアが支援するイレブンラブズのようなスタートアップ企業が、この潮流の一端を担っている。イレブンラブズはコンピューターの音声を、人間の声により近い自然な音にする技術を専門としており、人々に短い音声クリップをアップしてもらうために1100万ドルを支払ってきた。これら1万件のサンプルは、さまざまな声のトーンやアクセント、感情を再現するシステムの訓練に役立っている。

音声対応AIがより賢く、人間らしい響きを持つ流れを、消費者は歓迎するだろう。2016年の学術研究によると、英語と中国語(北京語)では、話す方がタイピングの3倍速いとされている。またオープンAIの「ウィスパー」のような先進的な音声認識モデルは、誤認識の比率がわずか3%とされ、97%の単語を正しく認識する。これは2019年の実験で、ユーザーの入力時に誤字やタイプミスが発生する割合(タイポ率)が約2%だった点を踏まえれば、スマートフォンのキーボードを使うのとほぼ同じ精度と言える。

今後料理の注文やタクシーの手配においては、ウェブの閲覧ソフトやモバイルアプリを使うよりも、AIアシスタントに話しかけるだけになっていくだろう。例えばウーバー・テクノロジーズUBER.Oは、既に英語、ドイツ語、日本語、フランス語、ヒンドゥー語、ポルトガル語でシリのユーザー向けの音声コマンドをサポートしている。理論的にはイヤホンを付けた顧客が、ポケットからスマートフォンを取り出すことなく、お気に入りの寿司を注文できる。これには文字入力にあまり慣れていない高齢者や、視覚障害者も魅力を感じるはずだ。

消費者が音声AIを受け入れる素地は整っている。ヘッドフォンを着用して1日の大半を過ごすのがますます一般的になり、ワッツアップのユーザーは毎日70億件以上の音声メッセージを送信しているほか、米アルファベットのベンチャー部門であるGVのトム・ヒューム氏によると、若者のほぼ半数は週に1回は音声メモを利用している。

ネクスト・ムーブ・ストラテジー・コンサルティングの分析では、スマートイヤホンを含む音声AI市場全体の売上高は2025年から30年にかけて3倍以上に拡大し、30年末までには340億ドルに達する見通しだ。一方ピッチブックの調査に基づくと、ベンチャーキャピタルは25年、音声AIスタートアップ企業に66億ドル投資しており、これは23年の40億ドルから増加した。

より大きな問題は、チャットボットが「オーディオボット」へと進化する中で、どの企業が恩恵を受けるかになる。自然な音声への需要が高まるのは確実で、イレブンラブズにとって追い風だ。同社は合成音声市場で70-80%のシェアを握っていると主張しており、25年末までの年間経常収入を3億ドル、営業利益率は60%に達すると見込む。

ハイテク大手各社もAIを画面ではなく耳で使う方向へと、すでに動き始めている。アップルのワイヤレスイヤホン「AirPods」は現在、5つの言語でリアルタイム翻訳機能を提供しており、ユーザーは外国語話者の発言を即座に理解できる。グーグル親会社アルファベットGOOGL.Oも、AIアシスタント「ジェミニ」の類似のリアルタイム翻訳機能を、ワイヤレスイヤホン「ピクセルバッズ」に搭載している。

だが、真に大きなビジネスチャンスは、従来のテキスト中心のシステムとは異なる、より専門的な音声AIモデルの開発にあるのかもしれない。

現在の音声アシスタントの多くは、音声をテキストに変換し、それをLLMに入力して結果を読み上げる仕組みだ。これに対し、より高コストではあるが、音声を介して直接「聞き、考え、応答する」統合型の音声システムを構築するという、より良い代替案も考えられる。これによってユーザーの抑揚や周囲の環境音を回答に取り込むといった新しい可能性が開けてくる。つまり、映画「her」のようなSFの風景に1歩近づくわけだ。

もう1つの大きな疑問は、オーディオボットの台頭で誰が不利益を被るのかという点だ。オープンAIのアルトマン氏とアイブ氏が密かに開発を進めている機器に込めた意図が、そのヒントになるかもしれない。米紙ウォールストリート・ジャーナル(WSJ)によると、両氏はユーザーが画面を見る時間を減らそうとしているもようだ。そうなるとTikTok(ティックトック)、インスタグラム、ワッツアップといったソーシャルメディアアプリは、適応できなければ打撃を受ける可能性がある。

とはいえ、音声AIにとって最大の問題はプライバシーではないだろうか。常に聞き耳を立てているヘッドホンやその他のデバイスを身につけて人々が歩き回ることを、規制当局や一般市民は好まないだろう。オープンAIや他の企業は、そうした障害を乗り越える方法を見つける必要があるかもしれない。

それでもソーシャルメディアの歴史が示すように、ユーザーは気に入った製品があれば、個人情報を喜んで差し出してきた。2026年は、AIの未来が「見える」のと同じぐらい「聞こえる」ようになってもおかしくない。

(筆者は「Reuters Breakingviews」のコラムニストです。本コラムは筆者の個人的見解に基づいて書かれています)

免責事項:本サイトで提供する情報は教育・情報提供を目的としたものであり、金融・投資アドバイスとして解釈されるべきではありません。
Tradingkey

関連記事

KeyAI