音声だけで最新情報をスマートフォンから取得できる技術

画面を全く見ずに運転中に気になるニュースを詳しく入手

株式会社富士通研究所（注1）は、スマートフォンの画面を見ることなしに、音声だけでさまざまな情報を取得できる音声インターフェース技術を開発しました。

音声合成で読み上げられた最新のニュースの情報などに対し、その中でさらに知りたい情報をユーザーが発することで、詳細情報や関連情報を読み上げていきます（図1）。本技術を利用することで、運転中や作業中などのアイズフリー・ハンズフリーが求められるシーンにおいて、画面を見たりタッチすることなくさまざまな情報サービスを受けることができます。

当コンテンツは、ブラウザのJavaScript設定を有効にしてご覧ください。

デモンストレーション
（再生時間： 45秒 / 音声あり）

開発の背景

図1 音声だけで情報を引き出せる利用シーンの例

現在、スマートフォンなどのモバイル端末は、画面を見ながらのタッチ操作が中心です。しかし、モバイル端末では、歩行中、運転中、作業中などの目や手が放せない状況での利用シーンも存在します。このような利用においては、ユーザーの言葉を理解する音声認識や、機械が文章を読み上げる音声合成が有効です。

さらに近年、端末から通信を介してセンターにアクセスし、その豊富な計算機資源を用いることで、端末単体での実現が難しかった大語彙の音声認識や合成技術が可能になり、これまでにない新たな価値の提供が期待されています。

富士通研究所は、プロのナレーション品質に迫る業界最高クラスの音声合成技術や、周りの雑音を除去しユーザーの言葉だけを認識する音声認識技術などを実用化してきました。現在、センター型の音声認識・合成技術の開発を含め、新しい音声インターフェースの実現を目指しています。

課題

端末を全く見ず、触れずの状態で、ニュースなどのさまざまな情報サービスを受けるためには、音声による入出力がスムーズに行われることがポイントとなります。システムがニュースなどのコンテンツを正しく読み上げたり、ユーザーが発した言葉を正確に認識するためには、時事用語など時代とともに増えていく新しい言葉にも正しく対応していく必要があります。また、ユーザーが発した言葉に同音異義語（例：後攻、高校、航行、孝行（こうこう））があったとしても、その場面で正しい言葉を理解する必要があります。これらの課題が解決されて、はじめてスムーズで快適な応答が実現されます。

開発した技術

今回、そのような課題を解決し、アイズフリー・ハンズフリーの状態で、ユーザーが気になる言葉を話すだけで、それに関連した情報を次々と引き出し、システムが読み上げる新しい音声インターフェースを開発しました。たとえば、システムが読み上げたニュースのヘッドラインから気になった言葉を発すると、さらにそれに関する詳細記事をシステムが読み上げる、というユーザビリティが提供できます（図1）。

開発した技術の特長は以下の通りです。

図2 開発した技術

最新の時事用語・新語を正しく聞き、正しく読み上げる技術
時事用語は日々増加し、時代とともに言語は変化していきます。それに対応するために、インターネット上から最新の用語に関して「表記（かな）」のパターン（例：亘理町（わたりちょう））を自動抽出し、単語辞書に自動登録する技術を開発しました。これにより、常に読み間違いや誤認識が少ない音声インターフェースが可能になりました。
過去のやり取りから同音異義語を判断する技術
過去にシステムが提示した情報の履歴を解析し、話題にフォーカスした単語を抽出し、音声認識辞書を動的に作成する技術を開発しました。これにより、同音異義語など、曖昧性のある単語も正しくシステムが認識するため、ユーザーの意図に沿った応答をすることが可能になります。
快適なレスポンスを実現する技術
音声認識・音声合成を行うときは、大量の語彙を保管・更新するセンターにネットワークを介して接続します。センター型の音声認識・音声合成において発生する処理や通信による遅延を、提示する音声データの分割や先読みで吸収し、さらに無音状態のタイミングを制御することで体感品質を向上させる技術を開発しました。これにより、ユーザーが体感するレスポンスにおいて、カーナビゲーションなどと比較しても遜色のない品質を実現しました。

効果

本技術により、画面を見ることなしに直感的な音声のやりとりで情報取得が可能になります。これにより、ニュースやメールなど日常よく利用するWebサービスを、運転中や歩行中、画面が見えにくい方など、さまざまな状況での利用が可能になります。また、従来は博物館などで行われていた音声ガイダンスにおいても、ガイダンスの音声や展示説明文中の気になった言葉を話すだけで、詳細情報が得られるといった新しい情報提示を実現できます。

図3 本技術の利用シーン