このページの本文へ移動
  1. ホーム >
  2. プレスリリース >
  3. 説明音声から資料中の該当箇所をリアルタイム、高精度に推定する技術を開発

PRESS RELEASE (技術)

2015年4月1日
株式会社富士通研究所

説明音声から資料中の該当箇所をリアルタイム、高精度に推定する技術を開発

株式会社富士通研究所(注1)(以下、富士通研究所)は、遠隔会議やプレゼンテーションで使用する資料の中から、説明音声に該当する箇所をリアルタイムかつ高精度に推定する技術を開発しました。

会議資料や商品パンフレットなど、話者間で共有されている説明資料の中から、説明音声に対応する説明箇所を表示したり補足情報を提示したりすることは説明の理解の促進に有効ですが、これを実現するには、話し始めの数語から即座に説明箇所を推定する必要があり、少ない言葉から説明箇所を推定するための精度が出ないことが課題でした。

今回、説明音声と資料を照らし合わせ、統計的に算出した説明順序の特徴から次の説明箇所の範囲を絞ることで、少ない言葉でも資料中の説明に該当する箇所をリアルタイムかつ高精度に推定する技術を開発しました。本技術を適用し、説明箇所を自動で強調するシステムを試作して検証したところ、説明に対応する該当箇所の推定精度は97%となりました。

本技術により、今後、遠隔会議や電子教材をはじめ、店舗の相談窓口業務などの様々な説明シーンにおいて、ICTが会話内容を捉え、適切な情報を提供するコミュニケーション支援システムの実現が期待できます。

開発の背景

業務では、パンフレットを使った商品説明や、アジェンダに沿った会議進行、スライド資料を用いた打ち合わせのように、参加者が共有している資料を基にコミュニケーションを行うことがあり、相手に情報を正しく、すばやく、わかりやすく伝えることが求められています。

富士通研究所ではこのような業務コミュニケーションの効率化を目指しており、資料を用いたコミュニケーションにおいて、音声認識技術を活用して会話内容をリアルタイムに推定し、適切な情報を提供するコミュニケーション支援システムを開発しています(図1)。

図1 共有資料を用いたコミュニケーション支援システムの適用例
図1 共有資料を用いたコミュニケーション支援システムの適用例

課題

説明箇所の推定には、一般に説明音声の言葉が資料中に出現する頻度が利用されます。この方法は録音音声から言葉を抽出するなどして、説明音声に含まれる言葉を十分に抽出できる状態であれば有効でしたが、話し始めの数個程度の言葉から該当箇所を特定する場合は頻度に差がつかず、リアルタイムの推定に不向きでした。また、現状の音声認識では最大1割程度の誤認識は避けられず、数個程度の言葉で推定した場合、誤認識が推定精度に大きな影響をおよぼすという課題がありました。

開発した技術

電子会議の共有資料などと説明音声の内容を照らし合わせ、説明に該当する箇所をリアルタイムかつ高精度に推定する技術を開発しました。開発した技術の特長は以下のとおりです。

  1. 認識誤りが発生しにくい音声認識辞書を自動生成する技術(図2)

    音声認識において、「色」、「音」、「日」などの語長が3以下の短い単語は類似した発音の単語が多く、誤認識を生じやすい傾向にあります。そこで、それらの語長が短い単語を周囲の隣接する単語と結合し、1つの単語として音声認識辞書に登録することで、誤認識を当社従来技術と比較して約60%低減しました。

    図2 音声認識辞書の自動生成
    図2 音声認識辞書の自動生成

  2. 統計的に算出した説明順序の特徴から推定精度を向上する技術(図3)

    音声による説明の順序と、資料のレイアウトや段落構造、資料中の説明の記載位置などの文章構成情報との関係を統計的に算出したところ、資料内で一定距離以上説明箇所が離れると、その箇所に説明が遷移する頻度が急激に低くなるという特徴があることが分かりました。このような説明順序の特徴と、説明箇所に含まれる言葉の頻度を利用することで次の説明箇所の範囲を絞り、少量の言葉しか認識されていない状態でも説明に対応する該当箇所を高精度に推定できます。

    図3 説明順序の特徴と言葉の頻度を用いた説明箇所推定
    図3 説明順序の特徴と言葉の頻度を用いた説明箇所推定

効果

開発技術を適用し、遠隔会議で使用するスライドを共有資料とし、説明音声に対応する資料中の該当箇所を強調表示する自動ポインティングシステムを試作して評価を実施しました(図4)。本技術を利用し、例えば説明開始から約2秒で説明箇所の強調表示を行う設定にした場合は、推定精度が70%から97%へ向上します。

マウスカーソルなどによる従来のポインティング方法との比較評価では、説明の分かり易さが3割向上、表示の煩わしさが半減するという結果が得られ、遠隔会議におけるコミュニケーション支援システムとして有効であることが確認できました。

図4 遠隔会議における説明箇所の自動ポインティングシステム
図4 遠隔会議における説明箇所の自動ポインティングシステム

今後

富士通研究所は開発技術を適用した遠隔コミュニケーション支援システムの2015年中の実用化を目指します。さらに、当社が開発した視線を検出する技術や翻訳技術を組み合わせ、コールセンターでのFAQ関連情報の提供によるオペレーターの作業支援や窓口業務支援、教育支援など様々なシーンへの展開を図り、業務の効率化に繋げていきます。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

注1 株式会社富士通研究所:
本社 神奈川県川崎市、代表取締役社長 佐相秀幸。

本件に関するお問い合わせ

株式会社富士通研究所
メディア処理研究所
電話 044-874-2489(直通)
メール spsol-inquiry@ml.labs.fujitsu.com


プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。