多彩な声やトーンで情報を伝える音声合成技術を開発

株式会社富士通研究所（注1）は、高品質で多彩な声を短期間で作成でき、利用シーンや利用環境に合わせたトーンで情報を伝える音声合成技術を開発しました。

音声合成技術は、様々な文章を自然に読み上げることができ、現在社会で幅広く利用されていますが、声のトーンは一定で、利用者からは状況に応じた聞き手に伝わりやすい表現の音声が求められていました。

今回、現場の状況に応じたトーンで合成でき、さらに、高品質で多彩な声を従来比約30分の1の短時間で作成できる音声合成技術を開発しました。これにより、緊急時は警告感のあるトーン、雑音が激しいところでは通りやすい音声で情報を伝えるなど、状況に応じた音声を提供することが可能です。さらに、親しみやすい声やキャラクターの特徴的な声など、お客様の要望するサービスイメージにあった高品質な音声を短期間で提供することができるようになり、様々なシーンで手軽に合成した音声を利用できます。

開発の背景

テキストを音声で読み上げる音声合成技術は、刻々と変化する交通情報の放送や、住民向けに地域の情報を放送する市町村防災行政無線、美術館・博物館の展示ガイダンス音声、電話による問い合わせに自動音声ガイダンスで応答する自動音声応答システム、カーナビをはじめとする組み込み端末の音声アプリケーションなど、幅広く利用されています。また、工場や作業現場などでは、ハンズフリーで作業を妨げないという利点から、音声で情報を通知するという使い方もされ始めています（図1）。

従来の音声合成技術はテキストを読み上げるだけでしたが、利用シーンが広がるにつれ、多彩な声やトーンを自在に使い、利用者からは表現力豊かにわかりやすく情報を伝える音声合成技術が望まれています。

図1 音声合成の利用シーン

課題

従来の音声合成技術は、話速や声の高低などの単純な調整は可能でしたが、利用シーンや利用環境にあった声やトーンでの合成が困難で、伝えたい情報やイメージが十分に伝わらないという問題がありました。加えて、音声サービスに使用する高品質な音声合成の声を、サービスイメージに合うように、新しく作成したいというニーズがありましたが、すぐには作成できないという問題もありました。

開発した技術

今回、現場の状況に応じたトーンで合成でき、さらに、高品質で多彩な声を短期間で作成できる音声合成技術を開発しました。従来は、あらかじめ大量に収録した音声波形を繋ぎあわせて合成する方式でしたが、今回は、より柔軟な合成を実現するため、音声を、声質、イントネーション、間の取り方、といった音声の複数の特徴をうまく捉えたパラメーターに変換して合成する方式を採用しました。

開発した技術の特長は以下のとおりです（図2）。

現場の状況に応じたトーンで合成
警告感のある声や通りやすい声といった特徴的な声のトーンと、普段の声のトーンとの違いをパラメーターに反映させることにより、現場の状況に応じたきめ細かなトーンの音声合成を実現しました。話速や声の高さ、明るさを一様に調整するだけではなく、リアルな表現で情報を伝えることができます。これにより、緊急度に応じて警告感のあるトーンに変えたり、騒音レベルに応じて通りやすい声に変えたりすることができます。
高品質で多彩な声を短期間で作成
パラメーターに変換する技術と、機械学習を用いたアルゴリズムにより、音声の特徴を効率的に抽出できるので、元となる音声の収録が少量で済み、高品質で多彩な声を従来の約30分の1（当社比）の期間で作成できるようになりました。これにより、新しい音声合成の声を、短期間でカスタム提供できるようになります。

図2 開発した音声合成の概要

効果

今回開発した技術を用いると、例えば工場で運用中のシステム稼働状況を作業員に音声で通知するシステムでは、通常メッセージは普通のトーン、エラーメッセージは警告感のあるトーン、緊急時のメッセージは強い警告感のあるトーンで通知することができます（図3）。また、騒音レベルに応じて、声の通りやすさを変えることで、騒音が激しいところでもスピーカーからの情報を聞き取りやすくなります。これらにより、近年需要が高まっている市町村防災行政無線などにも応用することができ、普段の地域のお知らせは落ち着いた声、災害時においては状況の深刻さに応じた警告感のあるトーンで放送することができます。

また、各種音声サービスにおいて、親しみのある声やキャラクターのような特徴的な声など、サービスイメージに適した声を利用できます。さらに、声の特徴を反映した音声合成を少量の音声収録で実現できる特長を生かして、医療福祉に応用することも可能で、病気で声を失ってしまう方の声をあらかじめ収録しておけば、その方はいつでも自分の声を合成して会話することができます。

図3 開発した音声合成の利用例

今後

富士通研究所では、2014年度中の実用化を目指し、音声合成のさらなる高品質化をすすめます。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

音声サンプル

開発技術による合成音声（警告感：低、中、高、最高）（392KB / WAVファイル）

以上

注釈

注1 株式会社富士通研究所：: 代表取締役社長富田達夫、本社神奈川県川崎市。

本件に関するお問い合わせ

株式会社富士通研究所
メディア処理システム研究所スピーチ＆ランゲージテクノロジ研究部
044-874-2489（直通）
fsynth@ml.labs.fujitsu.com

プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。

ページの先頭へ