PRESS RELEASE (技術)
2009年7月27日
株式会社富士通研究所
音声合成技術は、パソコン・携帯電話によるWebコンテンツ・電子メールの読み上げや、お客様からの電話による問い合わせに自動音声ガイダンスで応答する自動音声応答システム(注3)などに利用されています。
テキストを入力するだけで瞬時に音声メッセージを作成できる音声合成技術は、ナレーター音声の録音編集作業にかかる費用や時間を大幅に削減します。合成音声がプロのナレーター並みの品質であれば、放送や施設のアナウンス、e-Learningの教材用音声など、従来、ナレーターが担ってきた役割を担うことが期待できます (図1)。
|
しかし、これまでの合成音声は明瞭な音声でしたが、プロのナレータの音声に対して不自然さが感じられ、放送やアナウンスなどプロのナレーターの代替として十分に利用されていませんでした。
合成音声をより自然で人間の音声に近づけるには次のような課題がありました。
人が文章を読み上げる際、いくつかの音が自然にまとまり、無意識のうちに日本語独特のリズム(以下、発話リズム)で発声しています。音声合成で人間らしい流暢な語り口を実現するためには、このような発話リズムを適切に制御することが必要でした。
また、合成音声は入力した文章に適した音声波形をつなぎ合わせることにより生成されますが、人間の声と区別がつかないほどに歪みのない声質を実現するためには、どんな文章の入力に対しても最適な音声波形を用意できる音声波形データベースを開発することが課題でした。
上記の課題を解決するために、独自の発話リズム制御モデルと音声波形データベースを開発し、極めて自然で人間の声に迫る高品質な音声合成技術を実現しました。
人間らしい流暢な音声を実現させるために、今回、人間の発話リズムを解析するための新たな統計手法を開発し、本手法に基づき独自の発話リズム制御モデルを構築しました。これにより、各音の長さについて、肉声との差を従来の3分の2(当社比)に抑え、一つひとつの音の長さのバランスがとれた、流暢な読み上げ音声を実現しました。
さまざまなイントネーションを網羅し、かつ使用頻度の高い単語や文例を中心とした、従来の約10倍(当社比)となる数万個ものフレーズからなる大規模音声波形データベースを構築しました。本データベースを用いることで、合成文章に適した音声波形を選択することができ、各単語間のつながりなど、機械的な歪みのない合成音声が生成できるようになりました。
|
本技術による合成音声は、音声品質の評価方法であるCMOS評価において、プロのナレーション品質の80%に迫る、業界最高クラスの高いスコアを達成しました。
これにより、明瞭さと自然さを兼ね備えたプロのナレーターの音声に迫る読み上げが可能になり、各種アナウンスなど、さまざまな利用シーンで最適な合成音声が利用できます。音声合成技術は、テキストを入力するだけで必要な音声メッセージを瞬時に作成できるため、急な案内音声の変更でもナレーターの手配が不要になります。これまでナレーター音声を利用していた分野に、本技術の合成音声を採用することで、費用および時間を大幅に削減することができます。
各種利用シーンに対して迅速な適用を可能にするための機能強化を図り、2009年度上期中の実用化を目指します。
以上
株式会社富士通研究所
画像・バイオメトリクス研究センター
電話: 078-934-8314(直通)
E-mail: fsynth@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。