プロのナレーションに迫る高品質な音声合成を実現

株式会社富士通研究所^(注1)はこのほど、人間の声に迫る、極めて自然な音声を合成できる、業界最高クラスの音声合成技術を開発しました。本技術による合成音声は、音声品質の評価方法であるCMOS評価^(注2)において、プロのナレーションの品質に迫る高いスコアを達成しました。これにより、放送コンテンツや各種アナウンス、e-Learning教材用音声など、従来、ナレーターが担ってきた分野において、低コストな合成音声で代替することが可能になります。

開発の背景

音声合成技術は、パソコン・携帯電話によるWebコンテンツ・電子メールの読み上げや、お客様からの電話による問い合わせに自動音声ガイダンスで応答する自動音声応答システム^(注3)などに利用されています。

テキストを入力するだけで瞬時に音声メッセージを作成できる音声合成技術は、ナレーター音声の録音編集作業にかかる費用や時間を大幅に削減します。合成音声がプロのナレーター並みの品質であれば、放送や施設のアナウンス、e-Learningの教材用音声など、従来、ナレーターが担ってきた役割を担うことが期待できます (図1)。

図1 音声合成の利用シーンの広がり

しかし、これまでの合成音声は明瞭な音声でしたが、プロのナレータの音声に対して不自然さが感じられ、放送やアナウンスなどプロのナレーターの代替として十分に利用されていませんでした。

課題

合成音声をより自然で人間の音声に近づけるには次のような課題がありました。

人が文章を読み上げる際、いくつかの音が自然にまとまり、無意識のうちに日本語独特のリズム（以下、発話リズム）で発声しています。音声合成で人間らしい流暢な語り口を実現するためには、このような発話リズムを適切に制御することが必要でした。

また、合成音声は入力した文章に適した音声波形をつなぎ合わせることにより生成されますが、人間の声と区別がつかないほどに歪みのない声質を実現するためには、どんな文章の入力に対しても最適な音声波形を用意できる音声波形データベースを開発することが課題でした。

開発した技術

上記の課題を解決するために、独自の発話リズム制御モデルと音声波形データベースを開発し、極めて自然で人間の声に迫る高品質な音声合成技術を実現しました。

流暢な音声を実現する、独自の発話リズム制御モデル
人間らしい流暢な音声を実現させるために、今回、人間の発話リズムを解析するための新たな統計手法を開発し、本手法に基づき独自の発話リズム制御モデルを構築しました。これにより、各音の長さについて、肉声との差を従来の3分の2（当社比）に抑え、一つひとつの音の長さのバランスがとれた、流暢な読み上げ音声を実現しました。
大規模な音声波形データベース
さまざまなイントネーションを網羅し、かつ使用頻度の高い単語や文例を中心とした、従来の約10倍(当社比)となる数万個ものフレーズからなる大規模音声波形データベースを構築しました。本データベースを用いることで、合成文章に適した音声波形を選択することができ、各単語間のつながりなど、機械的な歪みのない合成音声が生成できるようになりました。

図2 開発した音声合成技術の概要

効果

本技術による合成音声は、音声品質の評価方法であるCMOS評価において、プロのナレーション品質の80%に迫る、業界最高クラスの高いスコアを達成しました。

これにより、明瞭さと自然さを兼ね備えたプロのナレーターの音声に迫る読み上げが可能になり、各種アナウンスなど、さまざまな利用シーンで最適な合成音声が利用できます。音声合成技術は、テキストを入力するだけで必要な音声メッセージを瞬時に作成できるため、急な案内音声の変更でもナレーターの手配が不要になります。これまでナレーター音声を利用していた分野に、本技術の合成音声を採用することで、費用および時間を大幅に削減することができます。

今後

各種利用シーンに対して迅速な適用を可能にするための機能強化を図り、2009年度上期中の実用化を目指します。

以上

注釈

注1 株式会社富士通研究所：: 代表取締役社長村野和雄、本社神奈川県川崎市。
注2 CMOS (Comparison Mean Opinion Score)：: ITU-T勧告P.800 Annex Eで規定されている音声品質評価方法の国際標準。評価対象音声を評価基準となる音声と聞き比べて3～3の7段階の点数で評価し、複数の評価者の評価点を平均して算出する。主に、音声通信における受聴品質の評価に使われる。
注3 自動音声応答システム：: 企業の電話窓口で、音声ガイダンスによる自動応答を行なうコンピュータシステム。情報提供や資料請求など、定型的な業務で利用することができ、24時間365日の対応が実現可能。

本件に関するお問い合わせ

株式会社富士通研究所
画像・バイオメトリクス研究センター
電話： 078-934-8314（直通）
E-mail： fsynth@ml.labs.fujitsu.com

プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。

ページの先頭へ

プロのナレーションに迫る高品質な音声合成を実現

開発の背景

課題

開発した技術

効果

今後

注釈

関連リンク

本件に関するお問い合わせ