FUJITSU
Worldwide|サイトマップ
THE POSSIBIliTIES ARE INFINITE
Japan
元のページへ戻る本件に関するお問い合わせ先
[ PRESS RELEASE ](技術)
2004-0089
2004年5月27日
株式会社富士通研究所

自然で多様な喋り方をする音声合成技術を開発

株式会社富士通研究所(注1)は、イントネーションや話すリズムを高精度に肉声から抽出したデータベースを利用し、自然で多様な喋り方を実現する音声合成技術を開発しました。

今回開発した技術により、関西弁などの地域の方言、アニメキャラクタのような特徴的な喋り方も可能となり、従来に比べ、合成音声の自然性と表現力が格段に向上しました。

今回開発した技術は、音声対話を利用した自動応答システムに最適で、あたかも人間と対話しているような自然で親しみやすい音声での応答サービスを提供することができます。

【開発の背景】

音声合成技術は、パソコン・携帯電話によるWebコンテンツ・電子メールの読み上げや、お客様からの電話に音声ガイダンスで自動応答するIVRシステム(注2)などに利用されています。特に近年は、音声認識技術と対話制御技術の進展により、電話でシステムと対話することでニュース・天気予報・株式相場などの情報を入手できる音声ポータル(注3)が普及しはじめており、音声合成は、その応答メッセージを生成する重要な技術となっています。

これまでの音声合成は、明瞭に正しく読み上げることに重点がおかれてきましたが、お客様により快適なサービスを提供するためには、あたかも人間と対話しているような自然で親しみやすい音声対話の実現が重要となります。

人間の喋り方には、挨拶・依頼・感謝・謝罪といった様々なニュアンスが含まれています。 また、各地の方言には、言葉では単純に表現できない独特の味わいがあります。富士通研究所は、こうした人間の喋り方に着目し、人間とシステムとの対話を、より豊かで親しみのあるものにすることを目指し、表現力豊かな音声合成技術を追求してきました。

【課題】

従来の音声合成は、人間の喋り方を近似したモデルを使って合成していたため、どうしても微妙なニュアンスまで表現することができませんでした。また、喋り方のモデルは朗読調がもとになっているため、方言やアニメキャラクタのような特徴のある喋り方を再現することもできませんでした。そのため、IVRシステムや音声ポータルにおいて、サービスのイメージに合った、自然で親しみやすい応答メッセージの実現が困難でした。

【開発した技術】

今回開発したのは、人間の肉声から喋り方の特徴を決める韻律情報を抽出し、それを利用しながら音声を合成する技術です。 肉声から声の高さやイントネーション・リズム・ポーズなど、喋り方に関わる韻律情報を高精度に抽出してデータベース化する技術を開発し、多様な喋り方が簡単に実現できるようになりました。

具体的には、安定した品質で定評のある富士通グループの音声合成ミドルウェア「FineSpeech」(注4)の韻律生成技術に、この韻律データベースを使った韻律制御を取り入れることにより、人の発話に迫る自然性と多様性を実現しました。また、従来の「FineSpeech」の音声波形データベースの資産をそのまま利用できるため、様々な声の種類と組み合わせることにより、表現力豊かな合成音声を生成することが容易となりました。

【効果】

本技術を、IVRシステムや音声ポータルシステムに導入することで、個々のサービスのイメージに合った音声応答システムを構築することが可能になります。主な効果は以下の通りです。

  1. 肉声に迫る自然な喋り方

    肉声から抽出した韻律情報を利用するため、人が話しているような自然で表現力豊かな合成音声を生成できます。

  2. 多様なバリエーション

    関西弁などの方言やアニメキャラクタのような特徴的な喋り方を簡単に実現できます。地域情報提供サービスをその土地の言葉で提供するなど、親しみのある音声応答を実現することができます。

  3. 柔軟な運用

    韻律情報の追加登録や編集が容易にできるため、用途に応じて、新しい喋り方を加えたり、喋り方の特徴を保ったまま、自由に声の高さや速さを変えたりすることができます。

【今後】

各種サービスへの迅速な適用を可能とする機能強化を図り、2004年中の製品化を目指していきます。

図

以上

用語説明

(注1)株式会社富士通研究所:
社長 藤崎道雄、本社 川崎市
(注2)IVRシステム:
Interactive Voice Response 自動音声応答装置のことで、企業の電話窓口で、音声ガイダンスによる自動応答を行なうコンピュータシステム。情報提供や資料請求など、定型的な業務で利用することができ、24時間・365日の受付が実現可能。
(注3)音声ポータル:
音声認識・音声合成・対話制御技術を利用した、電話からインターネット上の情報を取り出すためのワンストップな玄関口となる情報案内サービス。
(注4)FineSpeech:
富士通株式会社、株式会社富士通研究所との共同研究に基づき開発した音声合成ミドルウェアで、株式会社アニモが製品化。「FineSpeech」は、富士通株式会社の登録商標。

関連リンク

  • Media Player Get Media Player
    WAVファイルの再生に必要です。

プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。ご不明な場合は、富士通お客様総合センターにお問い合わせください。

元のページへ戻る ページの先頭へ

All Right Reserved, Copyright (C) FUJITSU