|
||
|
|
自然で多様な喋り方をする音声合成技術を開発
今回開発した技術は、音声対話を利用した自動応答システムに最適で、あたかも人間と対話しているような自然で親しみやすい音声での応答サービスを提供することができます。 【開発の背景】音声合成技術は、パソコン・携帯電話によるWebコンテンツ・電子メールの読み上げや、お客様からの電話に音声ガイダンスで自動応答するIVRシステム(注2)などに利用されています。特に近年は、音声認識技術と対話制御技術の進展により、電話でシステムと対話することでニュース・天気予報・株式相場などの情報を入手できる音声ポータル(注3)が普及しはじめており、音声合成は、その応答メッセージを生成する重要な技術となっています。 これまでの音声合成は、明瞭に正しく読み上げることに重点がおかれてきましたが、お客様により快適なサービスを提供するためには、あたかも人間と対話しているような自然で親しみやすい音声対話の実現が重要となります。 人間の喋り方には、挨拶・依頼・感謝・謝罪といった様々なニュアンスが含まれています。 また、各地の方言には、言葉では単純に表現できない独特の味わいがあります。富士通研究所は、こうした人間の喋り方に着目し、人間とシステムとの対話を、より豊かで親しみのあるものにすることを目指し、表現力豊かな音声合成技術を追求してきました。 【課題】従来の音声合成は、人間の喋り方を近似したモデルを使って合成していたため、どうしても微妙なニュアンスまで表現することができませんでした。また、喋り方のモデルは朗読調がもとになっているため、方言やアニメキャラクタのような特徴のある喋り方を再現することもできませんでした。そのため、IVRシステムや音声ポータルにおいて、サービスのイメージに合った、自然で親しみやすい応答メッセージの実現が困難でした。 【開発した技術】今回開発したのは、人間の肉声から喋り方の特徴を決める韻律情報を抽出し、それを利用しながら音声を合成する技術です。 肉声から声の高さやイントネーション・リズム・ポーズなど、喋り方に関わる韻律情報を高精度に抽出してデータベース化する技術を開発し、多様な喋り方が簡単に実現できるようになりました。 具体的には、安定した品質で定評のある富士通グループの音声合成ミドルウェア「FineSpeech」(注4)の韻律生成技術に、この韻律データベースを使った韻律制御を取り入れることにより、人の発話に迫る自然性と多様性を実現しました。また、従来の「FineSpeech」の音声波形データベースの資産をそのまま利用できるため、様々な声の種類と組み合わせることにより、表現力豊かな合成音声を生成することが容易となりました。 【効果】本技術を、IVRシステムや音声ポータルシステムに導入することで、個々のサービスのイメージに合った音声応答システムを構築することが可能になります。主な効果は以下の通りです。
【今後】各種サービスへの迅速な適用を可能とする機能強化を図り、2004年中の製品化を目指していきます。 以上 用語説明
関連リンク
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。ご不明な場合は、富士通お客様総合センターにお問い合わせください。 |
|