|
||
|
|
画像とテキストの両面から文書を検索できる新技術を開発株式会社富士通研究所(社長 : 藤崎道雄、本社 : 川崎市)は、画像とテキストからなる多数のマルチメディア文書を、仮想3次元空間内に分類・配置し、利用者がその空間を歩きまわることで、画像とテキストの両側面から検索を行うことができるマルチメディア文書の検索技術を開発いたしました。 この技術を用いることにより、たとえば、図表のイメージから文書を探したい場合は画像の類似性に基づいた検索を、その内容から文書を探したい場合はテキスト内容の類似性に基づいた検索を行うことで、必要なマルチメディア文書を効率的に探し出すことができます。 なお、本技術は、平成13年12月5日からキャンパスプラザ京都で開催された「データベースとWeb情報システムに関するシンポジウム : DBWeb2001」にて発表いたしました。 【開発の背景】 近年、各種文書のマルチメディア化が進み、膨大な量のマルチメディア文書が蓄積されるようになって来ました。それらの文書を検索する際は、文書のタイトルやテキスト内容、文書に付加したコメントなどを、適当なキーワードによって検索する手段が用いられています。しかし、たとえば、以前見た文書のページ内にあった図表を再利用したいと思った場合は、その図表がありそうな文書をキーワードで絞り込んだ後、各文書のページを一つ一つ見て探し出す必要がありました。 【開発した技術】 今回開発したのは、画像とテキストの二つの側面からマルチメディア文書を検索できる技術とその技術を用いた文書検索システムです。 本技術では、スライドのようにページが分かれているマルチメディア文書を対象にしています。まず、ページ毎に図表や文字のレイアウトに関する特徴を抽出します。同様に各ページのテキストから単語の出現頻度に関する特徴を抽出します。 それらの特徴の中から利用者が適当な特徴を選択し、似たような特徴をもつページが近くに集まるように仮想3次元空間内にページを配置し、表示します。すなわち、レイアウトの特徴によって配置すると、図や文字のレイアウトが似たページが近くに集まり、テキストの特徴によって配置すると、テキストの内容が類似したページが近くに集まります。 さらに、テキストの特徴に基づいて配置を行った場合は、検索の指標となるようテキストから抽出された重要な単語(キーワード)をラベル表示することで利用者の検索を支援します。キーワードラベルの表示は、各テキストから抽出された単語のうち重要な単語を、ページ群と同様に仮想3次元空間内に配置することで行います。 図1がページのレイアウトの特徴によって配置を行った例です。レイアウトが類似したページが近くに配置されていることがわかります。利用者は、この仮想3次元空間に配置されたページを眺めながら、表示されたページの外見を手がかりにして関心のあるページを見つけ出すことができます。 図2はテキストの特徴によって配置を行った例です。利用者は表示されるキーワードラベルを手がかりにして関心のあるページを見つけ出すことができます。図3は「検索」というキーワードラベル付近に近づいて、拡大表示した結果です。 このように配置を行う特徴を切り替えながら仮想3次元空間を見て回ることで、画像とテキスト二つの側面からページを探し出すことができます。 目的のページが見つかれば、そのページの元の文書を開くことで、そのページを参照・編集したり、ページの一部を再利用して新しい文書を作成したりすることができます。また、その周辺には類似したページが配置されていますので、それらも同様に編集等を行うことができます。 本技術は、電子図書館やマルチメディアコンテンツ配信などのインターネットサービスや企業向けのビジネス文書検索システムなどで幅広く利用できます。今後早期に、本技術を情報検索製品に適用していく予定です。
以上 [クリックすると拡大表示されます]
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。ご不明な場合は、富士通お客様総合センターにお問い合わせください。 |
|