[ PRESS RELEASE ] |
1998-0076 平成10年4月23日 富士通株式会社 |
〜並列サーバ上の超高速並列検索エンジンによる社内実績を外販して提供〜
富士通株式会社は、並列サーバ「AP3000シリーズ」に超高速の並列検索エンジンを搭載することにより、インターネット/イントラネット上で並列全文テキスト検索システムの構築を実現するサービス商品「並列検索エンジン構築支援サービス」を 4月23日から発売します。
インターネット/イントラネットの急速な普及で、個人や企業が情報発信する文書量は爆発的に広がり、大規模なWWW (World Wide Web) システムでは、数百ギガ〜数テラバイト(ギガは10億,テラは 1兆)の文書量を扱う時代が来ています。この大量の情報の中から求める情報を迅速かつ的確に得ることは、今後ますます困難になると思われます。
WWW システムを対象とした全文検索エンジンは従来から存在しましたが、検索に時間がかかる、対象とする文書量が少ない、検索もれがある、文書量の増加に対して柔軟に対応できない等、数々の問題点がありました。
これらの問題点解決のため、株式会社富士通研究所が開発した日本語全文検索技術をもとに、富士通株式会社は並列サーバ「AP3000シリーズ」向けに徹底的に並列化を行い超高速の検索性能を実現しました。この技術を用いて構築した、富士通株式会社のホームページ情報検索サービス「InfoNavigator」の並列検索部分や株式会社ジー・サーチにおける複数データベースを高速に一括検索する「横断検索サービス」は、検索性能で世界最高水準となっています。
富士通株式会社は、このように社内グループで蓄積したノウハウによる実績ある技術をサービス商品「並列検索エンジン構築支援サービス」として販売し、新しいソリューションビジネスを展開してまいります。
【「並列検索エンジン構築支援サービス」の主な特長】
- 並列技術の採用による超高速検索
「AP3000シリーズ」を対象に並列化することにより、1,000 万件以上のURLを約0.2秒で検索できる、世界最高水準の検索性能を実現しました。(「InfoNavigator」の場合)また、スケーラブルにCPU、メモリ、ディスクを追加できる「AP3000シリーズ」の特長を活かし、検索能力や対象文書の追加要求に柔軟に対応していくことができます。
- 株式会社富士通研究所で開発した日本語全文検索技術の採用
株式会社富士通研究所で開発した検索アルゴリズムの採用により、日本語特有の検索もれを回避するとともに、省インデックス技法の開発により、高速検索を実現しています。
【価格と販売目標】
今回の発表製品の価格は、1,200 万円( 4ノードシステム、300 万文書/ノードの場合、AP3000を除く)からになります。今後 4年間で50システムの受注を狙います。
【適用分野】
今回の「並列検索エンジン構築支援サービス」により、従来の検索システムでは実現し得なかった超大規模なテキスト検索システムが構築可能です。主な適用分野は、以下のとおりです。
- 図書館の蔵書検索のような公共サービス
- 営業ノウハウや設計ノウハウ等の知識共有
- 特許、マニュアル、新聞等の大規模なドキュメント検索システム
- 企業内 Web情報の横断検索
【用語説明】
(1) 検索もれの排除
日本語は、一般に単語の分かち書きの習慣がないため、検索のキーワードを特定するのに問題がありました。例えば、「赤色補正」という言葉を検索する場合、「赤色」「補正」で単語切りを行ない、インデックスに登録すると、「色補正」と入力しても「赤色補正」を含む文書が検索できなくなってしまいます。このような検索もれを防ぐために、文書中の文字成分を特徴素とするものが提案されていますが、あまり短い単位で切ると検索速度が劣化し、長い単位で取るとインデックスサイズが膨大になるトレードオフがあります。
そこで、今回採用した検索技術で用いている文字成分抽出では、文字種を判定し、文字種の違いにより成分の長さを切替える処理を行なっています。例えば、漢字ならば1,2文字単位、カタカナならば1,2,3音節単位というように、成分の長さを変えて特徴素を抽出する方式を採用しています。これにより、それほど特徴素数を増やさずに、隣接チェックの回数をできるだけ減少させ、検索速度の低下を防いでいます。
(2) 省インデックスによる超高速検索
前述のような検索もれを防ぐ方法では、新たな問題点が生じます。これは、文字成分の組み合わせでキーワードを特定するため、実際に存在しないものにヒットしてしまう「検索ノイズ」の発生という問題です。例えば、「八戸市」を検索した場合に、「八戸市」の 2文字成分は「八戸」「戸市」となり、「八戸」と「戸市」のAND 検索を行なうと「…松戸市に住宅八戸…」のような文書もヒットしてしまいます。
これを解決するためには、文書中で出現する位置もインデックス内に覚えておく手法を採りますが、これはインデックスサイズを巨大化させてしまい、速度の低下を招きます。そこで、今回の検索技術では、独自の圧縮技術(拡張γ圧縮法*1) とインデックスランダムアクセス法*2により高速検索を実現しました。
*1 拡張γ圧縮法:検索実行時に圧縮されたデータを元の数値データに復元する処理が増えるため、あまり復号処理に時間がかかる圧縮手法では、十分な検索速度が得られません。そこで、圧縮率は高いが処理速度の遅いγ圧縮と呼ばれる標準的な数値の符号化手法を拡張し、同等の圧縮率で高速な拡張γ圧縮法を開発しました。この圧縮手法を用いることにより、商用システムで標準的に使われている圧縮手法に比べて、復号速度をそれほど落とさずにインデックスの圧縮率を三割向上させました。 *2 インデックスランダムアクセス法:インデックスを圧縮すると、ランダムアクセスが不可能となりますが、あらかじめ定めた単位で復号のための情報を別のインデックスに覚えさせておくことにより、疑似的なランダムアクセスを可能としました。これにより、大量文書を対象とした検索速度が大幅に向上しました。
以 上