億単位のWebページを自動整理、ポータル運営が簡単に
〜town@niftyの地域情報収集に応用〜
株式会社富士通研究所 (代表取締役社長:藤崎 道雄、本社:川崎市) は、世界中の大量のWebページを効率的に収集し、Webのリンク解析技術や自然言語処理技術を利用して、自動的に優良なWebページを選別し、地域やジャンルによって分類整理する技術を開発いたしました。
本技術を用いると、今まで人手に頼って収集や分類を行っていたインターネット上の情報を、ジャンル別や地域別などの目的に応じて、自動ですばやく収集、分類、分析できるため、インターネット上のポータルサービスや、イントラネットにおける情報共有サービスのコストを大幅に低減できます。
なお、本技術の一部は、ニフティ株式会社が運営するインターネットサービス「@nifty」上の、約130万件の地域情報をデータベース化した国内最大級の地域情報ポータルサイトtown@nifty( http://town.nifty.com/)にて、7月11日から運用を開始しています。
また、億単位のWebページを継続的に収集し分析する業界初のインターネットコンテンツセンター(ICC: Internet Contents Center)を当研究所内に構築し、富士通グループ内向けに最新のインターネット情報を提供しております。
【開発の背景】
近年、インターネットやイントラネットにおけるWebコンテンツは増加の一途をたどっており、ブロードバンド・インターネットの時代に向けて、ますます多様な情報が流れようとしております。それに伴い、利用者にとって必要な情報をタイムリーに取得することは、より重要になるとともにますます困難になってきています。例えば、ショッピングや情報サイトの運営側にとって、限られた人手で利用者を満足させるようなWeb情報を収集し提示することは、難しくなってきています。また、業界情報や自社製品に対する苦情や噂など、さまざまな種類の情報をモニタし、早期対策につなげることは現在の企業経営にとって重要ですが、大量の人手をかけて行うことは難しいのが現状です。
【開発した内容】
このようなインターネット上の大量情報の分析や管理を効率的に行うために、知的Webクローラー(情報収集技術)、Webページ解析技術、モニタリング技術からなる3つの技術を開発いたしました。同時に、これらの技術をベースにインターネットコンテンツセンター(ICC)を当研究所内部に構築し、常に最新のインターネット情報の収集分析にあたっています。
- 知的Webクローラー(情報収集技術)
サービス内容に合わせて有用なWebページを効率良く収集する情報収集技術です。Webページの内容やWebのリンク関係を利用して、ポータルサービスに適したWebページを優先して集めることができます。例えば、イントラネット内のWebページのリンクを解析することで、コーポレートポータルにふさわしい、業務に関連したインターネットページを効率的に収集することができます。また様々なサービスのための収集起点として利用可能な大量URL群が、ジャンルや地域によって整理されています。
- Webページ解析技術
Webのリンク関係とWebページの内容から、リンク解析、情報抽出、自動分類技術により、Webページやそれに含まれるキーワードの各種二次情報を自動生成します。例えば、リンク解析により人気度を推定し、人気の高いページを自動的に地域やジャンルなどのカテゴリに自動分類することで、分野ごとの優良URL集(いわゆるディレクトリ)を全自動で作成できます。実際に、約1億ページから50万以上の優良サイトを厳選し、約600の階層ジャンル、4万以上の地域カテゴリに自動分類する実用規模のディレクトリ自動構築を行っています。これにより、ポータルサービス提供者側の情報収集や整理にかかる運用コストを減らすことができます。
- モニタリング技術
1.と2.の技術を用いて収集、解析した二次情報の動きを、様々な形式で視覚化する技術です。例えば、人気度の時間的推移を月単位で見せることで、外部からはつかみにくいWebサイトの時間的変動を明らかにすることができます。また、Webクローラーで収集した特定トピックのページ数推移を分単位でリアルタイムに掴むことで、Webにおける自社製品に関するモニタリングなども可能です。
以上の技術をインターネットやイントラネットへの情報提供サービスに適用することで、運用コストを抑え、継続的かつ効率的な情報提供サービスが可能となります。今後は、企業内のポータルサイトや、インターネット上のポータルサイトなどに適用していく予定です。
以 上

|