「人民日報タグ付きコーパス」公開について
株式会社富士通研究所(社長:藤崎道雄、本社:川崎市)と富士通研究開発中心有限公司(総経理:石崎洋之、本社:中国北京市)は、北京大学および人民日報社と協力し、「人民日報タグ付きコーパス」(半年分、約1,300万文字=約730万単語)を作成いたしました。本データは、人民日報社新聞信息中心から、大学や研究所などでの研究利用に限定して、2001年8月28日から人民元2,000元(約3万円、実費)にて有償公開いたします。
また、その内1ヶ月分を、インターネット上で無償公開いたします。
「コーパス」とは電子化された大規模な言語データで、1960年代、米ブラウン大学で英語の「Brown Corpus」が作成されて以来、多くのものが作成されてきました。コーパスの内、単語ごとに品詞の情報を付与したものは「タグ付きコーパス」と呼ばれ、計算機による統計的な自然言語処理の研究における、基礎データとして活用されています。中国語のコーパスについては、これまでは小規模なものしか作成されておらず、実用レベルの大規模かつ正確なタグ付きコーパスが欲しいという要望が、中国語情報処理の専門家などから多く上っていました。
株式会社富士通研究所と富士通研究開発中心有限公司、北京大学計算語言学研究所は、人民日報社新聞信息中心の許可を得て、1998年の人民日報1年分(約2,600万文字)の記事を対象に、タグ付きコーパスの作成を1999年4月から行なっています。この大規模な言語プロジェクトは、2002年4月の完成をめざして進めており、今回はその一部の成果を公開するものです。
この一連のプロジェクトは、日中技術交流を進める上で大きな意義を持つものであると共に、情報検索、自動翻訳やインターネット情報の処理など、中国語情報処理の研究開発の基礎を広く支え、促進するものであると考えています。
なお、「人民日報タグ付きコーパス(PFRコーパス *1)」の公開に合わせて、富士通研究開発中心有限公司、北京大学及び人民日報社が共同で公開セミナーを、8月28日に北京友誼賓館にて開催しました。セミナーには、東京工業大学の田中穂積教授や北京大学のユィ・スー・ウェン教授など日本と中国を代表する約40名の言語学、計算言語学を始めとする関連分野の専門家が参加し、活発な議論が行なわれました。
- 【用語解説】
- *1:Peking University, Fujitsu, Renmin Ribaoの頭文字を取った略称です。
- 【商標】
- 掲載されている会社名、商品名はそれぞれの会社の商標または登録商標です。
以 上
|