Fujitsu The Possibilities are Infinite

 

PRESS RELEASE (技術)

2006-0078
2006年4月24日
株式会社富士通研究所

8万字を超える漢字の手書き入力技術の開発に成功

株式会社富士通研究所(注1)はこのほど、8万字を超える漢字の手書き入力技術を開発しました。画数や筆順にかかわりなく文字の一部をマウスなどで入力することで、筆順や読み方が不明な漢字でも簡単に入力することが可能になります(図1)。本技術により、膨大な種類の漢字を扱う業種や官公庁などの業務の効率化を図ることができます。

開発の背景

近年、官公庁業務の電子化が進展する一方で、自治体統合に伴う氏名や住所に使われる文字コード体系の統合も進められています。これらの業務で使われる文字の種類は外字も含めると8万字以上にもなります。これらの多くは筆順や読み方がわかりにくく、かな漢字変換では入力困難な場合があります。そのため手書き入力によりこのような漢字を入力する技術が求められています。しかし、従来の手書き入力では、入力できる漢字数が1~2万字程度に限られていたり、想定された筆順でないとうまく検索できないなど、そのままでは効率的な入力が不可能でした(表1)。

部分入力による漢字検索例
図1 部分入力による漢字検索例
表1 漢字手書き入力技術の比較
  他社文字検索 当社技術
対象文字数 1~2万文字 約82,000文字
筆記制限 あり 筆順・続け書き
ほぼ自由

課題

8万字を超える漢字の手書き漢字入力には、以下の課題解決が必要となります。

  1. 手書き文字データの作成方式:

    手書き入力のための文字認識辞書は、多数の筆記者による実際の手書き文字を採取し、それらのデータを学習させて作成します。しかし、8万字の中にはほとんどの人が書いたことがない漢字が多数含まれており、有効な手書き文字を収集すること自体が困難でした。

  2. 筆記制限緩和の問題:

    マウスなどで複雑な文字を書くのは困難なので、文字の一部を書くだけで候補を提示することが必要です。8万字の中には筆順のわかりづらい文字も多く、さまざまな筆順や、続け書きでも文字入力できることが重要です。従来の手書き入力では、筆順や画数が正しくない場合に検索精度が大きく落ちるという問題がありました。

開発した技術

上記課題を解決するため、以下の2つの技術の組み合わせにより、8万字の漢字に対する実用的な手書き漢字入力技術を開発しました。

  1. 文字フォントデータからの手書き認識辞書合成技術:

    まず既存の文字フォントからOCR技術を利用して文字を分解し、構成する部品とそれらの構造データ(位置関係)を半自動的に抽出します。そして手書きデータは各部品についてのみ収集し、最終的な字形データはこれら部品データと構造データから合成します。これにより、収集する手書きデータは約40分の1に大幅に削減できました。

  2. 部分パターン検索技術:

    入力された筆画と、認識辞書におけるあらゆる筆画列との対応から類似度を高速で計算する独自手法により、異なる筆順や続け書きによる入力に対しても類似した漢字を検索し、類似度順に提示することが可能になりました(図2)。

手書き部分入力に対する検索上位候補10個
図2 手書き部分入力に対する検索上位候補10個

効果

実験では、全画数を筆記した場合の検索率(上位30候補に正解が含まれる率)が97.9%、全画数の6割を筆記した場合の検索率で58%と高精度を達成しました。また検索時間も1文字あたり約0.8秒と高速で(Pentium4、1.7 GHz機使用時)、1画を入力するごとに検索候補を表示することが可能です。

本技術により、官公庁をはじめとして膨大な漢字を扱うオフィスでの文字入力業務のコストを大幅に効率化することが可能となります。また、大語彙を持つ電子漢字辞書の漢字検索や中国語入力などへの応用も期待されます。

今後

今年度、自治体向け戸籍システムおよび、汎用日本語入力ソリューションパッケージに搭載予定です。


以上

注釈

  注1 株式会社富士通研究所:
代表取締役社長 村野和雄、本社 神奈川県川崎市。

本件に関するお問い合わせ

技術に関するお問い合わせ

株式会社富士通研究所 パーソナルシステム研究センター
電話: 078-934-0579(直通)
E-mail: pen-pr@ml.labs.fujitsu.com


プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。