PRESS RELEASE (技術)
2013年8月21日
富士通研究開発中心有限公司
株式会社富士通研究所
人間の脳の働きを模した人工知能技術を活用した業界トップ精度の手書き文字認識技術を開発
文書画像処理分野で最大となる国際会議主催の手書き文字(中国語)認識コンテストで1位を獲得
富士通研究開発中心有限公司(注1)と株式会社富士通研究所(注2)は、人間の脳の働きを模した人工知能技術を活用した業界トップ精度の手書き文字認識技術を開発しました。
従来、手書きの文字を認識するには、文字を構成する線の方向やその数を文字の特徴として捉えて個々の文字を認識していました。しかし、変形の大きい文字を認識できなかったり、認識精度を高めるために文字の学習に時間を要するなどの課題がありました。今回、人間の脳の働きを模した人工知能技術を活用し、文字の特徴をより詳細に、かつ高速に学習する仕組みを開発しました。これにより、文字の学習時間を従来の約1/17に短縮すると同時に、94.8%の認識精度を実現し、文書画像処理分野で最大となる国際会議主催の手書き文字(中国語)認識コンテストで1位を獲得しました。
本技術により、手書き文字を電子化する際のデータ入力の効率化を図ることができます。
本技術の詳細は、8月25日(日曜日)から米国ワシントンで開催される国際会議「ICDAR 2013(International Conference on Document Analysis and Recognition)」にて発表します。
開発の背景
各種カードや携帯電話・スマートフォンの契約申し込みなど、手書きで住所や氏名などを入力する機会は依然として多く、そのような手書き文字の電子化が必要な業務では、データ入力の効率化が求められています。
課題
手書き文字の字形は筆記者によって様々に変動します。従来は、文字を構成する線の方向やその数を文字の特徴として捉えて個々の文字を認識していました。しかし、変形の大きい文字を認識できなかったり、認識精度を高めるための文字の学習に時間を要するなどの課題がありました。
図1 字形の変動の大きい手書き文字の例(中国語)
開発した技術
今回、人間の脳の働きを模した人工知能技術を活用し、文字の特徴をより詳細に、かつ高速に学習する仕組みを開発しました。これにより、文字の学習時間を従来の約1/17に短縮すると同時に、94.8%の認識精度を実現しました。開発した技術の特徴は以下の通りです。
- 認識の高精度化
文字の認識は、あらかじめ登録された学習データを基に行われます。そのため認識精度を高めるためには、大量の学習データが必要となります。学習は、人間が文字を覚えるのと同じように、大量の文字を入力して文字の特徴を捉えて学習データとして蓄積していきます。その際に、人間の脳内の細胞を想定した階層的に連なるモデルを用います(図2)。文字の画像を入力すると、まず第1階層で文字の単純な特徴を捉え、次に第2階層で文字の複雑な特徴を捉えます。このように文字の識別に有効な特徴の抽出が階層的に自動的に行われ、どの特徴(細胞)に反応したかの学習結果が文字ごとに蓄積されます。
認識の際は、入力された文字から学習の際と同じように階層的に特徴の抽出が行われ、学習結果を基にどの特徴(細胞)に反応したかによって文字が特定され認識結果が出力されます。
これらのように人間の脳の細胞に模したモデルを導入し、各階層間をつなぐ結線の数を本モデルで一般的に用いられている数の約7倍(7階層で約280万)まで増やすことで、認識精度を高めました。
図2 開発技術の概念図 - 学習の高速化
本モデルでは各階層間をつなぐ結線の数が膨大になるにつれて、学習に時間を要します。そこで、学習データの構築の際には、GPU(Graphical Processing Unit)と呼ばれる高速な並列処理に強い演算素子(プロセッサ)を用いることで、従来4カ月かかっていた学習時間を約1/17の約1週間に短縮しました。
これらの技術により、文書画像処理分野で最大となる国際会議(ICDAR2013 : International Conference on Document Analysis and Recognition)主催の手書き文字(中国語)認識コンテストで、過去最高となる文字認識精度(94.8%)を達成し、1位となりました。
効果
今回開発した技術は、中国語だけでなく日本語にも適用可能な技術です。本技術により、変形の大きい文字でも高精度に読み取ることが可能となり、データ入力時の誤読が減り、データ入力コストの削減が可能となります。
今後
富士通研究所では、今回開発した技術の高精度化を進めていきます。
商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
以上
注釈
本件に関するお問い合わせ
株式会社富士通研究所
メディア処理システム研究所 イメージコンピューティング研究部
044-754-2577(直通)
deep-cnn@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。