PRESS RELEASE (技術)
2012年4月4日
株式会社富士通研究所
業界初!人から学習し自動的に能力が高まる文章校正技術の開発に成功
複数の誤りの同時修正を実現し、外国人の作成する日本語文書の誤りを8割削減
株式会社富士通研究所(注1)は、文章の校正作業において、人が校正した文章の履歴を使って、文章校正を自動的に行う技術を、業界で初めて開発しました。これにより、校正履歴が蓄積されるに従って校正能力が自動的に向上する文章校正システムが実現できます。本技術により、近年、オフショア開発の拡大に伴い増加する、開発受注先の外国人によるプログラム仕様書など日本語文章の執筆作業において、その品質を向上させることが可能になります。今回、中国語ネイティブが作成する日本語文章に対して、1万件の校正履歴を用いた自動校正を実行したところ、約80%の誤りを修正できることを確認しました。
オフショア開発のほか、企業内や特定業種に向けの校正作業などにおいても、低コストかつ短期間で高い校正精度を確保することが可能となります。
開発の背景
企業のグローバル化にともない、中国を中心にオフショア開発が増加しており、開発受注先の外国人によるプログラム仕様書の執筆など、日本語文章の執筆機会が増えています。しかし、外国人にとって日本語の執筆は容易ではなく、「て」「に」「を」「は」などの助詞の誤り、用語の使い方の誤りなどがしばしば発生します。この問題に対処するため、納品を行う前に日本人による校正作業を行う必要があり、多大な時間を費やしています(図 1)。オフショア開発の現場においては、このような校正担当の日本人の仕事を代替してくれるような、なおかつ、外国人執筆者自身が効率的に校正できる日本語校正支援システムが求められていました。
図1 オフショア開発における文章作成の流れ
課題
これまでも、文章作成において文章の誤りを指摘したり、正しい語句を提示するような文章校正支援技術や製品が開発されています。これらには、不適切な単語や置き換えるべき表現を事前に辞書登録しておき、原文と辞書の表記がマッチした部分を正しい語句に置き換えることで文章校正を支援する手法が用いられています。しかし、辞書の追加やメンテナンスに継続的な工数がかかるうえ、検出できる対象が無条件に文字列置換えができるものに限定されるなどの制約がありました。このため、一つの文章の中に複数の誤りが存在するような対象、例えば、「梅雨は雨を降ります」といった文章を修正するには、「梅雨の雨」のほか「春の雨」、「夏の雨」、「秋の雪」、「春の雪」など、あらゆる組み合わせを登録する必要があり、対応が困難でした。そこで、校正担当者のように幅広い表現に対応することができ、かつ、低コストで運用できる文章校正技術の開発が課題となっていました。
開発した技術
人が行った校正作業の履歴データ(校正前と校正後の文章のペア)を登録するだけで、過去に人が行った校正をシステムが学習し人と同じように校正を行うことができる技術を、業界で初めて開発しました。本技術は、次の様な手続きで校正履歴のみを用いて校正を行います。
- 対象文と似た文を修正前の文に持つ校正履歴データを検索
- 対象文と修正前の文の共通部分と修正後の相違部分を特定
- 対応する語句が持っている品詞など文の構造としての共通性から文の距離を求め校正の可否を判断
- 校正可能であれば、対象文の表現を修正
開発した技術の特長は以下の通りです。
- 自動的に能力が高まる校正アルゴリズム
参考にする校正履歴の選択と、適用の可否判断を自動的に行うことで、特別な校正辞書や校正辞書を作成する手間なしに、校正者による校正履歴を新しく取り込むだけで、システムの校正能力を高めることができます。
- 幅広い校正項目に対応
人間の校正した文をそのまま利用することが可能となり、これまで自動修正が困難な誤りも検出し、正しい表現に直すことができるようになりました。たとえば、先ほどの「梅雨は雨を降ります」というような複合的な誤りの例でも、対象文と校正履歴の修正前文章で対応する語句が持っている品詞などを用いて文章間の共通性と意味の近さを評価することで、校正することが可能になります。(図 2)
図2 自動校正の処理
効果
今回開発した技術を用いることで、執筆者が外国人でも日本語文章を執筆者自身で校正できるようになりました。今回、中国語ネイティブが作成する日本語文章に対して1万件の校正履歴を用いた自動校正を実行したところ、約80%の誤りを修正できることが確認されました。また、助詞や動詞活用など従来の技術では校正が困難な対象も対応可能となりました。(図 3)
また、校正履歴から自動的に校正方法を学習するため、企業内や特定業種向けの校正作業などにおいても、短期間で高い校正精度を確保することが可能となります。
図3 評価結果
今後
2012年度より、当社のオフショア開発を担っている中国の関係会社にて、本技術を用いて開発した校正支援ツールの適用を開始します。また、2013年度を目途にクラウドサービスとしての実用化を目指します。
商標について
記載されている製品名などの固有名詞は、各社の商標または登録商標です。
以上
注釈
本件に関するお問い合わせ
株式会社富士通研究所
メディア処理システム研究所 スピーチ&ランゲージテクノロジ研究部
044-754-2960(直通)
atlas-ml@ml.labs.fujitsu.com
プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。