5,000万件を超える大規模データから機械学習により数時間で予測モデルを生成する技術を開発

大規模データのタイムリーな分析を可能にし、ビッグデータビジネスの拡大に貢献

株式会社富士通研究所（注1）は、5,000万件を超える大規模データから機械学習により数時間で高精度な予測モデルを生成する技術を開発しました。

従来、精度の高い予測モデルを生成するためには学習アルゴリズムや動作条件などすべての組合せを調べる必要があり、例えば、5,000万件規模のデータによる学習では1週間以上の時間を要していました。

今回、少量のサンプルデータと過去の予測モデルの精度から機械学習結果を推定し、最も精度の高い結果の得られる学習アルゴリズムや動作条件の組合せを抽出して、大規模データの学習に適用する技術を開発しました。これにより、5,000万件規模のデータであっても数時間で精度の高い予測モデルを得られます。

本技術を用いた予測モデルにより、大規模ECサイト会員の退会抑制や設備の故障対応の迅速化といった改善をタイムリーに実現できます。

本技術の詳細は、9月14日（月曜日）から愛媛大学で開催される研究会「電子情報通信学会情報論的学習理論と機械学習研究会（IBISML）」にて発表します。

開発の背景

スマートフォンなどの普及で常時大量のセンサーデータを収集できるようになり、そこから価値ある情報を抽出してビジネスに活用するため、機械学習などの高度な分析技術が盛んに使われています。例えば、ECサイトのアクセス履歴から、いつどのサイトにアクセスした会員が退会しやすいかを学習し、該当する会員を早期に検出することで、退会を防ぐ対策をとることができます。また、日々の詳細な電力消費量のデータから増減パターンを学習し、電力量が増える時期や時間帯を予測することで、発電量、送電量、蓄電量などをきめ細かく制御して電力コストを低減することができます。こうした高精度な予測には、機械学習を利用して予測モデルを生成することが有効と言われています。

機械学習のアルゴリズムは目的ごとに多数の手法が存在し、それぞれ予測精度や処理速度が異なります。分析データによっても予測精度にすぐれるアルゴリズムは変わり、さらに高精度な予測を得るためには動作条件の細かい調整が求められます。したがって、有用な予測モデルを生成するには、アルゴリズムと動作条件の組合せを見つけ出す必要があります。

課題

アルゴリズムや条件のすべての組合せを検証しようとすると、組合せ数が膨大で、数日を要することもあり網羅的な機械学習は現実的ではありません。このため、従来は分析者が経験に基づいてアルゴリズムと条件の組合せを決定しており、分析者のスキルによって結果が大きく変わってしまうことが課題でした。データの規模が増大し、分析に一晩以上かかってしまうような場合は、限られた組合せの学習に限定することや、データを間引いて全体の傾向のみを把握するといった対処が行われており、限られた時間で自動的に高精度な分析結果を導くことはできませんでした。

開発した技術

今回、少量のサンプルデータでも高精度な予測モデルを生成可能な機械学習結果の推定と自動チューニングの技術を開発し、OSSの並列実行基盤ソフトウェアであるApache Spark（注2）上で試作しました（図1）。

図1 開発技術概要
拡大イメージ

開発した技術の特長は以下のとおりです。

機械学習の実行時間と予測精度を推定する技術
代表的な機械学習のアルゴリズムに関して、データ件数やデータの特徴を表す属性の数を変えながら実際の機械学習の実行時間を計測し、これらの実測値を基に実行時間の傾向を表す実行時間モデルを構築しました。実行時間の実績に基づいた実行時間推定の補正も実施して推定精度を向上しています。

過去に実施したアルゴリズムや動作条件の組合せと、得られた予測モデルの精度をデータベースである性能ナレッジに記録しておき、新しい組合せの予測精度を推定します。これにより、少量のサンプルデータでも予測精度を損なわない必要最小限のデータ量を見極めることができます。

実行時間と予測モデルの精度の推定により、高速かつ高精度な予測モデルの生成を実現しています。

従来、一つの機械学習アルゴリズムの中で予測精度を推定する技術はありましたが、複数の機械学習アルゴリズムと複数のデータ量に対して適用する技術はありませんでした。本技術は、機械学習を行うたびに、その時の条件（アルゴリズム、データ件数、属性数、インフラ情報など）と実際の実行時間を記録して推定に反映するので、使えば使うほど正確な推定ができるようになります。
機械学習アルゴリズムを自動的にチューニングする制御技術（図2）
あらゆる組合せの候補の中から時間効率の高い学習を選び出し、効率的かつ並列に学習を繰り返す技術です。従来はどの順番でどの組み合わせの機械学習をすれば良いか決め手がなく、分析者のノウハウに頼った手探りで分析が進められてきました。本技術では、実行時間と予測精度の推定結果を総合判断し、予測精度が上がる可能性が高く、かつ短時間に実行が終わるアルゴリズムと動作条件の組合せを複数抽出して、並列に実行します。これにより、実行時間を考慮に入れた最適な順番でアルゴリズムを実行することができ、短時間で高精度な機械学習を選択することが可能となります。開発手法は、自動的に、より効果の高い組合せを集中的に選ぶように制御されているため、分析者のノウハウに依存しません。

図2 機械学習アルゴリズムを自動的にチューニングする制御技術
拡大イメージ

効果

社内実験で5,000万件規模のデータを12CPUコアのサーバ8台で処理したところ、従来、1週間程度かかっていた精度96%の予測モデルを、本技術では2時間強で得られることを確認しました。また、3,000万件規模のWebアクセス履歴のデータを用いたアクセス分析において、本技術を用いた機械学習の適用が実用的に可能であることを確認しました。

本技術により、例えば、首都圏の世帯を対象にしたエネルギー需要予測や、数十万人規模のサービスにおいて素早く退会の兆候を予測するなどのサービスが実現できます。

今後

富士通研究所は、ビッグデータを活用する富士通Analyticsソリューションなどでの実証実験を通じ、本技術の2015年度中の実用化を目指します。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

注1 株式会社富士通研究所：: 本社神奈川県川崎市、代表取締役社長佐相秀幸。
注2 Apache Spark：: インメモリデータ処理による高速処理を特徴としたビッグデータ処理向け並列実行基盤ソフトウェア。カリフォルニア大学バークレイ校（UCB）の研究組織「AMPLab」において開発され、現在はApache Software Foundationのオープンソースソフトウェア。富士通研究所は「AMPLab」のスポンサー。

本件に関するお問い合わせ

株式会社富士通研究所
知識情報処理研究所
044-874-0691（直通）
bigdata-machinelearning-press@ml.labs.fujitsu.com

プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。

ページの先頭へ

5,000万件を超える大規模データから機械学習により数時間で予測モデルを生成する技術を開発

開発の背景

課題

開発した技術

効果

今後

商標について

注釈

関連リンク

本件に関するお問い合わせ