シーンを表す言葉を映像に自動でタグ付けする技術を開発

映像中の観たいシーンを簡単に検索することが可能に

株式会社富士通研究所（注1）は、これまで実現できなかった、「都会」や「運動会」などのシーンを表すタグを映像に自動付与する技術を開発しました。従来はシーンを構成する1つ1つのショット（同じ物が映っている区間）を対象としていましたが、複数のショットを同時に解析することでシーンへの自動タグ付けを実現しました。

本技術により、ホームビデオを撮るだけで、シーンに自動的に「都会」や「運動会」などのタグが付けられ、観たいシーンを簡単に検索できるようになります。また、放送局や映像配信のサービス業者は、手動でタグを付けなくても膨大な映像資産を活用できるようになります。

開発の背景

近年、さまざまな分野で映像が蓄積されています。例えば、個人では、ホームビデオを撮り溜めたり、TV番組をハードディスクレコーダなどに録画したりしています。企業では、e-learningなどで活用するために、研修用映像が大量に蓄積されています。製造分野では、紙媒体の保守マニュアルが作業手順を撮影した映像に置き換わりつつあります。医療分野では、研修などに利用するために手術映像を蓄積しています。このように、膨大な映像が蓄積されるようになり、その中から観たいシーンを探すのが難しくなっていました。

課題

蓄積された映像を整理したり、観たいシーンを探したりするための手段として、映像に出てくるさまざまな物体名（人、建物、車など）やシーン名（都会、運動会、結婚式など）のタグを手動で付けることが考えられます。しかし、映像に手動でタグを付けるには膨大な手間がかかるため、自動的にタグを付ける技術が必要とされていました。

従来の技術では、ショットごとに自動でタグを付けていましたが、複数のショットで構成されるシーンに対しては適切なタグを付けることは困難でした。例えば、図1の3つのショットからなるシーンに対して「都会」か「田舎」のタグを付ける場合、単一のショットのみでは「都会」か「田舎」を判断することが難しく、そのためシーン全体にタグを付けられません。シーン全体にはタグを付けられません。その結果、このシーンはキーワードで検索することができませんでした。

図1. シーンは「都会」か「田舎」か？

開発した技術

今回、複数のショットを同時に解析することでシーンにタグを自動付与できる技術を開発しました。本技術により、単一のショットだけでは付与できなかったタグ付けが可能になり、シーンに対するタグ付けの精度が検索に利用できるレベルまで向上しました。

本技術では、図2のように、まず、同一時間帯に撮影された複数のショットを自動的にまとめて1つのシーンとします。次に、あらかじめタグが付いた複数の画像から、タグを付けるための規則を自動的に抽出する機械学習の手法により、シーン内の各ショットに物体名を付け、それらの物体名と物体の面積（代表フレーム画像に占める物体の面積）を手がかりにすることで、シーン名のタグを自動付与します。例えば、図1のシーンでは、同一時間帯に撮影された3つのショットをまとめて解析し、「建物」や「車」などの物体名や物体の面積から「都会」というタグを付けることができます。

図2. 技術の概要図

効果

本技術により、ホームビデオを撮るだけで、物体名だけでなく、「都会」「運動会」「結婚式」などのさまざまなシーン名を自動的に付与できるため、撮り溜めた映像の中から、観たいシーンを簡単に検索できるようになります。また、放送局や映像配信サービス業者などは、手間をかけずに保有する膨大な映像資産を活用できるようになります。

今後

今後は、さまざまな分野の映像向けに実用化を進め、映像活用サービスに適用する予定です。

商標について

記載されている製品名などの固有名詞は、各社の商標または登録商標です。

以上

注釈

注1 株式会社富士通研究所：: 代表取締役社長富田達夫、本社神奈川県川崎市。

本件に関するお問い合わせ

株式会社富士通研究所
ソフトウェア＆ソリューション研究所言語・メディア研究部
電話： 044-754-2653（直通）
E-mail： multimedia@ml.labs.fujitsu.com

プレスリリースに記載された製品の価格、仕様、サービス内容、お問い合わせ先などは、発表日現在のものです。その後予告なしに変更されることがあります。あらかじめご了承ください。

ページの先頭へ