背景

論文

f:id:surumetic-machine-83:20190116064416p:plain

S.T. Kim and Y. M. Ro. Evaluationnet: Can human skill be evaluated by deep networks? arXiv preprint arXiv:1705.11077, 2017.
Youtubeに上がってるインストラクションビデオ(つまりエキスパート)とユーザビデオ(つまり素人)の動画を入力して、上手いか下手か(Success or Fail)を判定。
いずれのビデオ入力も、まずはAction unit modelingという処理で、Visual Feature ExtractionとLSTM使ったエンコードが行われる。
２つのビデオ入力がそれぞれエンコードされ、それらが統合されて特徴量ベクトルになったところで、２つのベクトルがSiameseネットワークで比較され、Success or Failという判定に入るというわけである。

f:id:surumetic-machine-83:20190116064433p:plain

CoRR 2018
長めの動画からスキル判定する手法。
従来の手法は、ランダムにビデオを部分的にセグメントととしてたくさん切り取ってきて、ランキングをつけているが、これは適切ではないと考える。なぜならば、動画全体を通した「スキル」が多様に有り、一部のセクションからビデオの包括的なスキル判定などできないから。
新しいrank-aware 損失関数というものを用い、video-level(＝技能レベルと思われる)のみを教師として、rank-specific temporal attenstion module(ランキング専用の時間アテンションモジュールとでも訳すか？)というものを学習させる。
その新規に提案した損失関数は、同時にPros(長所)スキルとCons(短所)スキルを扱う２つの異なるアテンションモジュールを学習できるようにしている。
世に公開されているEPIC-スキルデータセットでアプローチを評価し、さらに5つのこれまで未踏のタスクについて大きなデータセットを収集してアノテーションして学習データセットを作成。提案手法は、いずれのデータセットにおいても従来手法よりも良い成果を残した。ペアワイズ精度で4%、ここのタスクでは最大12%よかった。

f:id:surumetic-machine-83:20190116080620p:plain

CVPR2017
タイトル通り、オリンピックにおける行動の品質(競技スコア、難易度、等)をDeep Learningで推定できないか試した論文。 -競技は、ダイビング、跳躍、フィギュアスケート
C3D-SVR, C3D-LSTM および C3D-LSTM-SVRといった３つのフレームワークで評価。
- C3Dと言ってるのは、3D Convolutional Neural Network
- SVRよりLSTMベースのほうがよい性能だった。
当時、「行動認識」とは異なり、「行動の品質」のデータセットは少なかったので、少ないデータセットからLSTMでうまく学習している。

f:id:surumetic-machine-83:20190116073206p:plain

有名ドコロの国際会議の論文は、ほとんど動画からスキル評価してる気がする。僕みたいな問題設定(画像認識は他のライブラリで済ませて、その出力を処理してるだけ)でやってる人らは、難しくない問題を扱ってると思われてハジかれてるのかな？(僕は趣味だからいいけど)
次回は、この４つの論文のRelated Worksから、これまでのスキル評価系論文の歴史とトレンドを拾ってみようと思う。