Azarashi Tech Blog

日常における日常的なことやテクノロジー的なこと

スキル評価系論文の調査(1)

背景

  • 今一度、ダーツ投擲フォーム評価システムに使う手法の選定のために論文調査する。
  • 時系列入力からスキル評価をする論文をざっくり見てみる。
  • 4つだけだけど、すべて2017年と2018年。

論文

Who’s Better? Who’s Best? Pairwise Deep Ranking for Skill Determination

arxiv.org

  • CVPR2018
  • 対評価で上手下手をランキングしていく感じで、手術・ピザ生地作り・箸の使い方・絵の描き方のスキル評価をしている。
  • ECCV2016のTSNを使っていて、つまりはRNN、LSTMとかは使ってないように見える。
  • Skill Determination from Egocentric Video(EPIC2017)の続きかな?

f:id:surumetic-machine-83:20190116064416p:plain

EvaluationNet: Can Human Skill be Evaluated by Deep Networks?

arxiv.org

  • S.T. Kim and Y. M. Ro. Evaluationnet: Can human skill be evaluated by deep networks? arXiv preprint arXiv:1705.11077, 2017.
  • Youtubeに上がってるインストラクションビデオ(つまりエキスパート)とユーザビデオ(つまり素人)の動画を入力して、上手いか下手か(Success or Fail)を判定。
  • いずれのビデオ入力も、まずはAction unit modelingという処理で、Visual Feature ExtractionとLSTM使ったエンコードが行われる。
  • 2つのビデオ入力がそれぞれエンコードされ、それらが統合されて特徴量ベクトルになったところで、2つのベクトルがSiameseネットワークで比較され、Success or Failという判定に入るというわけである。

f:id:surumetic-machine-83:20190116064433p:plain

The Pros and Cons: Rank-aware Temporal Attention for Skill Determination in Long Videos

arxiv.org

  • CoRR 2018
  • 長めの動画からスキル判定する手法。
  • 従来の手法は、ランダムにビデオを部分的にセグメントととしてたくさん切り取ってきて、ランキングをつけているが、これは適切ではないと考える。なぜならば、動画全体を通した「スキル」が多様に有り、一部のセクションからビデオの包括的なスキル判定などできないから。
  • 新しいrank-aware 損失関数というものを用い、video-level(=技能レベルと思われる)のみを教師として、rank-specific temporal attenstion module(ランキング専用の時間アテンションモジュールとでも訳すか?)というものを学習させる。
  • その新規に提案した損失関数は、同時にPros(長所)スキルとCons(短所)スキルを扱う2つの異なるアテンションモジュールを学習できるようにしている。
  • 世に公開されているEPIC-スキルデータセットでアプローチを評価し、さらに5つのこれまで未踏のタスクについて大きなデータセットを収集してアノテーションして学習データセットを作成。提案手法は、いずれのデータセットにおいても従来手法よりも良い成果を残した。ペアワイズ精度で4%、ここのタスクでは最大12%よかった。

f:id:surumetic-machine-83:20190116080620p:plain

Learning to Score Olympic Events

http://openaccess.thecvf.com/content_cvpr_2017_workshops/w2/papers/Parmar_Learning_to_Score_CVPR_2017_paper.pdf

  • CVPR2017
  • タイトル通り、オリンピックにおける行動の品質(競技スコア、難易度、等)をDeep Learningで推定できないか試した論文。 -競技は、ダイビング、跳躍、フィギュアスケート
  • C3D-SVR, C3D-LSTM および C3D-LSTM-SVRといった3つのフレームワークで評価。
    • C3Dと言ってるのは、3D Convolutional Neural Network
    • SVRよりLSTMベースのほうがよい性能だった。
  • 当時、「行動認識」とは異なり、「行動の品質」のデータセットは少なかったので、少ないデータセットからLSTMでうまく学習している。

f:id:surumetic-machine-83:20190116073206p:plain

所感

  • 有名ドコロの国際会議の論文は、ほとんど動画からスキル評価してる気がする。僕みたいな問題設定(画像認識は他のライブラリで済ませて、その出力を処理してるだけ)でやってる人らは、難しくない問題を扱ってると思われてハジかれてるのかな?(僕は趣味だからいいけど)
  • 次回は、この4つの論文のRelated Worksから、これまでのスキル評価系論文の歴史とトレンドを拾ってみようと思う。