[論文紹介]MotionTrack:短距離・長距離にロバストな物体追跡モデル

物体追跡

要点

論文:MotionTrack: Learning Robust Short-term and Long-term Motions
for Multi-Object Tracking

著者:Zheng Qin, Sanping Zhou, Le Wang,Jinghai Duan,Gang Hua, Wei Tang

CVPR2023

1.どんなもの?

Multi-Object TrackingモデルMotion Trackを提案した.密集した群衆に強い短距離追跡用のInteraction Module,オクルージョンに強い長距離追跡用のRefind Moduleを開発した.データセットMOT17とMOT20でSoTAを達成した.

2.先行研究と比べてどこがすごい?

群衆中での追跡,遮蔽物とのオクルージョンに強い.

3.技術や手法のキモはどこ?

群衆中で対象人物同士の相互作用を考慮したInteraction Module,オクルージョンの前後でロストした軌跡と新たに検出された矩形をペアリングするRefind Module.

4.どうやって有効だと検証した?

MOT17とMOT20のデータセットを使用し,その他のオンライン追跡モデルと比較.

5.議論はある?

アブレーションスタディも多く,議論は特になし.

6.次に読むべき論文は?

比較対象となっているReMOT,QuasiDense,SOTMOTなど.

既存手法

特徴
  • 人物の動きのパターンを学習
  • オクルージョン対策で見た目の特徴を学習
  • 密集した群衆,長時間のオクルージョンに弱い
分類
  • Tracking-by-detection:物体検出して隣接フレームの矩形でRe-ID
  • Tracking-by-regression:物体検出に加えて直前の座標変位から回帰的に推定
両方が抱える問題
  • short-range:複数のトラックと新しく検出した矩形の関連付け
  • long-range:消失したトラックと新しく検出した矩形の関連付け

トラッキングの難しさ

short-range:密集した群衆
  • Bounding Boxが小さすぎて見た目で判別できない
  • 対象が衝突しないよう複雑に動く
long-range:長時間のオクルージョン
  • 失ったターゲットの再識別のため見た目の特徴を学習.
  • 異なる姿勢,低解像度,劣悪な照明への対応が必要.
  • メモリ技術による対象の照合には多くのメモリと時間が消費され,リアルタイム追跡に不向き.

Motion Track

現在フレーム t の画像に物体検出器を適用して出力される矩形たちが「Detection」.
t-2 と t-1 の矩形の変位を入力として,「Interaction Module」(詳細後述) が出力する t フレームでの矩形たちが「Prediction」.
「Detection」と「Predictoin」の全矩形同士のIoUを計算し,閾値以上のペアは t フレームの矩形として採用.
マッチングしなかった「Detection」矩形はこれまでに Lost した軌跡がオクルージョン後に再登場した可能性があるので,「Refind Module」(詳細後述) の処理へ.
これまでに Lost した軌跡の移動傾向から,現在フレーム t までに移動したであろう軌跡を推定し,マッチングしなかった t フレームの矩形の位置に来るかどうかを「Refind Module」で比較.一致した場合は Lost した軌跡と同じ ID を振りなおす.

Interaction Module

t-2 と t-1 フレームの矩形の変位を「Interaction extraction」入力し,相互作用(2つの軌跡が重なって片方が隠れる等)を計算,隣接行列(Adjacency matrix)を出力.隣接行列に基づいて t フレームでの矩形を回帰的に推定.

Interaction extraction

t-2 と t-1 フレームの矩形の変位を埋め込んで Self-attenction を適用し,相互作用をモデル化していく.Cascade of symmetric convolution を用いて更に高次元でモデル化し,mask として掛け合わせる.最後に Normalization を行う.

Motion Prediction

MLP(Multi-layer perceptron)を使って軌跡同士の相互作用を混ぜて,Prediction の矩形を出力する.

Refind Module

今までに Lost した軌跡と t フレームでペアが生成されなかった「Detection」を入力して,Lost した軌跡がオクルージョン後に再登場したのかを確認する.

Correlation calculation

Lost した軌跡の直近30フレーム分の矩形に Cascade of symmetric convolution を適用.最後の矩形と t フレームで検出された矩形との差分と矩形を結合し,線形変換で埋め込む.全結合と Sigmoid を用いて相関行列(Correlation matrix)を生成し,貪欲法でマッチングペアを選択,閾値0.9を超えていれば Lost した軌跡が再登場したとみなす.最後にオクルージョン中の軌跡を補完.

実験

詳細

データセット:MOT17,MOT20

物体検出器:YOLOX

評価指標:CLEAR(MOTA,FP,FN,IDsなど),IDF1,HOTA

実験結果

データセットMOT17において,多くの指標でSoTAを達成.
IDスイッチは特に低い.

MOT20でも多くの指標でSoTAを達成.

アブレーションスタディでも各モジュールの効果を確認.

まとめ

オンラインMOTモデル「Motion Track」を提案,「Interaction Module」と「Refind Module」を開発.MOTベンチマークでSoTAを達成.

コメント

タイトルとURLをコピーしました