[論文紹介]PHA:高周波成分に着目したViTによるRe-ID

Re-ID

要点

論文:PHA: Patch-wise High-frequency Augmentation for Transformer-based Person Re-identification

著者:Guiwei Zhang,Yongfei Zhang,Tianyu Zhang,Bo Li,Shiliang Pu

コード:https://github.com/zhangguiwei610/PHA

CVPR2023

1.どんなもの?

ViTは高周波成分(例: 服のテクスチャの詳細)の保持においてCNNsより劣ることを示した.これを補強するために①高周波成分を強め,低周波成分を弱める手法②パッチ単位の新しい損失関数の2つを組み合わせたPHA(Patch-wise High-frequency Augmentation)を提案した.Re-IDタスクでCNNベースのモデルとViTベースのモデルと比較して有効性を検証した.

2.先行研究と比べてどこがすごい?

Re-IDの研究の流れとしてViTにCNNを組み込む手法が多いなかで,その有効性の根拠がわかっていないかった.その説明性を高周波成分に求めた.

3.技術や手法のキモはどこ?

ViTとCNNで高周波成分の認識精度の違いを検証することで,ViTにCNNを組み込むことで精度を向上させる手法の根拠とした.高周波成分を増強することで,Re-IDタスクにおいて高い推論精度を発揮した.

4.どうやって有効だと検証した?

1989年に提案されたDHWT(Discrete Haar Wavelet Transform)を用いて画像を高周波と低周波に変換し,CNNとViTのモデルで精度を比較することで,ViTが高周波成分の保持においてCNNに劣ることを示した.PHAの有効性はReIDベンチマーク(Market-1501,CUHK03-NP,MSMT17)を用いて,有名モデルと比較した.

5.議論はある?
6.次に読むべき論文は?

周波数視点(Frequency perspective)

“Frequency perspective” は、データや信号(この場合は画像)をその周波数成分によって分析するという視点を指す.

なぜ周波数視点が重要なのか
  • 信号の特性を明らかにする: 時間ドメインでの信号の形状だけでは理解しきれない特性やパターンが,周波数ドメインで明らかになる場合がある.
  • フィルタリングとノイズ除去: 信号から特定の周波数成分を取り除くことで,ノイズを除去したり,信号を改良したりする.
  • 圧縮と最適化: 周波数分析を用いて不要な成分を識別し,データを効率よく圧縮することが可能.
画像処理における周波数視点
  • エッジ検出: 高周波成分は画像のエッジやテクスチャに対応する.
  • 平滑化: 低周波成分は画像の基本的な形状や構造に対応する.
  • ノイズ除去: 周波数フィルタを用いて,ノイズとみなされる特定の周波数成分を除去できる.

なぜViTにCNNを組み込むと表現力が向上するのか?

DHWTを用いて(a)元画像を(b)低周波と(c)高周波に変換する.
ResNet101(CNNベース)とTransReID(ViTベース)で精度比較する.
(a)元画像と粗いパターンだけの(b)低周波ではTransReIDが高精度,(c)低周波ではResNet101が高精度となった.
ViTは高周波成分の保持においてCNNに劣る.

PHA(Patch-wise High-frequency Augmentation)

処理は①High-frequency Enhancement and Low-frequency Drop と②Patch-wise contrastive lossに分かれる.

①High-frequency Enhancement and Low-frequency Drop

DHWT で画像を変換して,低周波1枚と高周波3枚を生成する.
過学習しないように低周波成分をドロップさせる(画像のQに相当).
InverseDHWTで再構成する.
ID Loss と Triplet Loss から①部分の Loss を計算する.

②Patch-wise contrastive loss

高周波成分が低周波成分に過剰に平滑化されないように Loss を設計する.
全体のシーケンス P と 高周波シーケンス Ph から,P を同一人物の Ph に近づけて別の人物から遠ざける.

実験

データセット

Re-ID のデータセットを使って精度を検証する.

実験結果

上段CNNベースのモデルたちと下段ViTベースのモデルたちと比較して,最下段の提案手法の方が精度が高い.

提案手法の中のHE(High-frequency Enhancement),LD(Low-frequency Drop),PCL(Parch-wise Contrastive Loss)はどれも有効に機能している.

まとめ

人物画像の高周波成分の保持において,ViTはCNNに劣ることを明らかにした.それを補完するための学習メソッド PHA を提案し,既存の手法を凌駕する性能を発揮した.

コメント

タイトルとURLをコピーしました