b__ono__ng

HOI (Human Object Interaction) Detection (2/3) - Approaches 본문

IT/AI

HOI (Human Object Interaction) Detection (2/3) - Approaches

b__ono__ng 2024. 12. 15. 16:10

HOI의 접근방식 변화 과정은 대략 이정도인 것 같다.

  1. Object Detection-based
  2. Point Matching-based
  3. Transformer-based
  4. Vision Language-based

뭐가 됐든, 요는 같다. 사람과 객체가 포함된 이미지에서, 어떠한 상호작용이 있는지를 찾는 Task이다.

그래서 라벨링되는 방식은 아래와 같다. [사람, 객체, 상호작용]이 하나의 라벨링이다. 

출처 : https://cobslab.com/transformer-%EA%B8%B0%EB%B0%98%EC%9D%98-%EC%B2%AB-hoi-detector-hotr-human-object-interaction-detection-with-transformer/

 

이 분야에서 유명한 데이터셋으로 HICO 데이터셋이 있다. HICO 데이터셋을 까보면 이렇게 생겼다.

HICO Dataset

annotation이 2개인 것을 볼 수 있다.

하나는 빨간색 박스로, Object Detection에서 활용하는 그대로이다. 이미지에 존재하는 객체의 박스와 클래스 번호가 들어있다.

하나는 파란색 박스로, 사람(Subject)과 객체(Object) 쌍과 이들의 상호작용이 들어 있다.


Approaches


1. Object Detection-based

사실 HOI는 Object Detection의 상위 개념이고, 이후의 Approach들도 Object Detection을 기반으로 하기 때문에 이 말이 모호해보이지만,, 가장 단순한 개념의 Object Detection 기반 Approach라고 생각하면 된다.

Object Detection-based

 

Reference: ICAN:Instance-Centric Attention Network for Human-Object Interaction Detection, Chen GAO, etc., 2018


먼저 Faster R-CNN 등의 객체 탐지 모델을 기반으로 사람을 포함한 객체 검출을 수행한다. 이후 오브젝트의 feature, 사람의 feature, pair의 spatial feature를 추출하여 위 논문에서 보이는 구조와 같은 형식으로 상호작용을 학습하는 모델을 학습하는 방식이다.

 

2. Point Matching-based

사람의 Key Point Feature를 활용하는 방식이다.

Point Matching-based

 

Refence: PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection, Yue Liao, etc., 2020

Key Point 모델을 활용해서 Width, Height, CenterPoint, Displacement, Interaction Point를 찾는다. 이들 Feature를 기반으로 상호작용을 예측하는 방식이다. 이것 또한 객체 검출 과정이 필요하지만, 1번 과정과는 사용하는 Feature의 측면에서 차이가 있다.

 

3. Transformer-based

Transformer의 어텐션 메커니즘을 활용해서 인스턴스 간의 상호작용을 예측하는 방식이다.

Transformer-based

 

HOTR: End-to-End Human-Object Interaction Detection with Transformers, Bumsoo Kim, etc., 2021

Encoder에서 전역 Feature를 추출한 뒤, 2개의 Decoder에서 인스턴스와 상호작용에 대한 각각의 정보를 추출한다. 여기에서 HO Pointer라는 개념을 활용하는데, class, box, human, object, action(interaction)를 서로 잘 조합해 페어링하고, 각 페어의 interaction을 예측하는 방식이다. 딥하게 본건 아니라서 이 부분은 적당히 넘어갔다.

 

4. Vision Language-based

최근에 나오고 있는 방법은 Vision Language 기반의 방식이다. 여느 인공지능 모델이 그렇듯,, 현 시점애는 Transformer 기반으로하는 뭔가가 가장 높은 성능을 보이기에 이것 또한 그렇다.

Vision Language-based

 

Refence: CLIP4HOI: Towards Adapting CLIP for Practical Zero-Shot HOI Detection, Yunyao Mao, etc., 2023

DETR 등의 객체 검출 모델을 통해 객체를 검출한다. 동시에 CLIP 모델을 활용하여 이미지 및 텍스트(text description)의 Feature를 추출한다. CLIP 모델에서 예측하는 방식과 같이 이미지-텍스트 간 점수를 계산하고, 사람-객체 Pair 간 점수도 계산하여, 이 점수에 따라 검출한 객체 박스에 매핑한다.