b__ono__ng

HOI (Human Object Interaction) Detection (1/3) - Overview 본문

IT/AI

HOI (Human Object Interaction) Detection (1/3) - Overview

b__ono__ng 2024. 9. 29. 16:28

사내 세미나에서 뭘 발표할까,, 고민하다가 요즘 2D Image 분야에서는 뭐가 연구되나 찾아보았다.

CVPR, ICML, ICLR, NIPS 등의 학회에서 발표되는 내용을 훑어봤는데 3D가 대다수이더라,,

사실 논문 제목을 봐도 모르는게 너무 많아서 고르기 힘들었는데, HOI가 눈에 띄었다.


HOI는 Human Object Interaction이라고 해서, 이미지 내의 사람과 물체의 연관관계를 찾는 태스크다.

[그림 1] HOI 예시

이런 이미지를 예로 들면, 사람은 1명에 객체는 자전거가 있다.

이 사람과 자전거 간의 관계(interaction)는 ride라던가, hold라던가, sit 등이 되겠다. 가장 적합한건 ride일 것이다.

[그림 2] input image

다음으로 이런 이미지를 예로 들면, 사람은 2명에 객체는 여러 가지가 있다. 케이크, 케이크를 써는 나이프, 의자 등이 있다.

그럼 여기에서 interaction은 무엇일까?

답은 hold, cut 등, 여러 가지가 되겠다.

HOI는 1개의 이미지에서 1개의 interaction을 추출하는 것이 아니라, 이미지에서 찾아낸 여러 사람-객체 쌍(pair) 각각의 interaction을 추출한다.

이 이미지에서 사람과 객체를 찾는다면, 그러니까 Object Detection을 수행한다면 아래와 같이 되겠다.

[그림 3] Object Detection

HOI는 여기서 한 발 더 나아간다. 사람과 객체 간의 쌍을 찾아, 그 쌍에서 어떠한 interaction이 이루어지는지 탐지한다.

[그림 4] HOI

빨간색 박스의 사람분홍색 박스의 케이크를 썰고 있다. 따라서 이 둘간의 관계는 cut object 이다.

빨간색 박스의 사람파란색 박스의 나이프로 썰고 있다. 따라서 이 둘간의 관계는 cut instrument 이다.

이런 식으로, 매칭되는 사람-객체간의 interaction을 탐지하는 것이 HOI이다.


(2)에서는 HOI를 탐지하기 위한 그간의 접근 방식들을, (3)에서는 최근 연구되는 zero-shot 기반의 HOI 접근 방식을 리뷰할 예정이다.