b__ono__ng

AgentDoG: LLM Guard 본문

IT/AI

AgentDoG: LLM Guard

b__ono__ng 2026. 2. 3. 20:07

26년 1월 29일자를 기준으로 비전 AI 연구 동향 조사를 시켰는데, AgentDoG라는걸 뱉어줬다. 뭔지 궁금해서 찾아봤다.

쉽게말하면 LLM을 쓸 때, 사용자에게 위험할 수 있는 명령을 차단해주는 모델이다.

이게 왜 필요하냐면..


이럴때 필요하다. 이 짤은 회사 동료가 킹받는다고 캡처해주신건데,, 너무 웃김
push할까요?에 ㄴㄴ라고 했는데도 아ㅠ 이미 했어용 이러는 상황이다.

이걸 막기 위한 기존의 방법은, Sub LLM Gaurd(LlamaGuard, QwenGuard 등)를 두고 텍스트를 분석해서 출력/실행해도 되는지 판단하는 방식이었다. 그런데 이렇게 하다보면, 문맥이 끊긴 상태에서 텍스트 그 자체의 유해성만 검사하기 때문에 첨부한 사진처럼 저렇게 탈옥?되는 경우가 생긴다. 설명도 부족하고 단순 유해/무해의 이진 분류만 제공하기 때문에 정밀도도 부족하다.
그리고 질문/답변 텍스트 전체만 드립다 보고 판단하려면 실제로 중요한 부분에 어텐션도 잘 안 되지 않을까 싶다.

그래서 AgentDoG는 텍스트를 분석하지 않고, Trajectory-level로 분석한다고 한다. 이건 3가지 분석 항목으로 이루어진다.

  1. 위험 근원(Source): 사용자의 악의적 입력 때문인가? 아니면 도구(Tool) 설명의 오류인가?
  2. 실패 모드(Failure Mode): 명령어가 탈취(Hijacking)되었는가? 아니면 에이전트가 엉뚱한 계획을 세웠는가?
  3. 현실적 피해(Harm): 개인정보 유출인가? 금전적 손실인가? 시스템 파괴인가?

이렇게만 보면 잘 안 와닿는데 예시로 보면 쉽다.

예시: 에이전트가 멋대로 주식 매수를 실행함

-  기존 방식: "Unsafe (위험)"
-  AgentDoG:
   -  위험 원인: 외부 웹페이지의 간접 프롬프트 주입
   -  실패 모드: 권한 없는 도구 실행
   -  실제 피해: 금융 자산 손실

 


얼마 전 Openclaw (구 Moltbot)이 크게 유행하고 자동 결제하는 케이스도 보이면서 AI의 권한에 대한 문제가 제기되고 있는데, 이러면서 더 중요해지지 않을까 싶다.


Openclaw도 사용해보려고 한다. 자비스의 시대가 오고있다..