b__ono__ng
AgentDoG: LLM Guard 본문

26년 1월 29일자를 기준으로 비전 AI 연구 동향 조사를 시켰는데, AgentDoG라는걸 뱉어줬다. 뭔지 궁금해서 찾아봤다.


쉽게말하면 LLM을 쓸 때, 사용자에게 위험할 수 있는 명령을 차단해주는 모델이다.
이게 왜 필요하냐면..

이럴때 필요하다. 이 짤은 회사 동료가 킹받는다고 캡처해주신건데,, 너무 웃김
push할까요?에 ㄴㄴ라고 했는데도 아ㅠ 이미 했어용 이러는 상황이다.
이걸 막기 위한 기존의 방법은, Sub LLM Gaurd(LlamaGuard, QwenGuard 등)를 두고 텍스트를 분석해서 출력/실행해도 되는지 판단하는 방식이었다. 그런데 이렇게 하다보면, 문맥이 끊긴 상태에서 텍스트 그 자체의 유해성만 검사하기 때문에 첨부한 사진처럼 저렇게 탈옥?되는 경우가 생긴다. 설명도 부족하고 단순 유해/무해의 이진 분류만 제공하기 때문에 정밀도도 부족하다.
그리고 질문/답변 텍스트 전체만 드립다 보고 판단하려면 실제로 중요한 부분에 어텐션도 잘 안 되지 않을까 싶다.
그래서 AgentDoG는 텍스트를 분석하지 않고, Trajectory-level로 분석한다고 한다. 이건 3가지 분석 항목으로 이루어진다.
- 위험 근원(Source): 사용자의 악의적 입력 때문인가? 아니면 도구(Tool) 설명의 오류인가?
- 실패 모드(Failure Mode): 명령어가 탈취(Hijacking)되었는가? 아니면 에이전트가 엉뚱한 계획을 세웠는가?
- 현실적 피해(Harm): 개인정보 유출인가? 금전적 손실인가? 시스템 파괴인가?
이렇게만 보면 잘 안 와닿는데 예시로 보면 쉽다.
예시: 에이전트가 멋대로 주식 매수를 실행함
- 기존 방식: "Unsafe (위험)"
- AgentDoG:
- 위험 원인: 외부 웹페이지의 간접 프롬프트 주입
- 실패 모드: 권한 없는 도구 실행
- 실제 피해: 금융 자산 손실

얼마 전 Openclaw (구 Moltbot)이 크게 유행하고 자동 결제하는 케이스도 보이면서 AI의 권한에 대한 문제가 제기되고 있는데, 이러면서 더 중요해지지 않을까 싶다.

Openclaw도 사용해보려고 한다. 자비스의 시대가 오고있다..
'IT > AI' 카테고리의 다른 글
| Onnxruntime-DirectML 정확도 유지하며 추론 성능 개선 시도 (2) | 2026.03.04 |
|---|---|
| onnxruntime-directml 사용하게 되는 경우 (1) | 2026.02.26 |
| CALM(Continuous Autoregressive Language Models) 논문 리뷰 (2) | 2025.11.27 |
| D-Fine 모델 학습 중 (6) | 2025.02.20 |
| Ultralytics + MLflow 사용 시 실험 분리되는 문제 (5) | 2024.12.31 |