AgentDoG: LLM Guard

관리 메뉴

bonong

AgentDoG: LLM Guard 본문

IT/AI

AgentDoG: LLM Guard

b__ono__ng 2026. 2. 3. 20:07

26년 1월 29일자를 기준으로 비전 AI 연구 동향 조사를 시켰는데, AgentDoG라는걸 뱉어줬다. 뭔지 궁금해서 찾아봤다.

쉽게말하면 LLM을 쓸 때, 사용자에게 위험할 수 있는 명령을 차단해주는 모델이다.

이게 왜 필요하냐면..

이럴때 필요하다. 이 짤은 회사 동료가 킹받는다고 캡처해주신건데,, 너무 웃김
push할까요?에 ㄴㄴ라고 했는데도 아ㅠ 이미 했어용 이러는 상황이다.

이걸 막기 위한 기존의 방법은, Sub LLM Gaurd(LlamaGuard, QwenGuard 등)를 두고 텍스트를 분석해서 출력/실행해도 되는지 판단하는 방식이었다. 그런데 이렇게 하다보면, 문맥이 끊긴 상태에서 텍스트 그 자체의 유해성만 검사하기 때문에 첨부한 사진처럼 저렇게 탈옥?되는 경우가 생긴다. 설명도 부족하고 단순 유해/무해의 이진 분류만 제공하기 때문에 정밀도도 부족하다.
그리고 질문/답변 텍스트 전체만 드립다 보고 판단하려면 실제로 중요한 부분에 어텐션도 잘 안 되지 않을까 싶다.

그래서 AgentDoG는 텍스트를 분석하지 않고, Trajectory-level로 분석한다고 한다. 이건 3가지 분석 항목으로 이루어진다.

위험 근원(Source): 사용자의 악의적 입력 때문인가? 아니면 도구(Tool) 설명의 오류인가?
실패 모드(Failure Mode): 명령어가 탈취(Hijacking)되었는가? 아니면 에이전트가 엉뚱한 계획을 세웠는가?
현실적 피해(Harm): 개인정보 유출인가? 금전적 손실인가? 시스템 파괴인가?

이렇게만 보면 잘 안 와닿는데 예시로 보면 쉽다.

예시: 에이전트가 멋대로 주식 매수를 실행함

- 기존 방식: "Unsafe (위험)"
- AgentDoG:
   - 위험 원인: 외부 웹페이지의 간접 프롬프트 주입
   - 실패 모드: 권한 없는 도구 실행
   - 실제 피해: 금융 자산 손실

얼마 전 Openclaw (구 Moltbot)이 크게 유행하고 자동 결제하는 케이스도 보이면서 AI의 권한에 대한 문제가 제기되고 있는데, 이러면서 더 중요해지지 않을까 싶다.

Openclaw도 사용해보려고 한다. 자비스의 시대가 오고있다..

참고자료
- https://imjaden.tistory.com/78
- https://reviewinsight.blog/2026/02/02/%EB%AA%B0%ED%8A%B8%EB%B4%87-moltbot-%EC%82%AC%EC%9A%A9-%EB%B0%A9%EB%B2%95-%EB%B0%8F-%EB%B9%84%EC%9A%A9-%EC%A4%91%EC%9A%94-%EC%9D%B4%EC%8A%88-%EC%A0%90%EA%B2%80-ft-%ED%81%B4%EB%A1%9C%EB%93%9C/

저작자표시 (새창열림)

'IT > AI' 카테고리의 다른 글

Onnxruntime-DirectML 정확도 유지하며 추론 성능 개선 시도 (2)	2026.03.04
onnxruntime-directml 사용하게 되는 경우 (1)	2026.02.26
CALM(Continuous Autoregressive Language Models) 논문 리뷰 (2)	2025.11.27
D-Fine 모델 학습 중 (6)	2025.02.20
Ultralytics + MLflow 사용 시 실험 분리되는 문제 (5)	2024.12.31

'IT/AI' Related Articles

b__ono__ng

AgentDoG: LLM Guard 본문

AgentDoG: LLM Guard

'IT > AI' 카테고리의 다른 글

티스토리툴바

bonong