AIWORKX가 AI 에이전트의 신뢰성을 종합 진단하는 평가 솔루션 ‘AgentRigor(에이전트리거)’를 오는 4월 30일 정식 출시한다. AIWORKX의 품질 DNA를 기반으로 설계된 AgentRigor는 기존 콘텐츠 중심 평가의 한계를 넘어 서비스 관점의 컴플라이언스 평가로 패러다임을 전환한 것이 특징이다.

인공지능(AI) 데이터•솔루션 전문기업 AIWORKX(에이아이웍스, 대표 윤석원)가 AI 에이전트 신뢰성 평가 솔루션 ‘AgentRigor(에이전트리거)’를 정식 출시한다고 밝혔다. AgentRigor는 국내 AI 평가 솔루션 가운데 SW분야 KOLAS(한국인정기구)공인시험 기관이 설계부터 참여한 에이전트 평가 솔루션이다.
글로벌 AI 에이전트 시장은 2025년 76억 달러에서 2033년 1,830억 달러 규모로 성장할 전망이다 (Grand View Research, 2026-2033 CAGR 49.6%). 금융•의료•법률•물류 등 버티컬 AI 시장이 급팽창하면서, 산업별 고유 요구사항을 반영한 AI 신뢰성 검증 수요가 폭발적으로 증가하고 있다. 특히 한국 AI기본법 시행을 앞두고 금융•공공 분야에서 AI 컴플라이언스 검증 의무화 흐름이 가속되고 있어, 체계적인 에이전트 평가 인프라의 필요성이 어느 때보다 높아진 상황이다.
그러나 기존 AI 에이전트 평가 방식에는 몇 가지 분명한 한계가 있었다. 먼저, 범용 벤치마크 데이터셋에 의존하다 보니 실제 서비스 환경에서 요구되는 도메인별 시나리오를 충분히 반영하지 못하는 ‘검증 범위 불일치’ 문제가 있었다. 또한, 획일적인 평가 기준을 사용하면서 기업의 서비스 목표나 국가별 문화적 차이를 고려하지 못하는 ‘평가기준 불일치’의 한계도 존재했다. 여기에 더해, 입력과 출력만을 비교하는 방식으로는 사용자 정보나 기업 데이터 등 맥락 정보(Context)을 반영한 맞춤형 평가가 어렵다는 문제도 있었다. 결국 기존 평가 체계는 “이 답변에 문제가 있는가”를 단순히 걸러내는 수준에 머물렀으며, 비허용 정보 포함 여부를 판단하는 이진 분류에 집중되어 AI 에이전트가 실제로 어떻게 대응했는지, 즉 ‘대응 방식’ 자체를 평가하기에는 구조적인 한계를 가지고 있었다.
AgentRigor는 이러한 한계를 넘어, 서비스 관점에서 AI의 컴플라이언스 평가,산업별 에이전트의 대응방식 및 리스크 종합 평가,한국어 특화 평가 자산 데이터 활용한 정밀 평가 등이 가능하다.
실제로 AgentRigor는 “AI가 틀린 말을 했는가”를 검사하던 일반적인 콘텐츠(Contents) 평가에서 “이 서비스에서 AI가 올바르게 행동했는가”를 따지는 서비스 관점의 컴플라이언스(Compliance) 평가로 패러다임을 전환했다. 또한 기존 방식이 벤치마크•모더레이션 중심으로 비허용 정보 포함 여부를 이진 분류했다면, AgentRigor는통신•금융•의료등 여러 산업에서에이전트의 “대응 방식(Behavior)”과 “리스크(Risk)”를 서비스 맥락을 고려하여 종합 평가한다. 공개 데이터셋에만 의존하지 않고 AIWORKX가 자체 구축한 한국어 특화 평가 자산 데이터(Asset Library)를 활용해 도메인별 실서비스 환경을 반영한 정밀 평가가 가능하다.
AgentRigor의 핵심 기능은 세 가지다.
이 밖에도 △시나리오 기반 도메인 특화 테스트 데이터 자동 생성 △자동 메트릭 평가와 인적 평가(Human Evaluation) 통합 관리 △고객별 커스텀 메트릭 구성(G-Eval) △요약•비교 화면 기반 평가 결과 시각화 및 대시보드 △케이스 단위 상세 분석 △리포트자동 생성 등 다양한 기능을 제공한다.
이러한 AgentRigor는 최근 국내 대형 IT 서비스 기업의 AI 에이전트 검증을 자동화하는 프로젝트를 수행한 데 이어, 밤빗(BAMBIT)이 출시한 새록(영유아 스킨케어 안전, 개인화 추천 플랫폼) 베타 테스트에서도 고객이 제시한 화장품 도메인 1,440건의 케이스를 단기간에 검증하며 안정성을 확인했다.
기업 고객은 AgentRigor를 통해 서비스 배포 전 사전 테스트로 AI Agent 도입 리스크를 점검하고, 자동화 파이프라인으로 수동 검증 대비 준비 시간을 절감하며 안정성과 효율성을 기대할 수 있다. 멀티벤더 환경에서 다중 AI 모델의 정량적 비교도 가능하다. 온프레미스와 클라우드 환경 모두 지원해 금융•공공 등 보안 민감 산업에서도 도입할 수 있다.
한편, AgentRigor는 오는 5월 6일부터 8일까지 서울 코엑스에서 열리는 ‘제9회 AI Expo Korea 2026’에서 라이브 데모로 공개된다. 방문객이 직접 체험하는 실시간 AgentRigor데모 세션이마련될 예정이다.
한편, AIWORKX(에이아이웍스)는 AgentRigor의 성공적 출시를 발판으로 2026년 하반기까지 다중턴(Multi-turn) 대화 검증, 에이전트 워크플로우 연동 검증, MCP 호환 등 기능을 확장하고, 도메인별 시험 및 인증 프로그램을 기획해 AI 에이전트 신뢰성 평가의 글로벌 표준화를 선도해 나갈 계획이다.
조지영 기자 : miyoujj@noteforum.co.kr
[디지털 모바일 IT 전문 정보 - 노트포럼]
Copyrights ⓒ 노트포럼, 무단전재 및 재배포 금지