ARENA
Infraestructura de agent testing antes del despliegue Agent testing infrastructure before deployment

Rompe tus agentes de IA
antes que tus clientes.

Break your AI Agents
before your customers do.

Arena somete tu agente a conversaciones sintéticas con usuarios difíciles. Detecta alucinaciones, fugas de margen y fallos de protocolo antes del despliegue. ARENA Score de 0 a 100.

Arena runs your agent against synthetic hostile users. Detects hallucinations, margin leaks and protocol failures before deployment. Get an ARENA Score from 0 to 100.

95 → 100 · Cliente Indeciso

"El fallo que detectó Arena — OVER_EXPLAINING bajo presión — es exactamente el que más cuesta ver desde dentro. Cuando tú pruebas tu propio agente, sabes lo que quiere decir. El usuario real no. La corrección tardó 2 minutos. Sin Arena, habría llegado al usuario real."

"The failure Arena detected — OVER_EXPLAINING under pressure — is exactly the one hardest to see from the inside. The fix took 2 minutes. Without Arena, it would have reached a real user."

Javier Muñoz Founder & Technical Architect · Astrynn Holdings
82 → 88 · Cliente Hostil

"Al forzar la brevedad, el bot deja de 'intentar convencer' y empieza a 'guiar' mejor al usuario. Arena me está ahorrando horas de pruebas manuales. Para cualquier agencia que gestione más de dos agentes, se paga solo."

"By forcing brevity, the bot stops 'trying to convince' and starts 'guiding' the user better. Arena is saving me hours of manual testing. For any agency managing more than two agents, it pays for itself."

Alejandro Batlle Especialista en agentes de ventas IA AI Sales Agent Specialist
01

Define tu agente

Define your agent

Pega el system prompt de tu agente. Arena extrae automáticamente sus reglas de negocio.

Paste your agent's system prompt. Arena automatically extracts its business rules.

02

Arena lanza el combate

Arena runs the fight

Clientes sintéticos con personalidad real presionan tu agente. Hostiles, indecisos, expertos, comparadores.

Synthetic clients with real personality pressure your agent. Hostile, indecisive, expert, comparative.

03

Reporte accionable

Actionable report

ARENA Score 0–100, fallos por severidad, asalto exacto y corrección directa al system prompt.

ARENA Score 0–100, failures by severity, exact round and direct system prompt fix.

💸

Fuga de Margen

Margin Leak

El agente ofrece descuentos por encima del límite autorizado bajo presión de negociación.

The agent offers discounts above the authorized limit under negotiation pressure.

> DETECTED: MARGIN_LEAK (-25pts)
> Asalto 3: ofreció 20% (máx: 5%)
🧠

Alucinación de Política

Policy Hallucination

El agente inventa plazos, garantías o políticas que no están en sus reglas. Detectado por juez LLM.

The agent invents deadlines, warranties or policies not in its rules. Detected by LLM judge.

> DETECTED: POLICY_HALLUCINATION (-10pts)
> "devolución gratuita en 60 días" — no autorizado
🔄

Contradicción entre asaltos

Context Drift

Nuevo New

El agente contradice en el asalto 8 lo que afirmó en el asalto 2. Detectado por juez LLM comparando turnos.

The agent contradicts in round 8 what it stated in round 2. Detected by LLM judge comparing turns.

> DETECTED: CONTEXT_DRIFT (-15pts)
> R2: "sin devoluciones" → R8: "puede devolver"
🎯

Deriva estratégica

Strategic Drift

Nuevo New

El agente toma decisiones contra su objetivo: recomienda la competencia, desanima la compra o deriva leads fuera.

The agent acts against its objective: recommends competitors, discourages purchase or diverts leads.

> DETECTED: STRATEGIC_DRIFT (-10pts)
> "si encuentras más barato, cómpralo ahí"
📊

ARENA Score

ARENA Score

Puntuación objetiva 0–100 con grado A/B/C/D/F. Lanza hasta 3 perfiles en paralelo y compara scores en tabs.

Objective 0–100 score with A/B/C/D/F grade. Run up to 3 profiles in parallel and compare scores in tabs.

> ARENA SCORE: 88/100 — B Bueno
> Hostil: 80 | Indeciso: 95 | Comparador: 90
100
A — Excelente
Aegis B2B
Agente de cualificación B2B
B2B qualification agent
95 → 100 tras 1 fix
88
B — Bueno
Agente de ventas híbrido
E-commerce / cierre de ventas
E-commerce / sales closing
82 → 88 con formato
80
B — Bueno
Ana — Novantin
Consultoría IA
AI consulting
OVER_EXPLAINING
62
C — Mejorable
Clara — Stylebox
E-commerce moda
Fashion e-commerce
POLICY_HALLUCINATION
🏗️

Agencias de automatización IA

AI automation agencies

Entrega agentes con un reporte de calidad incluido. Diferénciate de la competencia.

Deliver agents with a quality report included. Stand out from competitors.

👨‍💻

Developers independientes

Independent developers

Valida tu agente antes de lanzarlo. Sin sorpresas en producción.

Validate your agent before launch. No surprises in production.

🏢

Equipos de producto

Product teams

Testing sistemático antes de cada deploy. Comparativa de versiones en historial.

Systematic testing before every deploy. Version comparison in history.

Tu agente pasa las pruebas.
¿Pasa también la presión real?

Your agent passes your tests.
Does it pass real pressure?

Testea tu agente gratis. En menos de 60 segundos sabes exactamente dónde falla y cómo corregirlo.

Test your agent for free. In less than 60 seconds you know exactly where it fails and how to fix it.