zoff.tech

28 may 2026

Lo que cuesta poner un agente en la línea telefónica

La demo del agente de voz es una tarde. El sistema que contesta el teléfono de un plomero a las 2 a.m. sin perder el trabajo es la labor real. Aquí está la brecha.

Un plomero pierde una llamada. Quien llama tiene una cañería rota y agua en el piso, así que no deja un mensaje de voz: llama al siguiente plomero de la lista, que sí contesta. Esa llamada perdida era un trabajo de unos cuantos miles de dólares, perdido en el tiempo que tomó ir al buzón de voz. Multiplica por cada llamada fuera de horario, cada llamada durante un trabajo en que ambas manos están ocupadas, cada hora de almuerzo. Para cierto tipo de negocio —plomeros, climatización, estudios jurídicos, clínicas dentales— el teléfono es el negocio, y cada timbre sin contestar es ingreso caminando hacia un competidor.

Por eso un agente de voz con IA es un producto genuinamente fuerte. El pitch se escribe solo: una recepcionista que nunca duerme, nunca se enferma, nunca renuncia, por menos del costo del salario que reemplaza. La matemática es obvia para el dueño en el momento en que la ve.

Y la demo es, honestamente, una tarde. Bland.ai o Vapi, una plantilla, un escenario de agendamiento. Grábala manejando una llamada limpia y tienes algo que mostrar. La demo no es la parte difícil.

El sistema es la parte difícil.

Dos columnas que contrastan la demo y el sistema para un agente de voz. La demo, una tarde, corre el camino feliz: quien llama coopera, una sala en silencio, una sola petición clara, un calendario abierto. El sistema, las semanas que la demo no muestra, maneja todo lo que oculta: un presupuesto de latencia de cientos de milisegundos, interrupciones y barge-in, acentos y ruido y una mala línea, el calendario real en vivo, un traspaso limpio a un humano, y un límite sobre las acciones irreversibles — porque una llamada que falla en silencio equivale a una llamada perdida.

Lo que la demo oculta

La demo corre por el camino feliz: quien llama coopera, la sala está en silencio, hay una sola petición clara, un calendario con espacios libres. Las llamadas reales no se parecen en nada a eso, y cada brecha entre las dos es donde el trabajo realmente se hace.

La latencia es el producto. En una pantalla, medio segundo de retraso es invisible. En un teléfono, es la diferencia entre una conversación y una toma de rehenes. Si el agente se demora demasiado antes de responder, quien llama habla por encima, los turnos se rompen, y un agente que sonaba humano se vuelve obviamente un robot. Todo el pipeline —voz a texto, el modelo, texto a voz— tiene un presupuesto de latencia medido en cientos de milisegundos, y mantenerse dentro de él bajo carga es ingeniería, no configuración.

Las interrupciones. La gente interrumpe. Cambia de opinión a media frase. Te da la hora de la cita antes de que preguntes el nombre, luego el nombre con una ortografía que tienes que confirmar, luego tose y pierdes una palabra. Manejar el barge-in y la información parcial con gracia es la mayor parte de lo que hace que un agente de voz se sienta como una recepcionista en lugar de un árbol telefónico.

Los acentos, el ruido, la mala línea. La demo se grabó en una sala silenciosa. Quien llama de verdad está en una camioneta en la autopista, con una conexión celular marginal, con un acento que el modelo de voz maneja peor que el tuyo. El error de transcripción no es un caso límite aquí. Es el caso mediano, y el sistema tiene que confirmar los datos críticos —el número de teléfono, la dirección, la hora— porque equivocarse no produce una respuesta incorrecta, produce una ausencia en la cita.

Dónde vive la ingeniería real

Agendar es el verbo fácil. Las partes difíciles son las que tocan el resto del negocio.

El agente necesita realmente leer y escribir el calendario real, con la disponibilidad real, incluyendo el trabajo que un humano acaba de agregar hace cinco minutos. Necesita saber qué peticiones puede manejar y cuáles debe pasar a una persona —y el traspaso tiene que ser limpio, no una llamada caída—. Necesita un comportamiento definido para la llamada que no puede completar: tomar un mensaje, escalar, devolver la llamada, pero nunca fallar en silencio, porque una llamada que falla en silencio es idéntica a una perdida desde el lado del cliente.

Y necesita el límite que todo agente que toma acciones en el mundo real necesita. Un agente de voz que puede agendar también puede duplicar reservas, cancelar, o cotizar un precio que no debería haber cotizado. Las acciones irreversibles necesitan un checkpoint o una restricción, igual que cualquier agente que ponemos cerca de producción. Hemos escrito sobre trazar ese límite de permisos y mantener un humano en las acciones irreversibles — un agente de voz es exactamente ese problema con un micrófono pegado.

Por qué vale la pena construirlo igual

Nada de esto es un argumento contra los agentes de voz. Es un argumento para tomarlos en serio. La oportunidad es real precisamente porque la brecha entre la demo y el sistema es ancha —cualquiera puede grabar la demo, por eso el espacio está lleno de palabras, pero los negocios que necesitan esto no pueden notar la diferencia hasta que el agente está en vivo y o aguanta a las 2 a.m. o deja caer la llamada de la cañería rota.

La voz tampoco es un formato pasajero. Hablar es la interfaz más antigua que existe, y para un contratista con las manos llenas o un cliente en pánico, es la correcta. Los equipos que aprenden a construir agentes de voz que sobreviven a llamadas reales construyen sobre una superficie que importará por mucho tiempo. Los que entregan la demo de una tarde construyen una cosa que agenda la llamada de la demo y pierde la siguiente.

Cierre

El agente de voz es uno de los productos de IA más fuertes sobre la mesa, y la demo de verdad toma una tarde.

Todo lo que lo hace reemplazar de verdad a una recepcionista —el presupuesto de latencia, las interrupciones, la mala línea, el calendario real, el traspaso limpio, el límite sobre lo que tiene permitido hacer— toma las semanas que la demo no muestra. Vende la demo y agendas una llamada. Construye el sistema y contestas el teléfono.