Capítulo 01
Por qué las facturas de IA sorprenden a todos
Existe un patrón que se repite en los equipos de ingeniería con una consistencia notable. Un equipo construye un prototipo, lo ejecuta en algunas pruebas, calcula un coste aproximado por consulta a partir de la página de precios de la API y llega a un número que parece manejable. Luego van a producción. Tres meses después, alguien mira la factura de la nube y pregunta qué pasó.
Lo que pasó es que el cálculo simple de coste por consulta omitió casi todo lo que importa. Tuvo en cuenta los tokens en una consulta típica del usuario y una respuesta típica del modelo. No tuvo en cuenta el prompt del sistema que se antepone a cada solicitud. No tuvo en cuenta el contexto que se acumula en conversaciones de múltiples turnos. No tuvo en cuenta la lógica de reintento que se activa cuando la API devuelve un error. No tuvo en cuenta las solicitudes de registro interno, las ejecuciones de evaluación, los experimentos de desarrolladores en el entorno compartido, o las consultas de monitorización. Todo esto cuesta tokens. Todo esto suma.
Lo otro que sorprende a los equipos es la no linealidad del crecimiento. Si tu base de usuarios se duplica, tus costes de IA no simplemente se duplican. Los usuarios más activos tienden a tener conversaciones más largas, lo que significa más tokens de contexto por solicitud. Los productos exitosos crecen hacia casos de uso que no estaban en el diseño original, que tienden a requerir modelos más grandes o prompts más largos. Los costes crecen más rápido que los usuarios, que es lo contrario de las economías de escala que proporciona la mayoría de la infraestructura de software.
Entender los costes de IA requiere un modelo mental fundamentalmente diferente al de entender los costes de computación o almacenamiento. La unidad de coste es un token, no una CPU-hora o un gigabyte, y los tokens se acumulan de maneras que no son intuitivas hasta que lo has visto ocurrir.
