Agentes de aprendizaje
Los agentes de aprendizaje se adaptan con datos, resultados y bucles de feedback.
Este tipo mejora con el tiempo en lugar de quedarse fijo tras el despliegue.
Cómo funciona (arquitectura)
- Realizar acción.
- Observar resultado.
- Recibir señal de feedback (explícita o implícita).
- Actualizar política/modelo.
- Repetir de forma continua.
Señales de feedback (ejemplos)
- Valoraciones de usuarios (pulgar arriba/abajo)
- Tasa de conversión o de finalización
- Tiempo ahorrado frente a línea base manual
- Informes de error y correcciones humanas
Mejores casos de uso
- Entornos dinámicos
- Comportamiento de usuario en evolución
- Optimización a largo plazo
- Personalización a escala
- Mejora continua de calidad
Compromisos
- Hace falta feedback de calidad
- Puede derivar si las señales de recompensa son malas
- Gobierno y auditoría más difíciles
Ejemplos en empresas y servicios
- Bucles de recomendación de Netflix / YouTube / Spotify — el feedback de comportamiento actualiza políticas de ranking.
- Plataformas publicitarias (Google, Meta) — aprendizaje continuo optimiza resultados de campañas.
- Copilotos IA en productos empresariales — el feedback mejora cadenas de prompts, enrutado y sugerencias.
- Stacks de desarrolladores OpenAI y Anthropic — equipos suelen construir bucles de aprendizaje alrededor del uso de la API (datos de evaluación + reentrenamiento/fine-tuning/actualizaciones de enrutado).
Notas de coste aproximadas:
- Planes de consumidor (para experimentar): clase de unos 20 USD/mes (por ejemplo ChatGPT Plus / niveles Pro de Claude).
- El coste de API en producción varía por modelo y volumen; rangos habituales en 2026:
- Niveles estándar OpenAI: unos 0,20–2,50 USD entrada y 1,25–15 USD salida por 1M de tokens.
- Niveles habituales Anthropic: unos 1–3 USD entrada y 5–15 USD salida por 1M de tokens.
Patrones de aprendizaje
- Aprendizaje en línea: actualizar con frecuencia con datos frescos.
- Aprendizaje por lotes: reentrenar según calendario (diario/semanal/mensual).
- Humano en el bucle: expertos validan casos inciertos.
Riesgos y controles
- Riesgo de deriva: la calidad empeora al cambiar el comportamiento del usuario.
- Refuerzo de sesgos: feedback de mala calidad amplifica patrones malos.
- «Reward hacking»: el agente optimiza la métrica, no el resultado de negocio.
Controles:
- Mantén conjuntos de evaluación holdout.
- Monitoriza calidad por segmento, no solo la media global.
- Añade rollback al modelo/política anterior.
- Mantén puertas de aprobación para cambios grandes de modelo.