Pablo Torrecillas – Director de División de GfK España
Cristina Martínez – Directora de IA y Ciencia de Datos de GfK España
El punto de partida
«10.000 consumidores sin encuestar a nadie». «Reducción de costes del 80%». «Olvídate de las encuestas tradicionales». Estas promesas se repiten en conferencias, emails comerciales y presentaciones de ventas con una frecuencia inquietante. Y plantean una pregunta necesaria: ¿cuánto hay de real en todo esto?
La respuesta resulta más matizada de lo que las promesas comerciales sugieren. Los datos sintéticos representan una herramienta genuinamente útil para casos de uso específicos, pero están lejos de ser la panacea universal que algunos proveedores venden. El valor real aparece cuando se entiende qué son exactamente, cuándo funcionan y, quizás más importante, dónde termina su utilidad.
La confusión empieza con la propia terminología. Tomemos como ejemplo un caso muy común: predecir cómo funcionará un anuncio sin la necesidad de encuestas, algo que cada vez más se presenta bajo el elástico concepto de ‘muestras sintéticas’. La realidad es que no hay tal muestra, no se genera una muestra de consumidores virtuales. Por el contrario, se trata de un modelo predictivo que pronostica directamente los KPIs: “este anuncio obtendrá un 34% de recall, un 28% de persuasión y un 15% de intención de compra”. Hacerlo así es más eficiente y preciso que generar toda una muestra y después agregarla. Llamar a esto muestra sintética es abusar del término, quizás para que suene más atractivo y novedoso.
Además, para que estas predicciones sean fiables deben basarse en modelos entrenados con miles de anuncios testados previamente. Y cuando decimos miles, hablamos de miles: de distintas categorías de producto, de distintos países, con toda la diversidad necesaria para que los patrones sean sólidos, no funciona con unas pocas decenas de casos. Por eso, cuando un proveedor ofrece este tipo de solución, pero no demuestra contar con esa amplitud y solidez en sus datos de entrenamiento, debería saltar la alarma.
Por supuesto, sí existen otros casos donde se generan conjuntos completos de datos sintéticos. Uno de ellos es la fusión de fuentes de datos. Las empresas suelen tener información atrapada en silos: un estudio de usos y actitudes aquí, tracking de marca allá, datos de navegación web en otro lugar. Bases diferentes, personas diferentes, imposibles de cruzar directamente. Los datos sintéticos permiten crear individuos virtuales que integran información de múltiples fuentes, posibilitando análisis antes imposibles.
Otro ejemplo de uso genuino de datos sintéticos en investigación de mercados es la simulación basada en agentes. Para nosotros, el caso de uso más interesante en este ámbito.
Imaginemos una empresa de gran consumo que necesita entender qué efecto real tuvo cada campaña que ejecutó el pasado año. Dispone de datos de ventas, inversión por canal y tracking de marca, pero no logra conectar los puntos. ¿Cuántas ventas vinieron de aquella campaña de verano? ¿Valió la pena duplicar la inversión en digital? Un modelo basado en agentes permitiría no solo responder a esas preguntas retrospectivamente, sino también simular escenarios prospectivos. «¿Y si en lugar de lanzar en septiembre lanzáramos en junio?». El modelo proporcionaría estimaciones basadas en cómo ha funcionado el mercado históricamente. Se trata, en definitiva, de crear un tablero de juego sobre el que testar cualquier hipótesis de negocio.
Aquí sí se genera una población sintética que replica la dinámica de un mercado real. Ahora bien, la construcción de estos modelos requiere competencia técnica y experiencia considerables, tiempo de desarrollo significativo y, por supuesto, datos históricos de calidad de la categoría específica.
También es importante aclarar, para desmontar otro mito, que estos casos presentados no utilizan IA generativa, sino IA predictiva basada en algoritmos de aprendizaje automático que identifican patrones en datos históricos. La IA generativa entra en juego en un territorio completamente diferente: las personas sintéticas conversacionales.
Hablamos de chatbots que simulan ser miembros de un target específico. Estos individuos virtuales han sido alimentados con datos robustos de estudios previos cualitativos y cuantitativos: segmentaciones, estudios de hábitos y actitudes, percepciones de marca, etc. Un equipo puede conversar con ‘María, 35 años, exploradora digital’ sobre sus hábitos, motivaciones y percepciones de marca.
La utilidad es extensa y genuina. Permiten explorar hipótesis de manera ágil antes de comprometer mayor presupuesto en investigación. Funcionan como herramienta de formación, ayudando a equipos comerciales o de producto a interiorizar las características de sus segmentos objetivo. Y quizás lo más valioso: facilitan que creativos y estrategas desarrollen empatía real con el consumidor, pasando de descripciones abstractas en un Power Point a conversaciones que hacen tangible quién es ese target y cómo piensa. Es satisfacer el viejo objetivo de ‘dar vida a los segmentos’.
La reflexión
Si algo tienen en común todos estos casos de uso es que requieren una cantidad significativa de datos previos de alta calidad. Ninguno crea información de la nada. Los datos sintéticos sirven para amplificar el alcance y el valor de las investigaciones ya realizadas, no para sustituirlas. Esta distinción es fundamental y a menudo se diluye en las presentaciones comerciales que prometen «eliminar la necesidad de encuestas» o «crear consumidores sin investigar a nadie».
Los datos sintéticos no sustituyen muestras reales para inferencia estadística. No reducen el error muestral, que solo disminuye con más datos reales. No son baratos cuando se hacen correctamente. Y no eliminan la necesidad de seguir investigando con consumidores reales. Estas limitaciones no son defectos ocasionales; son características inherentes de la tecnología.
Lo que sí pueden hacer, cuando están bien construidos y correctamente aplicados, es amplificar el valor de la investigación, permiten simular escenarios antes de comprometer presupuesto y conectan información que antes existía en silos separados.
Ante cualquier propuesta de datos sintéticos, tres preguntas resultan reveladoras. Primera: ¿qué datos reales alimentan el modelo y en qué cantidad? Una respuesta vaga es mala señal. Segunda: ¿qué validaciones se han realizado para comprobar que funciona? La ausencia de respuesta clara es peor señal. Tercera, la más importante: ¿qué NO puede hacer esta solución? Si la respuesta es ‘puede hacer todo’, la conversación debería terminar ahí.
La IA generativa domina actualmente todas las conversaciones de negocio y los datos sintéticos surfean esa ola de atención. El resultado es un mercado donde proveedores serios que hacen trabajo riguroso coexisten con oportunistas vendiendo fantasías. La responsabilidad de distinguir unos de otros recae en los profesionales que evalúan estas soluciones.
Los datos sintéticos no son magia. Son matemáticas sofisticadas aplicadas con rigor. Como toda herramienta compleja, funcionan extraordinariamente bien en las manos correctas, para los problemas correctos y con las expectativas adecuadas. El desafío profesional está en desarrollar el criterio para saber cuándo se cumplen esas tres condiciones.
Debemos mantenernos saludablemente escépticos ante promesas que suenan demasiado buenas para ser verdad… porque probablemente no lo sean.

