Quizá estoy perdiendo todas las ventajas de uno por utilizar otro.
Los chatbots con inteligencia artificial (IA) están revolucionando la manera en que interactuamos en internet. Y es que ofrecen un gran abanico de ventajas: En primer lugar, están disponibles 24/7, listos para brindar atención al cliente o responder preguntas en cualquier momento. También son eficientes y tienen la capacidad de personalizar sus respuestas según las necesidades y preferencias de cada usuario, ofreciendo una experiencia más individualizada.
Sin embargo, también enfrentan desafíos por delante, principalmente en relación con los matices del lenguaje humano. Cosas como el sarcasmo o las expresiones informales siguen siendo un reto para estos programas. Y no está demás decir que existe un riesgo potencial de que perpetúen sesgos presentes en los datos con los que se entrenan, lo que podría derivar en respuestas discriminatorias.
Sabiendo eso, ahora la pregunta sobre “¿cuál es el mejor?” se repite constantemente. Sin embargo, la respuesta sigue siendo un enigma. Si bien, los usuarios suelen responder que usan un chatbot específico (ChatGPT, Copilot, Gemini, Claude o cualquier otro) porque les funciona bien, la duda sobre si existe una opción superior para su caso permanece.
La paradoja de los benchmarks
A pesar de la existencia de numerosos benchmarks que intentan evaluar el rendimiento de los modelos de IA, la brecha entre los resultados de estas pruebas y la experiencia real del usuario suele ser significativa. Lo que para unos es una respuesta satisfactoria puede no serlo para otros, y la variabilidad en las respuestas de los chatbots dificulta la comparación precisa.
Como bien lo señala The New York Times, las empresas que presentan nuevos modelos de IA suelen recurrir a afirmaciones subjetivas y difíciles de verificar, como “capacidades mejoradas”, sin especificar detalles concretos.
La falta de claridad sobre cuál es el mejor chatbot es un problema real para la industria. No existe información precisa sobre si Gemini escribe mejor código que ChatGPT o Copilot, si ChatGPT Plus vale la pena por la calidad de sus respuestas o qué modelo de generación de imágenes es superior para crear caras realistas.
El A.I. Index: un análisis revelador
El A.I. Index, un estudio realizado por el Instituto para la IA Centrada en Humanos de la Universidad de Stanford, destaca este problema en su segundo apartado sobre el rendimiento técnico de los modelos. Los investigadores señalan que, si bien la IA supera a los humanos en algunas tareas, no en todas, y que los modelos actuales han saturado las pruebas tradicionales como ImageNet, SQuAD o SuperGLUE.
En respuesta a esta situación, se están desarrollando pruebas más exigentes como SWE-bench para la generación de código, HEIM para la generación de imágenes, MMMU para el razonamiento general, MoCa para el razonamiento moral, AgentBench para el comportamiento de agentes de IA y HaluEval para analizar si los modelos “alucinan”.
La opinión del usuario: una métrica cada vez más relevante
Además de las pruebas sintéticas, la opinión de los usuarios está ganando cada vez más importancia. Sistemas como Chatbot Arena Leaderboard, que registran el “sentimiento público” sobre un chatbot, permiten a los usuarios votar por su favorito y brindan información valiosa sobre la percepción de la calidad de estos modelos.
El reciente lanzamiento de Claude 3 Opus, un modelo de Anthropic, ejemplifica esta tendencia. Si bien, en algunos escenarios “sintéticos” supera incluso a GPT-4 (hasta ahora la referencia), su éxito en Chatbot Arena Leaderboard (donde GPT-4 ha recuperado el trono) demuestra que la preferencia de los usuarios es un factor crucial.
En el mundo de los procesadores, los benchmarks suelen ofrecer una idea clara del rendimiento. Si bien las pruebas sintéticas no siempre coinciden exactamente con la experiencia final, sí brindan una referencia confiable. En el caso de los modelos de IA, la situación es más compleja y, por el momento, la respuesta a la pregunta “¿cuál es el mejor chatbot?” sigue siendo un misterio.