A pesar de que todo internet está expectante por ver a Elon Musk y Mark Zuckerberg resolver sus diferencias en una jaula, hay un combate quizás incluso más trascendente. La universidad de Berkeley, California, ha creado una manera de comparar los diferentes chatbots: ChatGPT, Google Bard y Bing Chat. Un verdadero duelo de titanes contemporáneo.
El combate más esperado
A pesar de que todo internet está expectante por ver a Elon Musk y Mark Zuckerberg resolver sus diferencias en una jaula, hay un combate quizás incluso más trascendente. La universidad de Berkeley, California, ha creado una manera de comparar los diferentes chatbots: ChatGPT, Google Bard y Bing Chat. Un verdadero duelo de titanes contemporáneo.
Desde que en noviembre la irrupción de ChatGPT comenzase una revolución en el mundo de los chatbots y la inteligencia artificial, otras alternativas han entrado en el mercado. Por supuesto, los gigantes tecnológicos no han querido quedarse atrás y rápidamente están desarrollando sus propios sistemas. Los modelos de lenguaje varían en precio, interfaz, información y otras características básicas, lo cual genera un debate entre cual es el mejor. Es a raíz de esto que surge el Chatbot Arena entre la comunidad de profesores y estudiantes de Berkeley.
Mediante “combates” de uno contra uno, esta página permite comparar los distintos chatbots de manera directa, lo cual resulta muy útil e interesante. Al introducir un prompt, el usuario puede comparar la respuesta que ofrece cada chatbot y elegir la que más le guste. Sin embargo, la página no muestra de qué chatbot proviene cada respuesta, para preservar la imparcialidad a la hora de elegir la mejor respuesta. Después de tomar la decisión se muestra qué chatbot generó ese texto y la respuesta queda registrada en el sistema, contribuyendo al ranking global de chatbots. Mediante un sistema de Elo, igual que en el ajedrez, el ranking determina cuál es el chatbot que ha obtenido mejores resultados. Es decir, el chatbot que tenga una media más alta de victorias ocupará el primer puesto.
El ranking
Mediante estos enfrentamientos, se crea un ranking a tiempo real de entre los más de 20 chatbots disponibles en esta web. Para aclarar cualquier duda, GPT-4 es el chatbot que lidera la clasificación con una tasa de victoria del 85%. Este software es el que ha creado Open AI y que está detrás de ChatGPT, pero también de Bing Chat. No es casualidad que otros rankings también consideren estos chatbots como los más completos. El segundo puesto es para Claude, el chatbot de Anthropic que todavía no está disponible para el público. En el puesto número 8 es donde encontramos palm-2, el sistema de lenguaje detrás de Google Bard. Es interesante comprobar que se encuentra todavía en el medio de la clasificación, lejos de estar entre los mejores.
En el caso de Claude, que ya tiene abierta la lista de inscripción para su lanzamiento oficial, los resultados son prometedores. La herramienta de Berkeley puede que les permita lograr más registros y afianzar su posición entre los mejores chatbots, algo muy positivo sin duda antes de volverse público. Por otra parte, el rendimiento del sistema de Google Barde indica que todavía necesitan más desarrollo y mejoras para poder competir al más alto nivel en este sector.
La aplicación permite también la posibilidad de seleccionar que chatbots quieres poner a prueba en un duelo. De esta manera es posible ver en la práctica el rendimiento de cada chatbot. Según más respuestas se introducen en la base de datos de la página y más combates se llevan a cabo, los resultados serán cada vez más estadísticamente significativos y precisos. En cualquier caso, para poder tomar una idea general del rendimiento de los chatbots del mercado, es desde luego una herramienta muy práctica. Será interesante ver si GPT-4 es capaz de aferrarse al liderazgo o nuevos sistemas serán capaces de hacer tambalear su reinado.