¿Cuál es la mejor IA?

By
3 Minutes Read

Con empresas como OpenAI, Google y Meta lanzando productos de inteligencia artificial cada vez más sofisticados, las clasificaciones colaborativas han surgido como una forma popular (y prácticamente la única práctica) de determinar qué herramienta funciona mejor, y Chatbot Arena de LMSYS se ha convertido posiblemente en el indicador en tiempo real más influyente.

Hechos clave

Si bien la mayoría de las organizaciones optan por medir sus modelos de IA frente a un conjunto de puntos de referencia de capacidad general que cubren tareas como resolver problemas de matemáticas, desafíos de programación o responder preguntas de opción múltiple en una variedad de disciplinas de nivel universitario, no existe un punto de referencia de la industria o una práctica estándar para evaluar modelos de lenguaje grandes (LLM) como GPT-4o de OpenAI, Llama 3 de Meta, Gemini de Google y Claude de Anthropic.

Incluso pequeñas diferencias en factores como conjuntos de datos, indicaciones y formato pueden tener un gran impacto en el rendimiento de un modelo, y cuando las empresas eligen sus propios criterios de evaluación, puede resultar difícil comparar de manera justa los LLM, dijo a Forbes Jesse Dodge, científico senior del Instituto Allen de IA en Seattle.

La dificultad de comparar LLM se magnifica considerando lo cerca que están los modelos líderes de obtener puntajes en muchos puntos de referencia comúnmente utilizados, y algunas compañías y ejecutivos de tecnología afirman haber ganado sobre sus rivales con diferencias tan estrechas como 0,1%, tan estrechas que probablemente pasarían desapercibidas para los usuarios comunes.

Han surgido tableros de clasificación creados por la comunidad que implementan el conocimiento humano, y en los últimos años su popularidad se ha disparado al ritmo del auge constante de nuevas herramientas de IA como ChatGPT, Claude, Gemini y Mistral.

El Chatbot Arena, un proyecto de código abierto creado por el grupo de investigación LMSYS y el Sky Computing Lab de la Universidad de California en Berkeley, ha demostrado ser particularmente popular y ha creado tablas de clasificación de IA pidiendo a los visitantes que comparen las respuestas de dos modelos de IA anónimos y voten cuál es el mejor.

Sus marcadores clasifican más de 100 modelos de IA basándose en casi 1,5 millones de votos humanos hasta el momento, cubriendo una variedad de categorías que incluyen consultas largas, codificación, seguimiento de instrucciones, matemáticas, “indicaciones difíciles” y una variedad de idiomas, incluidos inglés, francés, chino, japonés y coreano.

¿Cuál es el mejor modelo de IA en Chatbot Arena?

Los cinco mejores modelos de IA en la clasificación general de Chatbot Arena son:

  1. GPT-4o
  2. Soneto Claude 3.5
  3. Géminis avanzado
  4. Géminis 1.5 Pro
  5. Turbo GPT-4

¿Qué debe tener en cuenta?

Descubrir cómo evaluar los modelos de IA será cada vez más importante a medida que se implementen y adopten más herramientas de IA en la sociedad. Si bien los puntos de referencia son importantes, Vanessa Parli, directora de investigación del Instituto de IA centrada en el ser humano de la Universidad de Stanford, dijo a Forbes que también son importantes como “objetivos que los investigadores deben alcanzar al desarrollar modelos”.

Es importante recordar que “no todas las capacidades humanas son cuantificables” de una manera que podamos medir con precisión, pero que, no obstante, es deseable tenerlas en los modelos de IA, dijo Parli. También existe una clara necesidad de puntos de referencia para evaluar rasgos como “sesgo, toxicidad, veracidad y otros aspectos de responsabilidad”, especialmente para las organizaciones que tratan con información confidencial, como las empresas de atención médica, dijo Parli.

Cita crucial

“Los puntos de referencia no son perfectos, pero por ahora ese es el mecanismo principal que tenemos para evaluar los modelos”, dijo Parli a Forbes, advirtiendo que “los investigadores pueden manipular el sistema con cierta facilidad” hoy en día, ya que los modelos de IA saturan rápidamente los puntos de referencia. “Creo que debemos ser creativos en el desarrollo de nuevas formas de evaluar los modelos de IA”, dijo Parli. 

Lo que no sabemos

Medir la inteligencia es complicado cuando no sabemos qué es lo que se supone que debemos medir. No existe una definición universalmente aceptada de la inteligencia en los seres humanos, y mucho menos una forma de medirla, y la posibilidad, la naturaleza y el alcance de la inteligencia animal han dividido a los científicos durante siglos. Si bien los parámetros de referencia de la IA se han centrado normalmente en la capacidad de realizar una tarea en particular, en el futuro cercano se requerirán evaluaciones más generales a medida que los investigadores avancen hacia su objetivo de crear una inteligencia artificial general (IAG). La IAG es capaz de superar y posiblemente igualar a los humanos en un amplio conjunto de dominios en lugar de solo en una tarea, como caminar, mover cajas, identificar tumores en exploraciones y jugar al ajedrez.

¿Qué tan bueno es Chatbot Arena para evaluar modelos de IA?

“Las clasificaciones que ofrece Chatbot Arena son algo en lo que confío más que en la mayoría de las demás clasificaciones”, dijo Dodge a Forbes, “porque utiliza un ser humano real para decir si prefieren una generación sobre otra”. Parli sugirió que evaluaciones como Chatbot Arena podrían “evaluar implícitamente los factores” que queremos en nuestra IA, pero son menos cuantificables que algo como la capacidad de codificación. Pero enfatizó que algo como Chatbot Arena no debería ser el único método de evaluación utilizado, diciendo que hay “muchos factores que deberían ser importantes para las organizaciones al evaluar modelos” y “no los cubre todos”.

 

FUENTE: Hart, Robert. ''¿Cuál es la mejor IA? Chatbot Arena clasifica los modelos en base a millones de votos humanos'' Forbes.pe. 19/07/2024. (https://forbes.pe/tecnologia/ia/2024-07-19/cual-es-la-mejor-ia-chatbot-arena-clasifica-los-modelos-en-base-a-millones-de-votos-humanos#google_vignette).