El nuevo GPT-4, lo bueno y lo malo

Pareciera que el sistema respondió de manera correcta. Pero la respuesta no tuvo en cuenta la altura de la puerta, lo que también podría impedir el paso de un tanque o un auto.

El director general de OpenAI, Sam Altman, dijo que el nuevo bot podía razonar “un poco”. Pero su capacidad de razonamiento colapsa en muchas situaciones. La versión anterior de ChatGPT manejó la pregunta un poco mejor porque reconoció que la altura y la anchura son aspectos importantes.

Es muy bueno con las pruebas estandarizadas

OpenAI afirma que el nuevo sistema podría calificar entre el 10 por ciento de los mejores estudiantes en el examen para ejercer la abogacía, que otorga la facultad de ejercer la abogacía en 41 estados y territorios. También puede obtener una puntuación de 1300 (sobre 1600) en el examen estandarizado de aptitud académica (SAT, por su sigla en inglés) y un cinco (sobre cinco) en los exámenes del programa de ubicación avanzada en las materias universitarias de biología, cálculo, macroeconomía, psicología, estadística e historia, según las pruebas de la empresa.

Las versiones previas de la tecnología no superaron el examen para ejercer la abogacía y no obtuvieron puntuaciones tan altas en la mayoría de los exámenes de ubicación avanzada.

Una tarde reciente, para demostrar su capacidad, Brockman le hizo al nuevo bot una extensa pregunta de examen del colegio de abogados sobre un hombre que tiene un negocio de reparación de camiones diésel.

La respuesta fue correcta, pero estuvo repleta de jerga jurídica. Brockman le pidió al bot que explicara la respuesta en inglés sencillo para que cualquier persona pudiera entenderla. También lo hizo.

No es bueno para hablar del futuro

Aunque el nuevo bot parecía razonar sobre cosas que ya habían ocurrido, era menos hábil cuando se le pedía que formulara hipótesis sobre el futuro. Parecía basarse en lo que otros habían dicho en vez de crear nuevas conjeturas.

Cuando Etzioni le preguntó al nuevo bot: “¿Cuáles son los problemas importantes que hay que resolver en la investigación de PNL durante la próxima década?” —refiriéndose al tipo de investigación sobre “procesamiento del lenguaje natural” que impulsa el desarrollo de sistemas como ChatGPT— no pudo formular ideas totalmente nuevas.

Y todavía sigue alucinando

El nuevo bot sigue inventando cosas. Este problema, denominado “alucinación”, acecha a los principales chatbots. Como los sistemas no saben qué es verdad y qué no, pueden generar textos completamente falsos.

Cuando se le pidió algunas direcciones de sitios web que describieran las últimas investigaciones sobre el cáncer, en varias ocasiones proporcionó direcciones de internet que no existían.

Cade Metz es reportero de tecnología y autor del libro Genius Makers: The Mavericks Who Brought A.I. to Google, Facebook, and The World. Cubre inteligencia artificial, coches autónomos, robótica, realidad virtual y otras áreas emergentes. @cademetz

Keith Collins es un reportero y editor gráfico. Se especializa en narración visual y cubre una variedad de temas, con un enfoque en política y tecnología. Tiene una maestría de la Escuela de Periodismo de la Universidad de Columbia. @collinskeith

Enlace a la fuente

Es muy bueno con las pruebas estandarizadas

No es bueno para hablar del futuro

Y todavía sigue alucinando

Cómo hacer ejercicio cuando está más frío y oscuro

Ricardo Darín es la cábala de Argentina en...

Vi ‘Barbie’ con una feminista y tiene una...

Allow Natalia Lafourcade to Reintroduce Herself

Extranjera explica por qué el Metro de CDMX...

Uganda aprueba una ley en contra de la...

Una madre en México y la búsqueda de...

El metro de Corea del Sur es gratis...

¿Por qué la economía latinoamericana no crece?

Acusaciones contra DeSantis en Guantánamo: lo que sabemos

El nuevo GPT-4, lo bueno y lo malo

Es muy bueno con las pruebas estandarizadas

No es bueno para hablar del futuro

Y todavía sigue alucinando

Notas relacionadas