El chatbot que millones de personas han utilizado para escribir trabajos finales, código de computadora y cuentos de hadas no solo funciona con palabras. ChatGPT, la herramienta impulsada por la inteligencia artificial de OpenAI, también puede analizar imágenes, describirlas, responder preguntas sobre ellas e incluso reconocer rostros de personas específicas. La esperanza es que, con el tiempo, alguien pueda subir una imagen de un motor de un automóvil averiado o una erupción misteriosa en la piel y ChatGPT pueda sugerir la solución.
Sin embargo, OpenAI no quiere que ChatGPT se convierta en una máquina de reconocimiento facial.
Durante los últimos meses, Jonathan Mosen ha estado entre un grupo selecto de personas con acceso a una versión avanzada del chatbot que puede analizar imágenes. En un viaje reciente, Mosen, un director ejecutivo de una agencia de empleo que es ciego, usó el análisis visual para determinar qué dispensadores en el baño de una habitación de hotel eran champú, acondicionador y gel de ducha. El rendimiento del software de análisis de imágenes fue muy superior al que había usado en el pasado.
“Me informó la capacidad en mililitros de cada botella. Me contó sobre las baldosas en la ducha”, contó Mosen. “Describió todo esto de la manera en que una persona ciega necesita escucharlo. Y con una foto, obtuve exactamente las respuestas que necesitaba”.
Por primera vez, Mosen afirmó que puede “interrogar imágenes”. Dio un ejemplo: el texto que acompañaba una imagen que encontró en las redes sociales la describía como una “mujer con cabello rubio que se ve feliz”. Cuando le pidió a ChatGPT que analizara la imagen, el chatbot dijo que era una mujer con una camisa azul oscuro que se había tomado una selfi en un espejo de cuerpo entero. Mosen pudo hacer preguntas de seguimiento, como qué tipo de zapatos usaba y qué más se veía en el reflejo del espejo.
“Es extraordinario”, dijo Mosen, de 54 años, que vive en Wellington, Nueva Zelanda, y ha mostrado la tecnología en un pódcast que presenta sobre “vivir al máximo a ciegas”.
En marzo, cuando OpenAI anunció GPT-4, el modelo más reciente del software que impulsa su chatbot de IA, la compañía declaró que era “multimodal”, lo que significa que podía responder a instrucciones de texto e imágenes. Si bien la mayoría de los usuarios han podido conversar con el bot solo con palabras, Mosen obtuvo acceso anticipado al análisis visual gracias a Be My Eyes, una empresa emergente que suele conectar a usuarios invidentes con voluntarios videntes y brinda servicio al cliente accesible para clientes corporativos. Be My Eyes se asoció con OpenAI este año para probar la “visión” del chatbot antes del lanzamiento de la función al público en general.
Recientemente, la aplicación dejó de brindarle a Mosen información sobre los rostros de las personas, tras alegar que se habían ocultado por razones de privacidad. Mosen se sintió decepcionado, pues sentía que debía tener el mismo acceso a la información que una persona vidente.
El cambio reflejó la preocupación de OpenAI de haber construido algo con un poder que no quería lanzar al público.
La tecnología de la compañía puede identificar principalmente a figuras públicas, como, por ejemplo, personas con una página de Wikipedia, afirmó Sandhini Agarwal, investigadora de políticas de OpenAI, pero no funciona de manera tan completa como las herramientas creadas para encontrar rostros en internet, como las de Clearview AI y PimEyes. Agarwal aseveró que la herramienta puede reconocer en fotos al director ejecutivo de OpenAI, Sam Altman, pero no a otras personas que trabajan en la empresa.
Hacer que una característica de este tipo esté disponible al público impulsaría los límites de lo que generalmente se consideraba una práctica aceptable por parte de las empresas de tecnología de Estados Unidos. También podría causar problemas legales en varias jurisdicciones, como Illinois y Europa, que exigen que las empresas obtengan el consentimiento de los ciudadanos para usar su información biométrica, incluida la huella facial.
Además, a OpenAI le preocupaba que la herramienta dijera cosas que no debería sobre los rostros de las personas, como determinar su género o estado emocional. OpenAI está descifrando cómo abordar estas y otras preocupaciones de seguridad antes de lanzar la función de análisis de imágenes al público general, afirmó Agarwal.
“Nuestro gran deseo es que esta sea una conversación bidireccional con el público”, dijo. “Si lo que escuchamos es algo como: ‘En realidad, no queremos nada de eso’, es algo con lo que estamos muy de acuerdo”.
Más allá de los comentarios de los usuarios de Be My Eyes, la división no lucrativa de la compañía también está intentando idear formas de obtener “aportes democráticos” para ayudar a establecer reglas para los sistemas de IA.
Agarwal dijo que el desarrollo del análisis visual no fue “inesperado”, porque el modelo había sido entrenado mirando imágenes y texto recopilados de internet. Señaló que ya existía un software de reconocimiento facial de celebridades, como la de una herramienta de Google. Google ofrece una opción de desactivación para las personas conocidas que no quieran ser reconocidas, y OpenAI está considerando esa medida.
Agarwal afirmó que el análisis visual de OpenAI podía producir “alucinaciones” similares a las que se habían visto con las instrucciones de texto. “Si le proporcionas una foto de alguien a punto de ser famoso, podría alucinar un nombre”, dijo. “Por ejemplo, si le doy una imagen de un famoso director ejecutivo de uns empresa de tecnología, podría darme el nombre de otro director ejecutivo de tecnología”.
En una ocasión, la herramienta le describió incorrectamente un control remoto a Mosen: le aseguró con confianza que había botones que no estaban allí, contó.
Microsoft, que ha invertido 10.000 millones de dólares en OpenAI, también tiene acceso a la herramienta de análisis visual. Algunos usuarios del chatbot Bing impulsado por IA de Microsoft han visto aparecer la función en un despliegue limitado; después de cargar imágenes, recibieron un mensaje que les informó que “el desenfoque de privacidad oculta las caras del chat de Bing”.
Sayash Kapoor, científico informático y doctorando en la Universidad de Princeton, usó la herramienta para decodificar un captcha, un control de seguridad visual diseñado para ser inteligible solo para los ojos humanos. Incluso mientras descifraba el código y reconocía las dos palabras deformadas proporcionadas, el chatbot señaló que “los captchas están diseñados para evitar que bots automatizados como yo accedan a ciertos sitios web o servicios”.
“La IA simplemente está abriéndose camino en todas las cosas que se supone que separan a los humanos de las máquinas”, afirmó Ethan Mollick, profesor asociado que estudia innovación y emprendimiento en la Escuela Wharton de la Universidad de Pensilvania.
Desde que la herramienta de análisis visual apareció repentinamente en la versión del chatbot de Bing de Mollick el mes pasado —convirtiéndolo así, sin ninguna notificación, en una de las pocas personas con acceso anticipado— no ha apagado su computadora por temor a perderla. Le proporcionó una foto de condimentos en un refrigerador y le pidió a Bing que sugiriera recetas para esos ingredientes. Bing le respondió con recetas para un “refresco con crema batida” y una “salsa cremosa de jalapeño”.
Tanto OpenAI como Microsoft parecen estar conscientes del poder —y las posibles implicaciones de privacidad— de esta tecnología. Un portavoz de Microsoft declaró que la compañía no estaba “compartiendo detalles técnicos” sobre el desenfoque facial pero que estaba trabajando “estrechamente con nuestros socios en OpenAI para mantener nuestro compromiso compartido con el despliegue seguro y responsable de las tecnologías de IA”.
Kashmir Hill es reportera de tecnología y autora de Your Face Belongs To Us: A Secretive Startup’s Quest To End Privacy As We Know It. Escribe sobre las formas inesperadas y en ocasiones ominosas en que la tecnología está cambiando nuestras vidas. Contáctala en kashmir.hill@nytimes.com. Más sobre Kashmir Hill