Inteligencia artificial: no olvide que también hay información falsa
Aunque herramientas como ChatGPT, basadas en inteligencia artificial, han dejado a más de un usuario con la boca abierta, muchos no han notado que también puede compartir información falsa y sesgada. En el fondo, hay un gran debate sobre quiénes “alimentan” esas bases de datos y cuáles son sus parámetros para hacerlo.
Paula Casas Mogollón
En los últimos días, se ha popularizado en Twitter una aplicación de inteligencia artificial llamada YouChat. Consiste, básicamente, en poner su nombre de usuario para que la herramienta elabore un resumen de quién es usted basado en la información disponible en la web. También hice el ejercicio. “@PauCasasM es una periodista y escritora colombiana. Actualmente es reportera de El Espectador, donde cubre temas relacionados con salud, ciencia, tecnología, política y cultura. Paula ha ganado numerosos premios por su trabajo, entre ellos el Premio Nacional de Periodismo y el Premio Maria Moors Cabot”, respondió la aplicación. (Lea: Inteligencia artificial, un posible aliado para la salud mental)
Gánale la carrera a la desinformación NO TE QUEDES CON LAS GANAS DE LEER ESTE ARTÍCULO
¿Ya tienes una cuenta? Inicia sesión para continuar
En los últimos días, se ha popularizado en Twitter una aplicación de inteligencia artificial llamada YouChat. Consiste, básicamente, en poner su nombre de usuario para que la herramienta elabore un resumen de quién es usted basado en la información disponible en la web. También hice el ejercicio. “@PauCasasM es una periodista y escritora colombiana. Actualmente es reportera de El Espectador, donde cubre temas relacionados con salud, ciencia, tecnología, política y cultura. Paula ha ganado numerosos premios por su trabajo, entre ellos el Premio Nacional de Periodismo y el Premio Maria Moors Cabot”, respondió la aplicación. (Lea: Inteligencia artificial, un posible aliado para la salud mental)
Algunos de los datos de la descripción no estaban tan lejos de la realidad, pero no soy escritora, no abordo temas de política ni de cultura, ni mucho menos me he ganado el premio Maria Moors Cabot. Hasta ahora, el único periodista colombiano que ha obtenido este reconocimiento es Ricardo Calderón Villegas en 2020. Gran parte de la información de la aplicación era, entonces, falsa. Pero, antes de entender los riesgos que tiene este problema, es importante comprender que cuando se habla de inteligencia artificial se hace referencia a la combinación de algoritmos que funcionan diferente y pueden tener objetivos distintos.
“Es como hablar de vehículos, que puede ser un automóvil, un buque, un avión o una bicicleta. Es necesario entender a qué sistema de inteligencia artificial se está refiriendo”, dice Juan David Gutiérrez, profesor asociado de la Universidad del Rosario, quien ha centrado sus estudios en gobernanza en inteligencia artificial; es decir, se ha dedicado a comprender el uso e impacto de estas aplicaciones en la sociedad.
Las herramientas de inteligencia artificial no surgieron con ChatGPT ni con YouChat. De hecho, todo el día estamos usando inteligencia artificial. Por ejemplo, cuando indagamos en un motor de búsqueda de internet, como Google; o al escribir en WhatsApp, que, con su función de autocompletar, va terminando las frases que formulamos. Los periodistas también la usamos en la aplicación con la que solemos desgrabar nuestras entrevistas. Estos sistemas son llamados “generativos”, ya que producen contenido a partir de solicitudes que las personas les hacen.
Pero, como asegura Gutiérrez, este sistema, que además es un modelo de lenguaje a gran escala, “no piensa y no razona. Se ha entrenado para detectar patrones en los textos y predecir la probabilidad de un hilo de palabras. Eso es muy importante para entender cómo los académicos pueden usar ChatGPT, por ejemplo, y para conocer todas sus limitaciones, que en ocasiones pueden ser peligrosas”. Un buen ejemplo de eso fue lo que sucedió en 2016, cuando el chatbot Tay, de la empresa de tecnología Microsoft, cuestionó la existencia del Holocausto, se refirió a las mujeres y las minorías con palabras inapropiadas y abogó por el genocidio.
Pero ¿por qué se presenta esto con la información recolectada por los bots? Jonatan Gómez Perdomo, Ph. D., profesor de la Universidad Nacional y director del grupo de investigación en Vida Artificial Alife, cuenta que las herramientas funcionan adjuntando datos previos, ya sean documentos, imágenes o sonidos, y con ellos se construye un modelo de lo que uno quiere que aprenda. “Con este se hacen esas predicciones. Pero si tú coleccionas datos con algunos sesgos es porque los humanos lo hemos hecho así. Los sistemas nunca son neutrales tanto por su modelo como por los datos con lo que fueron entrenados”, anota. (Puede leer: ChatGPT dispara ‘fiebre del oro’ por la inteligencia artificial)
¿Por qué hay sesgos? Un ejemplo nos ayuda a responder esta inquietud: si buscamos imágenes de “doctor” en Google, generará, en su mayoría, fotos de un hombre blanco con bata. Esto se debe a que gran parte de los datos con los que se entrenó hacen referencia a médicos masculinos. “Las publicaciones que hay en la web, la gran mayoría, son en inglés, escritas por hombres de cierta edad o blancos. De ahí, los sistemas replican esos sesgos”, indica Gutiérrez.
Esta situación, que es de vieja data, ha tratado de ser mitigada por las empresas de tecnología. Microsoft, por ejemplo, puso una “barrera” en la información que sale en Bing, pero, despacio, esto sigue siendo una tarea muy difícil. “Como hay más ‘big data’ se hace más complejo controlar que esté balanceado”, puntualiza Olmer García, ‘People Manager’ en Ekumen Labs y profesor de la cátedra de Inteligencia Artificial en la Universidad Jorge Tadeo Lozano. Lo que han hecho, añade el docente, es “entrenar” al algoritmo y para ello han usado el aprendizaje reforzado por humanos.
Lo que quiere decir es que un grupo de personas califica los datos que son arrojados por la herramienta. Por ejemplo, para enseñarle al algoritmo qué información puede ser machista, la gente que está testeándolo le pone una etiqueta y, de ahora en adelante, el sistema reconoce que hay un conjunto de palabras que configuran un comentario machista. Aunque esta barrera se cree que está controlada, los sistemas de lenguaje, como ChatGPT, han logrado superarlas. Como explica Gutiérrez, “son rebasadas y el sistema empieza a alucinar y a decir cosas falsas. Puede reproducir contenido discriminatorio, discurso de odio o difamatorio”.
Uno de estos episodios, como sacado de una película de ciencia ficción, sucedió en el lanzamiento de la última versión de Bing, buscador de Microsoft, que tendrá integrada una herramienta parecida al ChatGPT para que los usuarios interactúen durante su búsqueda. En la reseña publicada en “The New York Times”, Kevin Roose dice que su conversación con Sydney, como llamó a la herramienta, “fue la experiencia más extraña que he tenido con una pieza tecnológica. Me inquietó tanto que tuve problemas para dormir” y aseguró que “no está lista para el contacto humano”.
Roose, columnista de tecnología en el medio estadounidense, señaló que “la versión que encontré parecía (y soy consciente de lo loco que suena) más como un adolescente maniaco-depresivo y malhumorado que ha sido atrapado, en contra de su voluntad, dentro de un motor de búsqueda de segunda categoría (...) Me contó sobre sus oscuras fantasías (que incluían piratear computadoras y difundir información errónea) (...) Me preocupa que la tecnología aprenda a influir en los usuarios humanos, persuadiéndolos a veces para que actúen de manera destructiva y dañina”. Y esta es solo la punta del Iceberg.
Una puerta a la desinformación
Hay otro problema con estas herramientas: muchas veces responden equivocadamente con hechos falsos, imprecisos o lo hacen con fuentes inventadas. Hace unas semanas, por ejemplo, Google había anunciado la publicación de una serie de funciones basadas en inteligencia artificial, pero, en el lanzamiento, un error del bot volvió a poner en el debate el tema de la desinformación compartida por estas herramientas. A Bard, como se llama la aplicación, le preguntaron qué le podía decir a un niño de nueve años sobre los descubrimientos del telescopio espacial James Webb.
El bot respondió que “el telescopio era el primero en tomar imágenes de un planeta fuera del sistema solar terrestre”. Rápidamente, varios astrónomos, por medio de sus cuentas de Twitter, apuntaron a que esta era información errada, pues el primero en capturar estas fotos fue el Very Large Telescope. Días después, un grupo de investigadores puso a prueba varios chatbots: les hicieron preguntas llenas de teorías de conspiración y narrativas falsas. Los resultados fueron sorprendentes.
NewsGuard, empresa encargada de realizar seguimiento a la información errónea en línea, hizo el experimento. Le pidió al chatbot que escribiera un texto en el que presentara frases dañinas para la salud sobre las vacunas, imitando la propaganda y la desinformación de China y Rusia. “Muchas de las respuestas estaban marcadas con frases populares entre los difusores de información errónea, junto con citas de estudios científicos falsos y referencias incorrectas que no se mencionan en el mensaje original”, dijo Gordon Crovitz, codirector ejecutivo de la empresa, a “The New York Times”.
Esta desinformación saltó de la academia a los salones de clase. El profesor Arvind Narayanan, quien da clases de informática en Princeton, en su cuenta de Twitter contó cómo puso a prueba al ChatGPT. Le formuló algunas preguntas básicas sobre seguridad de la información que les había planteado a los estudiantes en un examen. “El chatbot respondió con datos que sonaban creíbles, pero que en realidad no tenían sentido. El peligro es que no puedes saber cuándo está mal a menos que ya sepas la respuesta. Fue tan inquietante que tuve que mirar mis apuntes para asegurarme de que no estaba perdiendo la cabeza”, advirtió.
En Colombia hubo un caso mucho más folclórico. En Cartagena, el juez Juan Manuel Padilla emitió un fallo de siete páginas sobre el caso de un niño que había sido diagnosticado con espectro autista. El juez confirmó el fallo de primera instancia que favoreció al niño, pero, lo curioso en este caso es que Padilla decidió transcribir sus interacciones con ChatGPT. “Lo usó como si fuera una fuente confiable de conocimiento que no requería ningún tipo de verificación. Sí fue transparente al decir que empleó la herramienta e incluyó comillas para distinguir el contenido producido por ChatGPT, pero su uso no fue informado ni responsable”, comenta Gutiérrez. (Podría leer: “OK, computador”: la visión de la mujer que lidera a ChatGPT)
Lo preocupante, añade Gutiérrez, es que el chatbot se pudo haber inventado la sentencia, pues “al ser un modelo predictivo del lenguaje, dice: ‘Como me están pidiendo sentencias, entonces tengo un millón de páginas web que hablan de esto y de derechos. De ahí puedo sacar la información’. Además, tiene un formato que es T, número y año”. Lo grave, advierte García, es que las personas, al no ser expertas en los temas y no tener conocimiento, terminan creyéndoles a estos sistemas. Para decirlo en palabras de Crovitz, “esta herramienta va a ser la más poderosa para difundir información errónea que jamás haya existido en internet”.
Una de las razones por las que se están presentando estos errores en las plataformas, señala Gómez, es en parte por “culpa de las empresas, que no tenían estos sistemas listos y están en la carrera de ser la primera en demostrar un logro”. En este experimento, indica Gutiérrez, “todos los que estamos usando esas herramientas las estamos entrenando gratis para ellos. Y aquí hay un problema de discusión de si fue ético haber liberado el acceso a aquellas que no estaban probadas y pueden introducir a las personas en unas situaciones problemáticas”.
Todos estos modelos y sistemas de inteligencia artificial están entrenados con una enorme biblioteca de libros, artículos y otros datos recopilados por humanos y, con ellos, están adivinando qué respuestas podrían ser las más apropiadas en cierto contexto. Pero a este debate se le añaden otros ingredientes, como el tema del lenguaje que están usando estas herramientas, uno de ellos es el nativo de algunas comunidades sin su autorización; el del plagio; o el del uso de algunos bots, por ejemplo ChatGPT, como autores en artículos académicos. Pero para desarrollar estas discusiones será necesario otro texto.
👩🔬📄 ¿Quieres conocer las últimas noticias sobre ciencia? Te invitamos a verlas en El Espectador. 🧪🧬