Noticias

Últimas Noticias

    Política

    Judicial

      Economía

      Mundo

      Bogotá

        Entretenimiento

        Deportes

        Colombia

        El Magazín Cultural

        Salud

          Ambiente

          Investigación

            Educación

              Ciencia

                Género y Diversidad

                Tecnología

                Actualidad

                  Reportajes

                    Historias visuales

                      Colecciones

                        Podcast

                          Cromos

                          Vea

                          Opinión

                          Opinión

                            Editorial

                              Columnistas

                                Caricaturistas

                                  Lectores

                                  Blogs

                                    Suscriptores

                                    Suscriptores

                                      Beneficios

                                        Tus artículos guardados

                                          Somos El Espectador

                                            Estilo de vida

                                            La Red Zoocial

                                            Gastronomía y Recetas

                                              La Huerta

                                                Moda e Industria

                                                  Tarot de Mavé

                                                    Autos

                                                      Juegos

                                                        Pasatiempos

                                                          Horóscopo

                                                            Música

                                                              Turismo

                                                                Marcas EE

                                                                Colombia + 20

                                                                BIBO

                                                                  Responsabilidad Social

                                                                  Justicia Inclusiva

                                                                    Desaparecidos

                                                                      EE Play

                                                                      EE play

                                                                        En Vivo

                                                                          La Pulla

                                                                            Documentales

                                                                              Opinión

                                                                                Las igualadas

                                                                                  Redacción al Desnudo

                                                                                    Colombia +20

                                                                                      Destacados

                                                                                        BIBO

                                                                                          La Red Zoocial

                                                                                            ZonaZ

                                                                                              Centro de Ayuda

                                                                                                Newsletters
                                                                                                Servicios

                                                                                                Servicios

                                                                                                  Descuentos

                                                                                                    Idiomas

                                                                                                    EE ADS

                                                                                                      Cursos y programas

                                                                                                        Más

                                                                                                        Blogs

                                                                                                          Especiales

                                                                                                            Descarga la App

                                                                                                              Edición Impresa

                                                                                                                Suscripción

                                                                                                                  Eventos

                                                                                                                    Foros El Espectador

                                                                                                                      Pauta con nosotros en EE

                                                                                                                        Pauta con nosotros en Cromos

                                                                                                                          Pauta con nosotros en Vea

                                                                                                                            Avisos judiciales

                                                                                                                              Preguntas Frecuentes

                                                                                                                                Contenido Patrocinado
                                                                                                                                25 de septiembre de 2024 - 12:00 p. m.

                                                                                                                                ¿Los modelos de lenguaje de IA son cada vez menos fiables? Esto dice un estudio

                                                                                                                                Un estudio realizado por la Universitat Politècnica de València (UPV) y la Universidad de Cambridge revela la tendencia “alarmante” al empeoramiento de la fiabIlidad de los modelos más recientes de inteligencia artificial (IA), como el GPT-4, en comparación con los primeros, como el GPT-3.

                                                                                                                                Una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que su funcionamiento no se ajusta a la percepción humana de dificultad de la tarea.
                                                                                                                                Foto: Getty Images - Getty Images
                                                                                                                                PUBLICIDAD

                                                                                                                                El trabajo, que se publica este miércoles en la revista Nature, señala que los recientes avances en IA han generalizado el uso de grandes modelos de lenguaje en nuestra sociedad, pero no son tan fiables como los usuarios esperan, según detalla la UPV.

                                                                                                                                El estudio fue liderado por un equipo del Instituto VRAIN de la Universitat Politècnica de València y la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), junto con la Universidad de Cambridge.

                                                                                                                                El equipo integrado en el instituto VRAIN de la UPV fue parte del 'red team' de GPT-4, cuya misión era encontrar fallos y vulnerabilidades en el sistema, así como evaluar sus capacidades y posibles riesgos asociados a su uso.

                                                                                                                                Read more!
                                                                                                                                PUBLICIDAD

                                                                                                                                Trabajaron en el estudio los investigadores de la UPV José Hernández-Orallo, Cèsar Ferri, Wout Schellaert, Lexin Zhou y Yael Moros.

                                                                                                                                Percepción humana de dificultad

                                                                                                                                Según Hernández-Orallo, una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que su funcionamiento no se ajusta a la percepción humana de dificultad de la tarea.

                                                                                                                                Es decir, existe una discordancia entre las expectativas de que los modelos fallen de acuerdo a la percepción humana de dificultad en la tarea y las tareas donde realmente los modelos fallan, precisa.

                                                                                                                                "Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo -apunta-, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma".

                                                                                                                                El equipo de la UPV y la Universidad de Cambridge investigó tres aspectos clave que afectan a la fiabilidad de los modelos de lenguaje desde una perspectiva humana, y concluyen que no existe una "zona segura" en la que los modelos funcionen a la perfección.

                                                                                                                                "Los modelos suelen ser menos precisos en tareas que los humanos consideran difíciles, pero no son precisos al 100 % ni siquiera en tareas sencillas. Esto significa que no existe una 'zona segura' en la que se pueda confiar en que los modelos funcionen a la perfección", agrega Yael Moros Daval.

                                                                                                                                No ad for you

                                                                                                                                De hecho, los modelos más recientes básicamente mejoran su rendimiento en tareas de alta dificultad, pero no en tareas de baja dificultad, lo que "agrava la discordancia de dificultad entre el rendimiento de los modelos y las expectativas humanas", precisa Martínez Plumed.

                                                                                                                                Read more!

                                                                                                                                El estudio descubre asimismo que los modelos de lenguaje recientes son mucho más propensos a proporcionar respuestas incorrectas, en vez de evitar dar respuesta a tareas de las que no están seguros, lo que puede llevar a que los usuarios que inicialmente confían demasiado en los modelos luego "se decepcionen", añade Lexin Zhou.

                                                                                                                                Sensibilidad al enunciado del problema

                                                                                                                                PUBLICIDAD
                                                                                                                                No ad for you

                                                                                                                                El estudio analiza asimismo si la eficacia de la formulación de las preguntas se ve afectada por la dificultad de las mismas y concluye que es posible que la tendencia actual de progreso en el desarrollo de modelos de lenguaje y de mayor comprensión de una variedad de órdenes no libere a los usuarios de preocuparse en hacer enunciados eficaces.

                                                                                                                                "Hemos comprobado que los usuarios pueden dejarse influir por 'prompts' que funcionan bien en tareas complejas pero que, al mismo tiempo, obtienen respuestas incorrectas en tareas sencillas", agrega César Ferri.

                                                                                                                                Además de estos hallazgos sobre aspectos de la falta de fiabilidad de los modelos de lenguaje, los investigadores han descubierto que la supervisión humana es incapaz de compensar estos problemas.

                                                                                                                                No ad for you

                                                                                                                                Por ejemplo, las personas pueden reconocer las tareas de alta dificultad, pero siguen considerando con frecuencia que los resultados incorrectos son correctos en esta área, incluso cuando se les permite decir "no estoy seguro", lo que indica un exceso de confianza.

                                                                                                                                Desde ChatGPT a LLaMA y BLOOM

                                                                                                                                Los resultados fueron similares para múltiples familias de modelos de lenguaje, incluidos la GPT de OpenAI, LLaMA de pesos abiertos de Meta, y BLOOM, una iniciativa totalmente abierta de la comunidad científica.

                                                                                                                                Los investigadores constataron que los problemas de discordancia de dificultad, falta de abstención adecuada y sensibilidad al 'prompt' siguen siendo un problema para las nuevas versiones de las familias populares como los nuevos modelos o1 de OpenAI y Claude-3.5-Sonnet de Anthropic.

                                                                                                                                No ad for you

                                                                                                                                Los investigadores proponen un cambio en el diseño y desarrollo de la IA de propósito general, sobre todo para las aplicaciones de alto riesgo, en las que la predicción del desempeño de los modelos de lenguaje como la detección de sus errores son primordiales.

                                                                                                                                Una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que su funcionamiento no se ajusta a la percepción humana de dificultad de la tarea.
                                                                                                                                Foto: Getty Images - Getty Images
                                                                                                                                PUBLICIDAD

                                                                                                                                El trabajo, que se publica este miércoles en la revista Nature, señala que los recientes avances en IA han generalizado el uso de grandes modelos de lenguaje en nuestra sociedad, pero no son tan fiables como los usuarios esperan, según detalla la UPV.

                                                                                                                                El estudio fue liderado por un equipo del Instituto VRAIN de la Universitat Politècnica de València y la Escuela Valenciana de Posgrado y Red de Investigación en Inteligencia Artificial (ValgrAI), junto con la Universidad de Cambridge.

                                                                                                                                El equipo integrado en el instituto VRAIN de la UPV fue parte del 'red team' de GPT-4, cuya misión era encontrar fallos y vulnerabilidades en el sistema, así como evaluar sus capacidades y posibles riesgos asociados a su uso.

                                                                                                                                Read more!
                                                                                                                                PUBLICIDAD

                                                                                                                                Trabajaron en el estudio los investigadores de la UPV José Hernández-Orallo, Cèsar Ferri, Wout Schellaert, Lexin Zhou y Yael Moros.

                                                                                                                                Percepción humana de dificultad

                                                                                                                                Según Hernández-Orallo, una de las principales preocupaciones sobre la fiabilidad de los modelos de lenguaje es que su funcionamiento no se ajusta a la percepción humana de dificultad de la tarea.

                                                                                                                                Es decir, existe una discordancia entre las expectativas de que los modelos fallen de acuerdo a la percepción humana de dificultad en la tarea y las tareas donde realmente los modelos fallan, precisa.

                                                                                                                                "Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo -apunta-, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma".

                                                                                                                                El equipo de la UPV y la Universidad de Cambridge investigó tres aspectos clave que afectan a la fiabilidad de los modelos de lenguaje desde una perspectiva humana, y concluyen que no existe una "zona segura" en la que los modelos funcionen a la perfección.

                                                                                                                                "Los modelos suelen ser menos precisos en tareas que los humanos consideran difíciles, pero no son precisos al 100 % ni siquiera en tareas sencillas. Esto significa que no existe una 'zona segura' en la que se pueda confiar en que los modelos funcionen a la perfección", agrega Yael Moros Daval.

                                                                                                                                No ad for you

                                                                                                                                De hecho, los modelos más recientes básicamente mejoran su rendimiento en tareas de alta dificultad, pero no en tareas de baja dificultad, lo que "agrava la discordancia de dificultad entre el rendimiento de los modelos y las expectativas humanas", precisa Martínez Plumed.

                                                                                                                                Read more!

                                                                                                                                El estudio descubre asimismo que los modelos de lenguaje recientes son mucho más propensos a proporcionar respuestas incorrectas, en vez de evitar dar respuesta a tareas de las que no están seguros, lo que puede llevar a que los usuarios que inicialmente confían demasiado en los modelos luego "se decepcionen", añade Lexin Zhou.

                                                                                                                                Sensibilidad al enunciado del problema

                                                                                                                                PUBLICIDAD
                                                                                                                                No ad for you

                                                                                                                                El estudio analiza asimismo si la eficacia de la formulación de las preguntas se ve afectada por la dificultad de las mismas y concluye que es posible que la tendencia actual de progreso en el desarrollo de modelos de lenguaje y de mayor comprensión de una variedad de órdenes no libere a los usuarios de preocuparse en hacer enunciados eficaces.

                                                                                                                                "Hemos comprobado que los usuarios pueden dejarse influir por 'prompts' que funcionan bien en tareas complejas pero que, al mismo tiempo, obtienen respuestas incorrectas en tareas sencillas", agrega César Ferri.

                                                                                                                                Además de estos hallazgos sobre aspectos de la falta de fiabilidad de los modelos de lenguaje, los investigadores han descubierto que la supervisión humana es incapaz de compensar estos problemas.

                                                                                                                                No ad for you

                                                                                                                                Por ejemplo, las personas pueden reconocer las tareas de alta dificultad, pero siguen considerando con frecuencia que los resultados incorrectos son correctos en esta área, incluso cuando se les permite decir "no estoy seguro", lo que indica un exceso de confianza.

                                                                                                                                Desde ChatGPT a LLaMA y BLOOM

                                                                                                                                Los resultados fueron similares para múltiples familias de modelos de lenguaje, incluidos la GPT de OpenAI, LLaMA de pesos abiertos de Meta, y BLOOM, una iniciativa totalmente abierta de la comunidad científica.

                                                                                                                                Los investigadores constataron que los problemas de discordancia de dificultad, falta de abstención adecuada y sensibilidad al 'prompt' siguen siendo un problema para las nuevas versiones de las familias populares como los nuevos modelos o1 de OpenAI y Claude-3.5-Sonnet de Anthropic.

                                                                                                                                No ad for you

                                                                                                                                Los investigadores proponen un cambio en el diseño y desarrollo de la IA de propósito general, sobre todo para las aplicaciones de alto riesgo, en las que la predicción del desempeño de los modelos de lenguaje como la detección de sus errores son primordiales.

                                                                                                                                Temas recomendados:

                                                                                                                                Ver todas las noticias
                                                                                                                                Read more!
                                                                                                                                Read more!
                                                                                                                                Este portal es propiedad de Comunican S.A. y utiliza cookies. Si continúas navegando, consideramos que aceptas su uso, de acuerdo con esta  política.
                                                                                                                                Aceptar