INTELIGENCIA ARTIFICIAL

GPT-4o de OpenAI: la convergencia entre chatbots y asistentes de voz

La nueva actualización presenta una IA versátil que combina audio, imagen y texto para ofrecer respuestas rápidas y emotivas, asistencia visual, traducción, apoyo en reuniones y matemáticas.

Una ilustración de OpenAI Chat GPT. EP / Archivo

GPT-4o de OpenAI: la convergencia entre chatbots y asistentes de voz

AEP / Nueva York 20:35 27/05/24

OpenAI reveló su más reciente creación, la versión mejorada de su popular chatbot de inteligencia artificial, ChatGPT, ahora denominada GPT-4o ("o" de "omni"). Esta nueva iteración no solo promete mantener la calidad de sus predecesores, sino que también introduce una integración más profunda de funciones, abarcando audio, imagen y texto en una sola plataforma.

Según el informe del reportero de tecnología de The New York Times, la estrategia de OpenAI con GPT-4o parece apuntar hacia una convergencia entre los chatbots y los asistentes de voz, como Siri y Alexa, siendo este último el camino que están siguiendo gigantes tecnológicos como Apple y Google. "Mientras Apple y Google están transformando sus asistentes de voz en chatbots, OpenAI está transformando su chatbot en un asistente de voz", comentó el reportero.

Durante la presentación en vivo, GPT-4o demostró su capacidad para mantener conversaciones fluidas y emocionales, respondiendo a solicitudes de audio con un tiempo de respuesta sorprendentemente rápido, comparable al de una conversación humana promedio en inglés. Además, se destacó por su habilidad para generar voz en diversos tonos emocionales, desde dramáticos hasta sarcásticos.

Sam Altman, fundador de OpenAI, compartió su impresión sobre la nueva tecnología en una publicación en la red social X, haciendo referencia a la película "Her" y sugiriendo la posibilidad de relaciones emocionales con sistemas de inteligencia artificial.

MIT Technology Review observó que GPT-4o fusiona varios modelos que antes funcionaban de manera independiente, lo que se traduce en respuestas más ágiles y transiciones más suaves entre tareas.

Conversaciones fluidas y emotivas: GPT-4o responde a peticiones de audio con una rapidez asombrosa, permitiendo interrupciones por parte de los usuarios y generando voz en diferentes estilos emotivos.
Asistencia visual: La IA puede describir y analizar imágenes en tiempo real, incluso identificar emociones en expresiones faciales, proporcionando asistencia a personas con discapacidad visual.
Traducción instantánea: GPT-4o puede actuar como traductor en conversaciones multilingües, aunque con algunas limitaciones, y también puede identificar objetos en imágenes y proporcionar sus nombres en otro idioma.
Asistencia en reuniones: La nueva versión puede participar en reuniones virtuales, tomar notas y resumir discusiones, facilitando la colaboración y la organización de información.
Apoyo en matemáticas: GPT-4o puede ayudar a los usuarios con problemas matemáticos, guiándolos en el proceso de resolución y corrigiendo errores.