OpenAI lanzó GPT-4 ayer, su paradigma de IA de generación de texto largamente esperado, y es un trabajo intrigante.
GPT-4 mejora a su predecesor, GPT-3, de manera importante, por ejemplo, brinda más datos del mundo real y permite a los desarrolladores describir su estilo y comportamiento más fácilmente. También es multimedia en el sentido de que puede comprender imágenes, lo que le permite anotar e incluso explicar los contenidos de la imagen en detalle.
Pero GPT-4 tiene serios defectos. Al igual que GPT-3, el modelo está «alucinando» hechos y comete errores básicos de razonamiento. En un ejemplo de OpenAI blog privadoGPT-4 describe a Elvis Presley como «el hijo de un actor». (Ninguno de sus padres eran actores).
Para comprender mejor el ciclo de desarrollo de GPT-4 y sus capacidades, así como sus limitaciones, TechCrunch habló con Greg Brockman, cofundador y presidente de OpenAI, a través de una videollamada el martes.
Cuando se le pidió que comparara GPT-4 con GPT-3, Brockmann tuvo una palabra para ello: diferente.
«Es completamente diferente», dijo a TechCrunch. «Todavía hay muchos problemas y errores [the model] Make… pero realmente puedes ver el salto en la habilidad en cosas como cálculo o derecho, pasando de ser realmente malo en ciertas áreas a ser realmente bueno en comparación con los humanos. «
Los resultados de las pruebas respaldan su caso. En el examen AP Calculus BC, GPT-4 obtuvo 4 de 5 mientras que GPT-3 obtuvo 1 (GPT-3.5, la forma intermedia entre GPT-3 y GPT-4, también obtiene 4) y en a. Examen de barra simulado, aprobar GPT-4 con una puntuación cercana al 10% superior de los examinados; La puntuación GPT-3.5 rondaba el 10 % inferior.
Cambio de marchas Uno de los aspectos más interesantes de GPT-4 es el mencionado multimedia. A diferencia de GPT-3 y GPT-3.5, que solo pueden aceptar mensajes de texto (por ejemplo, «Escribe un artículo sobre jirafas»), GPT-4 puede recibir un mensaje con imágenes y texto para realizar alguna acción (por ejemplo, una imagen Jirafas en el Serengeti con el mensaje «¿Cuántas jirafas se exhiben aquí?»).
Eso es porque GPT-4 fue entrenado en la imagen. Y datos de texto mientras que sus predecesores solo fueron entrenados en texto. OpenAI dice que los datos de capacitación provienen de «una variedad de fuentes de datos autorizadas, establecidas y disponibles públicamente, que pueden incluir información personal disponible públicamente», pero Brockman objetó cuando se le pidió detalles. (Los datos de entrenamiento de OpenAI han estado en problemas legales antes).
Las capacidades de comprensión de imágenes de GPT-4 son bastante impresionantes. Por ejemplo, envíe el mensaje «¿Qué tiene de divertida esta imagen? Descríbala panel por panel» más una imagen de tres paneles que muestre un cable VGA falso conectado a un iPhone, proporcione un desglose GPT-4 de cada panel de imágenes y explique el chiste. correctamente («el humor en Esta imagen proviene del absurdo de conectar un conector VGA obsoleto a un puerto de carga de teléfono inteligente pequeño y moderno»).
Solo un socio de lanzamiento tiene acceso a las capacidades de análisis de imágenes de GPT-4 en este momento: una aplicación de asistencia para personas con discapacidad visual llamada Be My Eyes. Una implementación más amplia, siempre que suceda, será «lenta y deliberada», ya que OpenAI sopesa los riesgos y los beneficios, dice Brockmann.
«Hay cuestiones políticas como el reconocimiento facial y cómo manejamos las imágenes de las personas que necesitamos procesar y trabajar», dijo Brockmann. “Necesitamos saber, por ejemplo, dónde están las áreas de riesgo, dónde están las líneas rojas, y luego aclararlo con el tiempo”.
OpenAI se ha enfrentado a dilemas éticos similares sobre DALL-E 2, su sistema de conversión de texto a imagen. Después de deshabilitar inicialmente la capacidad, OpenAI permitió a los clientes cargar rostros de personas para editarlos utilizando un sistema de generación de imágenes impulsado por IA. En ese momento, OpenAI afirmó que las actualizaciones de su sistema de seguridad hicieron posible la función de modificación facial al «reducir el daño potencial» de las falsificaciones profundas, así como los intentos de crear contenido sexual, político y violento.
Otro perenne prohíbe el uso de GPT-4 de manera no intencionada que podría causar daño psicológico, monetario o de otro tipo. Horas después de que se lanzara el modelo, la firma de ciberseguridad israelí Adversa AI publicó un entrada en el blog Demostrar formas de eludir los filtros de contenido de OpenAI y obtener GPT-4 para generar correos electrónicos de phishing, descripciones ofensivas de homosexuales y otros textos altamente objetables.
No es un fenómeno nuevo en el campo del paradigma del lenguaje. También se les ha pedido a Meta BlenderBot y ChatGPT de OpenAI que digan cosas profundamente ofensivas e incluso que revelen detalles confidenciales sobre su funcionamiento interno. Pero muchos tenían la esperanza, incluido este reportero, de que GPT-4 podría ofrecer mejoras significativas en el frente de la moderación.
Cuando se le preguntó acerca de la solidez de GPT-4, Brockmann confirmó que el modelo se había sometido a seis meses de capacitación en seguridad y que, en pruebas internas, tenía un 82 % menos de probabilidades de responder a solicitudes de contenido no permitido según la política de uso de OpenAI y un 40 % % más probable de producir respuestas realistas» de GPT-3.5.
«Hemos pasado mucho tiempo tratando de entender de qué es capaz GPT-4», dijo Brockmann. «Sacarlo al mundo es la forma en que aprendemos. Realizamos actualizaciones constantemente, que incluyen una variedad de mejoras, de modo que el modelo es más escalable para cualquier personaje o tipo de situación en la que desee que se encuentre».
Francamente, los primeros resultados en el mundo real no son tan prometedores. Junto con las pruebas de IA de Adversa, se ha demostrado que Bing Chat, el chatbot de Microsoft con tecnología GPT-4, es muy vulnerable al jailbreak. Con entradas cuidadosamente elaboradas, los usuarios pudieron convencer al bot de declarar amor, amenazar con hacer daño, defender el Holocausto e idear teorías de conspiración.
Brockmann no negó que GPT-4 esté limitado aquí. Pero enfatizó las nuevas herramientas enrutables de mitigación del modelo, incluida una capacidad de nivel API llamada mensajes del «sistema». Los mensajes del sistema son esencialmente instrucciones que establecen el tono y los límites para las interacciones de GPT-4. Por ejemplo, un mensaje del sistema podría decir: «Eres un maestro que siempre responde en el estilo socrático. Lo eres». nunca Déle al estudiante la respuesta, pero siempre trate de hacer la pregunta correcta para ayudarlo a aprender a pensar por sí mismo».
La idea es que los mensajes del sistema actúen como un cortafuegos para evitar que GPT-4 descarrile.
«Conocer realmente el tono, el estilo y la sustancia de GPT-4 fue un gran enfoque para nosotros», dijo Brockmann. «Creo que estamos empezando a entender un poco más sobre cómo hacer la ingeniería, sobre cómo tener un proceso repetible de este tipo que te brinde resultados predecibles que serán realmente útiles para las personas».
Brockmann también señaló a Evals, el nuevo marco de software de código abierto de OpenAI para evaluar el rendimiento de sus modelos de IA, como evidencia del compromiso de OpenAI de «mejorar» sus modelos. Evals permite a los usuarios desarrollar y ejecutar puntos de referencia para evaluar modelos como GPT-4 mientras examinan su rendimiento, una especie de enfoque de crowdsourcing para la prueba de modelos.
Con Evals, podemos ver [use cases] que los usuarios se preocupan en una forma sistemática que podemos probar «, dijo Brockmann. «Parte de la razón [open-sourced] Eso se debe a que nos estamos alejando del lanzamiento de un nuevo modelo cada trimestre, lo que sea que haya sido antes, para realizar mejoras continuas. No haces lo que no mides, ¿verdad? También hacemos nuevas versiones. [of the model]Al menos podemos ser conscientes de cuáles son estos cambios».
Le pregunté a Brockman si OpenAI alguna vez compensaría a las personas por probar sus modelos con Evals. No se comprometió, pero sí notó que, por un tiempo limitado, OpenAI les dio a los usuarios de Evals acceso anticipado a la API GPT-4.
La conversación de Brockman y yo también tocamos la ventana de contexto GPT-4, que indica qué texto puede considerar un formulario antes de generar texto adicional. OpenAI está probando una versión de GPT-4 que puede «recordar» aproximadamente 50 páginas de contenido, o cinco veces más que GPT-4 vainilla puede tener en su «memoria» y ocho veces la capacidad de GPT-3.
Brockman cree que una ventana de contexto ampliada conduce a aplicaciones nuevas, previamente inexploradas, particularmente en la empresa. Él imagina un chatbot de IA diseñado para una empresa que aprovecha el contexto y el conocimiento de varias fuentes, incluidos los empleados de todos los departamentos, para responder preguntas de una manera altamente informada pero conversacional.
este No es un concepto nuevo. Pero Brockmann afirma que las respuestas de GPT-4 serán mucho más útiles que las de los chatbots y los motores de búsqueda actuales.
«Antes, la modelo no sabía quién eras, qué te importaba, etcétera», dijo Brockmann. Tener ese tipo de historia [with the larger context window] Ciertamente lo hará más capaz… cobrará lo que la gente puede hacer».
More Stories
JPMorgan espera que la Reserva Federal reduzca su tipo de interés de referencia en 100 puntos básicos este año
Resumen de ganancias de Nvidia: el CEO habla de Blackwell, pero no cumple con las expectativas más altas
Nasdaq y S&P 500 lideran la caída de las acciones antes de las decepcionantes ganancias de Nvidia