Anthropic, una empresa de inteligencia artificial (IA) y «bien público», lanzó Claude 2 el 11 de julio, marcando otro hito en un año lleno de progreso aparentemente continuo del floreciente sector generativo de IA.

Según una publicación de blog de la empresa, Claude 2 muestra mejoras en casi todas las categorías medibles. Quizás lo más notable entre las diferencias entre este y su predecesor es cómo los investigadores discuten su trabajo.

En la publicación del blog que anunciaba Claude 2, no se mencionó el benchmarking de aprendizaje automático tradicional ni los resultados computacionales contra modelos similares. En cambio, Anthropic probó directamente Claude y Claude 2 en numerosas pruebas diseñadas para representar pruebas de conocimiento, habilidades y resolución de problemas del mundo real. .

LEER  Los préstamos NFT de Blur superan los $ 16 millones en préstamos liderados por Matchi Big Brother

Claude 2 superó a su predecesor en todos los conocimientos, codificación y otras preguntas del examen y, según Anthropic, incluso se desempeñó bien en comparación con los promedios humanos:

«En comparación con los estudiantes que solicitan ingresar a la escuela de posgrado, Claude 2 obtiene un puntaje superior al percentil 90 en los exámenes GRE de lectura y escritura y es similar al solicitante promedio en razonamiento cuantitativo».

Vale la pena señalar que muchos expertos creen que las comparaciones entre humanos y sujetos de prueba de IA son ineficaces debido a la naturaleza del pensamiento cognitivo humano y la probabilidad de que el conjunto de datos de entrenamiento de un modelo de lenguaje grande contenga información de prueba. Esencialmente, las pruebas diseñadas para humanos pueden no «probar» la capacidad de la IA para razonar o proporcionar una demostración adecuada del conocimiento o la habilidad reales.

Junto con el lanzamiento de Claude 2, Anthropic presentó una versión beta de la interfaz basada en web «Talk to Claude», que brinda acceso general al chatbot para usuarios en las zonas de EE. UU. y Reino Unido.

LEER  Los clientes de FTX han advertido sobre los estafadores que los atraen con devoluciones de activos

Conectado: Cómo conseguir un trabajo bien pagado como ingeniero por IQ

Cointelegraph realizó una breve prueba de la nueva versión y, como anécdota, las mejoras se notan de inmediato. Claude 2 respondió a nuestras indicaciones casi al instante con respuestas claras y concisas.

Captura de pantalla: Chatea con Claude 2 a través del sitio web de Anthropic.

Según Anthropic, el límite de velocidad del nuevo modelo es de 100 mil tokens, o aproximadamente el equivalente a 75.000 palabras. La interfaz de usuario del sitio indica que los usuarios pueden cargar documentos PDF, TXT, CSV y similares para su análisis, pero esta funcionalidad no funcionó en nuestras pruebas limitadas antes de publicar este artículo.