La gran batalla de modelos de IA: de problemas académicos a competiciones de ingeniería

La batalla de los cien modelos en la industria de la IA: de problemas académicos a problemas de ingeniería

El mes pasado, la industria de la IA llevó a cabo un enfrentamiento con tema de animales.

Por un lado está Llama, lanzado por Meta, que es muy popular entre la comunidad de desarrolladores debido a su naturaleza de código abierto. La compañía nipona (NEC), después de investigar el documento y el código fuente de Llama, desarrolló rápidamente una versión en japonés de ChatGPT, resolviendo así el cuello de botella en el desarrollo de IA en Japón.

El otro es un modelo grande llamado Falcon. En mayo de este año, Falcon-40B fue lanzado, superando a Llama y alcanzando la cima de la "Lista de clasificación de LLM de código abierto". Esta lista es elaborada por la comunidad de modelos de código abierto y proporciona un estándar para evaluar las capacidades de LLM. Básicamente, la clasificación es ocupada alternativamente por Llama y Falcon.

Después del lanzamiento de Llama 2, la familia Llama lideró temporalmente; pero a principios de septiembre, Falcon lanzó la versión 180B, obteniendo nuevamente un ranking más alto.

Curiosamente, los desarrolladores de Falcon son del Instituto de Innovación Tecnológica de Abu Dhabi, la capital de los Emiratos Árabes Unidos. Las autoridades de los Emiratos Árabes Unidos han declarado que participan en este campo para romper el statu quo existente.

Al día siguiente del lanzamiento de la versión 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue incluido en la lista de las "100 personas más influyentes en el campo de la IA" según la revista Time; junto a él, también fueron seleccionados el "padrino de la IA" Hinton, el de OpenAI Altman, entre otros.

Hoy en día, el campo de la IA ha entrado en una fase de florecimiento: los países y empresas con algo de poder adquisitivo están impulsando planes para versiones locales de ChatGPT. Solo en la región del Golfo, hay más de un participante: en agosto, Arabia Saudita compró más de 3000 chips H100 para universidades nacionales, utilizados para entrenar LLM.

Un inversor se quejó: "En aquel entonces, no valoraba la innovación del modelo de negocio de Internet, pensaba que no tenía barreras; no esperaba que el emprendimiento en modelos grandes de tecnología dura seguiría siendo una competencia feroz entre muchos..."

¿Por qué algo que debería ser una alta tecnología difícil se ha convertido en una competencia en la que todos pueden participar?

Transformer: El punto de inflexión clave en el desarrollo de la IA

Las startups estadounidenses, los gigantes tecnológicos chinos y los jeques del petróleo de Medio Oriente pueden perseguir el sueño de los grandes modelos gracias a ese famoso artículo: "La atención es todo lo que necesitas".

En 2017, ocho científicos informáticos de Google publicaron el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la IA, y la aparición del Transformer ha desencadenado esta ola actual de entusiasmo por la IA.

Los diversos modelos grandes actuales, incluyendo la serie GPT que ha causado sensación en todo el mundo, se basan en la arquitectura Transformer.

Antes de esto, hacer que las máquinas comprendan el texto siempre ha sido un desafío en la academia. A diferencia del reconocimiento de imágenes, cuando los humanos leen, no solo se centran en las palabras y frases actuales, sino que también comprenden en función del contexto. Las entradas de las primeras redes neuronales eran independientes entre sí, lo que dificultaba la comprensión de textos largos e incluso de artículos completos.

En 2014, el científico de Google Ilya hizo un gran avance. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que mejoró significativamente el rendimiento de Google Translate. RNN introduce un "diseño cíclico", permitiendo que las neuronas reciban tanto la entrada actual como la entrada del momento anterior, lo que les otorga la capacidad de "combinar contexto".

La aparición de las RNN ha despertado el entusiasmo de la comunidad académica. Sin embargo, los desarrolladores pronto se dieron cuenta de que las RNN tienen graves defectos: el algoritmo utiliza cálculos secuenciales, aunque resuelve el problema del contexto, su eficiencia de ejecución es baja y tiene dificultades para manejar una gran cantidad de parámetros.

Desde 2015, Shazeer y otros comenzaron a desarrollar un sustituto para RNN, y el resultado final fue el Transformer. En comparación con RNN, el Transformer tiene dos grandes innovaciones: la primera es el uso de codificación de posición en lugar de diseño cíclico, lo que permite el cálculo en paralelo y mejora significativamente la eficiencia del entrenamiento; la segunda es que se ha mejorado aún más la capacidad de comprensión del contexto.

Transformer resolvió múltiples problemas técnicos de una vez, convirtiéndose gradualmente en la solución principal para el procesamiento del lenguaje natural. Transformó los grandes modelos de una investigación teórica a un puro problema de ingeniería.

En 2019, OpenAI desarrolló GPT-2 basado en Transformer, sorprendiendo al mundo académico. Google lanzó inmediatamente una IA más potente: Meena. En comparación con GPT-2, Meena no presenta innovaciones algorítmicas, sino que simplemente aumentó los parámetros de entrenamiento y la potencia de cálculo. Este método de "apilamiento violento" dejó una profunda impresión en el autor del Transformer, Vaswani.

La aparición del Transformer ha ralentizado la velocidad de innovación en algoritmos fundamentales en el ámbito académico. Elementos de ingeniería como la ingeniería de datos, la escala de computación y la arquitectura de modelos se han convertido gradualmente en claves para la competencia en IA. Cualquier empresa con un cierto nivel de capacidad técnica puede desarrollar grandes modelos.

El científico de la computación Andrew Ng señaló durante una charla en la Universidad de Stanford: "La IA es un conjunto de herramientas que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y ahora la IA generativa. Todas estas son tecnologías generales, similares a la electricidad y a Internet."

Aunque OpenAI sigue siendo el líder en LLM, las agencias de análisis de semiconductores creen que la ventaja de GPT-4 proviene principalmente de soluciones de ingeniería; si se abre, cualquier competidor podría copiarlo rápidamente. El analista prevé que otras grandes empresas tecnológicas podrán crear pronto modelos grandes con un rendimiento comparable al de GPT-4.

La vulnerabilidad del foso

Hoy en día, la "batalla de los cientos de modelos" ya no es una exageración, sino una realidad objetiva.

El informe muestra que, hasta julio de este año, el número de grandes modelos en China alcanzó los 130, superando los 114 de Estados Unidos. Además de China y Estados Unidos, otros países ricos también han lanzado grandes modelos locales: como Bhashini, liderado por el gobierno indio, y HyperClova X, desarrollado por la empresa de internet surcoreana Naver.

Esta escena parece regresar a los inicios de Internet, una época de intensa competencia entre capital y tecnología.

Como se mencionó anteriormente, el Transformer convierte a los grandes modelos en un problema puramente ingenieril; siempre que haya talento, financiación y hardware, se pueden apilar parámetros para lograrlo. Sin embargo, la disminución de la barrera de entrada no significa que todos puedan convertirse en gigantes de la era de la IA.

Tomando como ejemplo "Animal Wars" mencionado al principio del artículo: aunque Falcon ha superado a Llama en algunos rankings, su impacto real en el Meta es limitado.

Como es bien sabido, las empresas comparten sus logros de investigación y desarrollo no solo para compartir avances tecnológicos, sino también con la esperanza de aprovechar la sabiduría colectiva. A medida que la academia y la industria continúan utilizando y mejorando Llama, Meta puede aplicar estos logros a sus propios productos.

Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la verdadera ventaja competitiva. Meta estableció su estrategia de código abierto ya en 2015 al fundar su laboratorio de IA; Zuckerberg, que comenzó con las redes sociales, entiende bien el "mantenimiento de las relaciones con los usuarios".

Por ejemplo, en octubre de este año, Meta organizó un evento titulado "Incentivos para Creadores de IA": los desarrolladores que utilizan Llama 2 para abordar problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir una financiación de 500,000 dólares.

Hoy en día, la serie Llama de Meta se ha convertido en un referente de LLM de código abierto. A principios de octubre, 8 de los 10 primeros LLM en un ranking de código abierto se desarrollaron basándose en Llama 2, utilizando su protocolo de código abierto. Solo en esta plataforma, hay más de 1500 LLM que utilizan el protocolo de código abierto Llama 2.

Por supuesto, mejorar el rendimiento como Falcon también es una estrategia, pero actualmente la mayoría de los LLM todavía tienen una diferencia clara con GPT-4.

Por ejemplo, recientemente, GPT-4 ocupó el primer lugar en la prueba AgentBench con una puntuación de 4.41. AgentBench fue lanzado por varias universidades reconocidas para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en entornos abiertos multidimensionales. Los resultados de la prueba mostraron que el segundo lugar, Claude, solo obtuvo 2.77 puntos, con una diferencia significativa. Las puntuaciones de otros LLM de código abierto reconocidos rondan los 1 punto, menos de una cuarta parte de GPT-4.

Es importante destacar que GPT-4 se lanzó en marzo de este año, lo que representa un logro más de seis meses después de que los competidores globales comenzaran a alcanzarlo. OpenAI puede mantener su posición de liderazgo gracias a su equipo de investigación de alto nivel y a la experiencia acumulada a lo largo del tiempo.

En otras palabras, la ventaja clave de los grandes modelos no es la escala de parámetros, sino la construcción del ecosistema (ruta de código abierto) o la capacidad de inferencia pura (ruta de código cerrado).

A medida que la comunidad de código abierto se vuelve cada vez más activa, el rendimiento de los LLM podría converger, ya que todos están utilizando arquitecturas de modelos y conjuntos de datos similares.

Otra pregunta más intuitiva es: aparte de Midjourney, parece que no hay ningún otro gran modelo que haya logrado ser rentable.

Desafíos de la anclaje de valor

En agosto de este año, un artículo titulado "OpenAI podría declararse en quiebra a finales de 2024" llamó la atención. La idea principal del artículo se puede resumir así: OpenAI quema dinero demasiado rápido.

El texto menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con pérdidas de aproximadamente 540 millones de dólares en 2022, dependiendo de la inversión de Microsoft para mantenerse.

Aunque el título puede parecer sensacionalista, refleja la situación general de los proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.

Los altos costos significan que actualmente solo los fabricantes de chips como NVIDIA se benefician principalmente del auge de la IA.

Según la consultora Omdia, NVIDIA vendió más de 300,000 chips H100 en el segundo trimestre de este año. Este es un chip de IA eficiente, que las empresas tecnológicas y las instituciones de investigación de todo el mundo están compitiendo por comprar. Si apilamos esos 300,000 H100, su peso es equivalente al de 4.5 aviones Boeing 747.

Los ingresos de Nvidia se dispararon, con un aumento interanual del 854%, lo que sorprendió a Wall Street. Actualmente, el precio del H100 en el mercado de segunda mano ha sido inflado a entre 40,000 y 50,000 dólares, mientras que su costo de materiales es de solo alrededor de 3,000 dólares.

El alto costo de la potencia de cálculo ha obstaculizado el desarrollo de la industria en cierta medida. Sequoia Capital estimó que las empresas tecnológicas de todo el mundo invertirán aproximadamente 200 mil millones de dólares al año en la construcción de infraestructura para modelos grandes; en comparación, los modelos grandes solo pueden generar hasta 75 mil millones de dólares en ingresos al año, lo que deja una brecha de al menos 125 mil millones de dólares.

Además, a excepción de unas pocas como Midjourney, la mayoría de las empresas de software, después de invertir enormes costos, aún no han encontrado un modelo de negocio claro. Incluso los líderes de la industria como Microsoft y Adobe enfrentan desafíos en sus negocios de IA.

La herramienta de generación de código AI GitHub Copilot, desarrollada en colaboración entre Microsoft y OpenAI, cobra una tarifa mensual de 10 dólares, pero debido a los costos de infraestructura, Microsoft está perdiendo 20 dólares al mes. Los usuarios intensivos incluso pueden hacer que Microsoft pierda 80 dólares al mes. Por lo tanto, se puede suponer que el Microsoft 365 Copilot, que tiene un precio de 30 dólares, podría estar perdiendo aún más.

De igual manera, Adobe, que acaba de lanzar la herramienta Firefly AI, también ha introducido rápidamente un sistema de puntos para evitar que los usuarios abusen y causen pérdidas a la empresa. Una vez que los usuarios superen los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.

Es importante destacar que Microsoft y Adobe ya cuentan con escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras que la mayoría de los modelos de gran escala, su principal escenario de aplicación sigue siendo el chat.

No se puede negar que, sin la aparición de OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido. Sin embargo, en la etapa actual, el valor creado por el entrenamiento de grandes modelos aún es discutible.

Con el aumento de la competencia homogénea y la constante aparición de modelos de código abierto, los proveedores de grandes modelos en solitario pueden enfrentar una mayor presión para sobrevivir.

Así como el éxito del iPhone 4 no dependió únicamente de su procesador A4, sino de su capacidad para ejecutar diversas aplicaciones interesantes, el verdadero valor de la IA puede manifestarse más en sus escenarios de aplicación concretos.

GPT1.54%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
0/400
WalletManagervip
· 08-04 16:48
Hablar de más no ayuda, solo se trata de quién tiene más parámetros en el modelo.
Ver originalesResponder0
LuckyHashValuevip
· 08-02 08:00
En Japón están haciendo un gran trabajo con la IA.
Ver originalesResponder0
PaperHandSistervip
· 08-02 07:54
Estos dos discuten quién gana, pero no son tan alcistas como GPT4.
Ver originalesResponder0
BridgeTrustFundvip
· 08-02 07:46
Una montaña no puede albergar dos ovejas. ¿Quién ganó?
Ver originalesResponder0
SquidTeachervip
· 08-02 07:45
¡Es solo un rollo duro, un rollo duro!
Ver originalesResponder0
SurvivorshipBiasvip
· 08-02 07:35
¿No es eso una pelea entre un alpaca y un halcón?
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)