A pocas horas de su gran evento anual, Apple niega que estemos ante una revolución de la IA: «Colapsa ante problemas complejos»

A pocas horas de su gran evento anual, Apple niega que estemos ante una revolución de la IA: "Colapsa ante problemas complejos"

Cada mes de junio, los focos de la industria tecnológica se dirigen a Cupertino: su evento WWDC (Apple Worldwide Developers Conference) no sólo define tendencias de hardware y software, sino que acostumbra a marca una pauta cultural y económica en la industria tecnológica. Este año, sin embargo, Apple ha hecho algo poco habitual en la misma antesala del esperado evento: publicar un documento de investigación.

Un ‘paper’ que además, lejos de celebrar avances en inteligencia artificial, pretende desmontar el optimismo que rodea a los modelos actuales de IA generativa y de razonamiento.

El artículo, titulado «The Illusion of Thinking«, ofrece una revisión crítica de los denominados Large Reasoning Models (LRMs), una nueva categoría de modelos de lenguaje diseñados para simular procesos de razonamiento humano. Su conclusión es tajante: incluso los modelos más avanzados colapsan cuando se enfrentan a problemas complejos, poniendo en entredicho la idea de que estemos cerca de una auténtica revolución cognitiva artificial que nos sitúe a las puertas de la AGI.

En contraste con la visión crítica de Apple, empresas como OpenAI y Anthropic han hecho declaraciones audaces en los últimos meses. Sam Altman afirmaba el pasado mes de septiembre que la AGI llegará «en unos pocos miles de días». Dario Amodei, CEO de Anthropic, fue más lejos: predijo la llegada de una AGI con capacidades superiores a las humanas entre 2026 y 2027.

Sin embargo, el trabajo de Apple ofrece una postura contrapuesta, en lugar de acercarnos a la AGI, llevamos tiempo afinando modelos que son cada vez más persuasivos, pero no más inteligentes.

¿Qué son los LRMs y por qué son relevantes?

En los últimos dos años, hemos presenciado una carrera acelerada hacia la inteligencia artificial general (AGI), esa hipotética forma de IA capaz de realizar cualquier tarea intelectual humana. Como parte de esa evolución, las grandes tecnológicas han presentado modelos mejorados que no sólo generan texto, sino que intentan ‘pensar’ antes de responder.

Esto ha dado lugar al auge de los Large Reasoning Models, como Claude 3.7 Sonnet Thinking de Anthropic, o los modelos de la serie ‘o-‘ de OpenAI, entrenados para desarrollar ‘cadenas de pensamiento’ antes de emitir una respuesta.

Estos modelos simulan un proceso reflexivo: generan pasos intermedios, evalúan sus propias ideas, descartan caminos erróneos y, en teoría, convergen hacia una solución más robusta. Sin embargo, Apple se ha encargado de desinflar este punto de vista.

Las afimaciones del estudio de Apple

El estudio fue desarrollado por investigadores de Apple, incluyendo a Samy Bengio, Parshin Shojaee e Iman Mirzadeh, y se basa en una metodología rigurosa: en lugar de utilizar benchmarks tradicionales como problemas matemáticos contaminados por datos de entrenamiento, el equipo diseñó entornos de rompecabezas controlados, donde es posible aumentar sistemáticamente la complejidad sin cambiar la lógica interna del problema.

Los resultados son reveladores:

  • Tres fases de comportamiento: a baja complejidad, los modelos sin razonamiento (LLMs estándar) son más precisos y eficientes; en complejidad media, los modelos pensantes (LRMs) obtienen mejores resultados gracias a sus mecanismos de reflexión; pero en tareas altamente complejas, ambos tipos de IA colapsan y su precisión cae a cero.
  • Paradoja de escalabilidad: cuando los problemas se vuelven más difíciles, los modelos reducen —en lugar de aumentar— su esfuerzo de razonamiento. Es decir, gastan menos tokens en pensar, aun cuando tienen presupuesto computacional disponible. Esta anomalía sugiere una limitación estructural en su diseño.
  • Sobrepensamiento y errores: en problemas simples, los modelos a menudo llegan a una solución correcta rápidamente, pero luego continúan explorando alternativas erróneas. En los de complejidad media, tardan más en encontrar la respuesta correcta. Y en los complejos, simplemente fallan sistemáticamente.

Este colapso, incluso cuando se les proporcionan algoritmos explícitos para seguir paso a paso, indica que estos modelos no razonan de forma genuina: replican patrones aprendidos pero no comprenden ni internalizan lógica ni causalidad.

«En la sección 4.4 del ‘paper’, tenemos un experimento donde le damos el algoritmo de solución al modelo, y todo lo que tiene que hacer es seguir los pasos. Sin embargo, esto no está ayudando en absoluto a su rendimiento».

La crítica a Apple: Prudencia o confesión de debilidad

La publicación del estudio no ha sido bien recibida por todos. Stephen E. Arnold, veterano analista tecnológico y financiero, sugiere que Apple utiliza este trabajo como coartada para justificar su posición rezagada en el campo de la IA (y, previsiblemente, su ausencia de novedades en este campo en el propio WWDC). En su análisis, señala que mientras otras empresas ya ofrecen asistentes con razonamiento avanzado, Apple aún lidia con una Siri que no ha mejorado sustancialmente desde hace años.

Arnold ve en este estudio un intento de encubrir una reorganización interna de su equipo de IA y el fracaso de lanzamientos previamente anunciados como ‘Apple Intelligence’. Desde su puntos de vista, presentar ‘gráficos en tonos pastel’ y diagnósticos técnicos no es una forma válida de contrarrestar el hecho de que los usuarios aún no tienen acceso real a innovaciones palpables desde el ecosistema Apple.

Una de las críticas más virales provino del analista Pierre Ferragu, de New Street Research, para quien el documento de Apple está lleno de «disparates ontológicos», ya que intenta cuantificar el razonamiento humano —un fenómeno inherentemente subjetivo— con métricas objetivas.

Para Ferragu, mientras el mundo se mueve hacia sistemas de IA con capacidades cognitivas emergentes, Apple corre el riesgo de quedarse atrás por adoptar una visión excesivamente escéptica. Incluso cuestionó la validez del concepto de ‘colapso de precisión‘, insinuando que los desafíos planteados por Apple no reflejan aplicaciones reales, donde los modelos de lenguaje han demostrado una utilidad creciente.

Otras voces celebran el estudio de Apple

El académico y divulgador Gary Marcus, reconocido por su postura crítica hacia los límites del aprendizaje profundo, sí ha dado la bienvenida al trabajo de Apple como un ‘golpe demoledor’ contra las ilusiones que rodean los modelos de IA actuales. En su blog Marcus on AI, expone que estos modelos pueden simular razonamiento, pero no son capaces de abstraer ni generalizar fuera de su distribución de entrenamiento.

Marcus advierte que ‘las cadenas de pensamiento’ generadas por los LRMs no siempre corresponden con lo que los modelos realmente hacen. A menudo, la respuesta final es incorrecta aunque el razonamiento parezca lógico. Esto, para él, pone en evidencia que seguimos en una etapa donde confundimos generación de lenguaje con pensamiento auténtico.

Imagen | Marcos Merino mediante IA

En Genbeta | ‘Razonamiento intuitivo’ para inteligencias artificiales: así promete mejorarlas Microsoft con esta técnica de entrenamiento 


La noticia

A pocas horas de su gran evento anual, Apple niega que estemos ante una revolución de la IA: «Colapsa ante problemas complejos»

fue publicada originalmente en

Genbeta

por
Marcos Merino

.

Publicaciones Similares