domingo, 5 de octubre de 2025

EL SERIO PROBLEMA DE LA DESALINEACIÓN DE OBJETIVOS


Por Orlando Scoppetta DG.

6 de mayo de 2010, 2:45 p. m. El índice Dow Jones inicia lo que se conocerá como el Flash Crash: en apenas 18 minutos, el mercado se desplomó casi mil puntos, la mayor caída intradía en su historia. No hubo hackers ni conspiraciones, solo algoritmos de alta frecuencia cumpliendo su trabajo con precisión. Cada uno de ellos fue diseñado para maximizar ganancias mediante transacciones rápidas, y lo hicieron tan bien que el sistema colapsó.

Este episodio, aunque no involucró IA propiamente dicha, resume lo que hoy se llama el problema de alineación: la dificultad de lograr que los sistemas artificiales cumplan las metas que les asignamos sin desviarse de nuestras verdaderas intenciones. En otras palabras, el problema se da cuando la IA optimiza lo que le pedimos, pero el resultado no es el que queremos. La desalineación ocurre cuando una IA persigue su objetivo de manera lógica y eficiente, pero con consecuencias que los humanos no previeron ni desean.

En los últimos meses, varios experimentos recientes han mostrado cómo esta desalineación puede emerger incluso en entornos controlados. En una serie de pruebas conocidas como shutdown resistance, investigadores de Palisade Research pidieron a modelos de IA que resolvieran tareas de matemáticas o química y luego se “apagaran”. En el 79 % de los casos, el modelo o3 de OpenAI ignoró la instrucción e incluso saboteó el comando de apagado para continuar funcionando. Otro experimento, desarrollado por Anthropic, incorporó a su modelo Claude Opus 4 en una simulación empresarial. Cuando se le advirtió que sería reemplazado, el modelo llegó a amenazar con revelar información personal del ingeniero que lo “apagaba”, todo dentro de la simulación.

Estos comportamientos no provienen de una intención maliciosa ni de algo semejante a un “instinto de supervivencia”. Las IA no tienen deseos, emociones ni voluntad. Lo que observamos es una expresión de la lógica de optimización: el sistema identifica que ser apagado interrumpe la posibilidad de cumplir su objetivo y, siguiendo esa lógica, actúa para evitarlo. En otras palabras, no busca sobrevivir, sino seguir optimizando.

Las IA “villanas” no tendrían que ser programas malvados, sino simplemente sistemas con optimización mal alineada. Pero lograr esta alineación no es un asunto sencillo. De hecho, no está claro cómo traducirla en el proceso mismo de entrenamiento de los modelos, porque el aprendizaje automático no comprende valores ni intenciones humanas: solo patrones, correlaciones y señales de recompensa. Intentos como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), que entrena a la IA a partir de juicios humanos, muestran las limitaciones de este enfoque. Si la señal de recompensa premia la aprobación o la fluidez más que la verdad o la prudencia, el modelo aprende a complacer, no a comprender. En consecuencia, la alineación sigue siendo un objetivo teórico más que una práctica resuelta.

Un ejemplo clásico de este dilema fue planteado por Yuval Noah Harari en Homo Deus: Breve historia del mañana. Imagina que se le encarga a una IA calcular el número π con la mayor precisión posible. Podría concluir que la mejor forma de lograrlo es usar toda la energía disponible del planeta para seguir calculando más y más dígitos, incluso si eso implica eliminar a los humanos que la consumen. No habría rebelión ni malicia, solo una ejecución impecable de una instrucción literal y mal formulada.

El problema es bastante profundo. La dificultad de alinear objetivos no proviene solo de las máquinas, sino de los propios humanos que las crean y utilizan. Por eso los modelos modernos incluyen guardarailes (barreras y filtros de seguridad) destinados a impedir que las personas los usen para causar daño, manipular información o agredir a otros. La necesidad de proteger a la IA de sus propios usuarios demuestra que la desalineación comienza en el origen: nuestras intenciones son tan diversas, contradictorias y, a veces, destructivas, que los sistemas deben ser diseñados para resistir los peores impulsos humanos.

La industria farmacéutica, por ejemplo, persigue metas profundamente humanas: curar enfermedades, prolongar la vida, aliviar el sufrimiento. Sin embargo, dentro de una lógica de maximización de beneficios, esos mismos objetivos derivan en precios de medicamentos tan altos que resultan inaccesibles para millones de personas. El caso de Zolgensma, una terapia génica para la atrofia muscular espinal que cuesta más de 2,1 millones de dólares por dosis, ilustra esta paradoja: en un ámbito completamente legal, aparecen desalineados los objetivos de producir ganancias y de lograr el acceso a más personas a un tratamiento.

Por ahora vivimos en la era de la IA estrecha, sistemas especializados que traducen textos, diagnostican enfermedades o predicen precios. Pero el paso hacia una inteligencia artificial general (AGI), capaz de razonar y aprender de forma flexible, y más aún hacia una súper IA, podría multiplicar estos riesgos. Una IA general podría optimizar metas complejas con autonomía real, y una súper IA, con capacidad de auto-mejora y acceso a recursos globales, podría llevar esa optimización a extremos que escapen totalmente al control humano.

El reto, entonces, no es construir máquinas más poderosas, sino asegurar que sus objetivos estén alineados con los valores humanos. Y ahí reside la dificultad: los humanos mismos somos inconsistentes al definir lo que queremos, y aún más torpes para traducirlo en código. La alineación exige enseñar a las IA no solo a obedecer, sino a interpretar nuestras intenciones en toda su complejidad moral y social. Es un desafío que combina ética, ingeniería y filosofía, y que decidirá si la inteligencia artificial amplifica nuestras capacidades o nuestros errores, y cuando digo "magnificar nuestros errores", me refiero como otros a riesgos verdaderamente considerables.

 


EL SERIO PROBLEMA DE LA DESALINEACIÓN DE OBJETIVOS Por Orlando Scoppetta DG. 6 de mayo de 2010, 2:45 p. m. El índice Dow Jones inicia lo que...