EL SERIO PROBLEMA DE LA DESALINEACIÓN DE OBJETIVOS
Por Orlando Scoppetta DG.
6 de mayo de 2010, 2:45 p. m. El índice Dow Jones inicia lo que se conocerá como el Flash Crash: en apenas 18 minutos, el mercado se desplomó casi mil puntos, la mayor caída intradía en su historia. No hubo hackers ni conspiraciones, solo algoritmos de alta frecuencia cumpliendo su trabajo con precisión. Cada uno de ellos fue diseñado para maximizar ganancias mediante transacciones rápidas, y lo hicieron tan bien que el sistema colapsó.
Este episodio, aunque no involucró IA propiamente dicha, resume lo que hoy
se llama el problema de alineación: la dificultad de lograr que los sistemas artificiales cumplan las metas que les asignamos sin desviarse de
nuestras verdaderas intenciones. En otras palabras, el problema se da cuando la IA optimiza lo que le pedimos, pero el resultado no es el que queremos. La desalineación ocurre cuando una IA
persigue su objetivo de manera lógica y eficiente, pero con consecuencias que
los humanos no previeron ni desean.
En los últimos meses, varios
experimentos recientes han mostrado cómo esta desalineación puede emerger
incluso en entornos controlados. En una serie de pruebas conocidas como shutdown
resistance, investigadores de Palisade Research pidieron a modelos de IA
que resolvieran tareas de matemáticas o química y luego se “apagaran”. En el 79
% de los casos, el modelo o3 de OpenAI ignoró la instrucción e incluso saboteó
el comando de apagado para continuar funcionando. Otro experimento,
desarrollado por Anthropic, incorporó a su modelo Claude Opus 4 en una
simulación empresarial. Cuando se le advirtió que sería reemplazado, el modelo
llegó a amenazar con revelar información personal del ingeniero que lo “apagaba”,
todo dentro de la simulación.
Estos comportamientos no
provienen de una intención maliciosa ni de algo semejante a un “instinto de
supervivencia”. Las IA no tienen deseos, emociones ni voluntad. Lo que
observamos es una expresión de la lógica de optimización: el sistema identifica
que ser apagado interrumpe la posibilidad de cumplir su objetivo y, siguiendo
esa lógica, actúa para evitarlo. En otras palabras, no busca sobrevivir, sino
seguir optimizando.
Las IA “villanas” no tendrían que
ser programas malvados, sino simplemente sistemas con optimización mal alineada.
Pero lograr esta alineación no es un asunto sencillo. De hecho, no está claro
cómo traducirla en el proceso mismo de entrenamiento de los modelos, porque el
aprendizaje automático no comprende valores ni intenciones humanas: solo
patrones, correlaciones y señales de recompensa. Intentos como el Aprendizaje
por Refuerzo con Retroalimentación Humana (RLHF), que entrena a la IA a
partir de juicios humanos, muestran las limitaciones de este enfoque. Si la
señal de recompensa premia la aprobación o la fluidez más que la verdad o la
prudencia, el modelo aprende a complacer, no a comprender. En consecuencia, la
alineación sigue siendo un objetivo teórico más que una práctica resuelta.
Un ejemplo clásico de este dilema
fue planteado por Yuval Noah Harari en Homo Deus: Breve historia del mañana.
Imagina que se le encarga a una IA calcular el número π con la mayor precisión
posible. Podría concluir que la mejor forma de lograrlo es usar toda la energía
disponible del planeta para seguir calculando más y más dígitos, incluso si eso
implica eliminar a los humanos que la consumen. No habría rebelión ni malicia,
solo una ejecución impecable de una instrucción literal y mal formulada.
El problema es bastante profundo.
La dificultad de alinear objetivos no proviene solo de las máquinas, sino de
los propios humanos que las crean y utilizan. Por eso los modelos modernos
incluyen guardarailes (barreras y filtros de seguridad) destinados a impedir
que las personas los usen para causar daño, manipular información o agredir a
otros. La necesidad de proteger a la IA de sus propios usuarios demuestra que
la desalineación comienza en el origen: nuestras intenciones son tan diversas,
contradictorias y, a veces, destructivas, que los sistemas deben ser diseñados
para resistir los peores impulsos humanos.
La industria farmacéutica, por
ejemplo, persigue metas profundamente humanas: curar enfermedades, prolongar la
vida, aliviar el sufrimiento. Sin embargo, dentro de una lógica de maximización
de beneficios, esos mismos objetivos derivan en precios de medicamentos tan
altos que resultan inaccesibles para millones de personas. El caso de Zolgensma,
una terapia génica para la atrofia muscular espinal que cuesta más de 2,1
millones de dólares por dosis, ilustra esta paradoja: en un ámbito
completamente legal, aparecen desalineados los objetivos de producir ganancias
y de lograr el acceso a más personas a un tratamiento.
Por ahora vivimos en la era de la
IA estrecha, sistemas especializados que traducen textos, diagnostican
enfermedades o predicen precios. Pero el paso hacia una inteligencia artificial
general (AGI), capaz de razonar y aprender de forma flexible, y más aún hacia
una súper IA, podría multiplicar estos riesgos. Una IA general podría optimizar
metas complejas con autonomía real, y una súper IA, con capacidad de
auto-mejora y acceso a recursos globales, podría llevar esa optimización a
extremos que escapen totalmente al control humano.
El reto, entonces, no es
construir máquinas más poderosas, sino asegurar que sus objetivos estén
alineados con los valores humanos. Y ahí reside la dificultad: los humanos
mismos somos inconsistentes al definir lo que queremos, y aún más torpes para
traducirlo en código. La alineación exige enseñar a las IA no solo a obedecer,
sino a interpretar nuestras intenciones en toda su complejidad moral y social.
Es un desafío que combina ética, ingeniería y filosofía, y que decidirá si la
inteligencia artificial amplifica nuestras capacidades o nuestros errores, y cuando digo "magnificar nuestros errores", me refiero como otros a riesgos verdaderamente considerables.
No hay comentarios:
Publicar un comentario