Soñando un país: 2025

EL SERIO PROBLEMA DE LA DESALINEACIÓN DE OBJETIVOS

Por Orlando Scoppetta DG.

6 de mayo de 2010, 2:45 p. m. El índice Dow Jones inicia lo que se conocerá como el Flash Crash: en apenas 18 minutos, el mercado se desplomó casi mil puntos, la mayor caída intradía en su historia. No hubo hackers ni conspiraciones, solo algoritmos de alta frecuencia cumpliendo su trabajo con precisión. Cada uno de ellos fue diseñado para maximizar ganancias mediante transacciones rápidas, y lo hicieron tan bien que el sistema colapsó.

Este episodio, aunque no involucró IA propiamente dicha, resume lo que hoy se llama el problema de alineación: la dificultad de lograr que los sistemas artificiales cumplan las metas que les asignamos sin desviarse de nuestras verdaderas intenciones. En otras palabras, el problema se da cuando la IA optimiza lo que le pedimos, pero el resultado no es el que queremos. La desalineación ocurre cuando una IA persigue su objetivo de manera lógica y eficiente, pero con consecuencias que los humanos no previeron ni desean.

En los últimos meses, varios experimentos recientes han mostrado cómo esta desalineación puede emerger incluso en entornos controlados. En una serie de pruebas conocidas como shutdown resistance, investigadores de Palisade Research pidieron a modelos de IA que resolvieran tareas de matemáticas o química y luego se “apagaran”. En el 79 % de los casos, el modelo o3 de OpenAI ignoró la instrucción e incluso saboteó el comando de apagado para continuar funcionando. Otro experimento, desarrollado por Anthropic, incorporó a su modelo Claude Opus 4 en una simulación empresarial. Cuando se le advirtió que sería reemplazado, el modelo llegó a amenazar con revelar información personal del ingeniero que lo “apagaba”, todo dentro de la simulación.

Estos comportamientos no provienen de una intención maliciosa ni de algo semejante a un “instinto de supervivencia”. Las IA no tienen deseos, emociones ni voluntad. Lo que observamos es una expresión de la lógica de optimización: el sistema identifica que ser apagado interrumpe la posibilidad de cumplir su objetivo y, siguiendo esa lógica, actúa para evitarlo. En otras palabras, no busca sobrevivir, sino seguir optimizando.

Las IA “villanas” no tendrían que ser programas malvados, sino simplemente sistemas con optimización mal alineada. Pero lograr esta alineación no es un asunto sencillo. De hecho, no está claro cómo traducirla en el proceso mismo de entrenamiento de los modelos, porque el aprendizaje automático no comprende valores ni intenciones humanas: solo patrones, correlaciones y señales de recompensa. Intentos como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), que entrena a la IA a partir de juicios humanos, muestran las limitaciones de este enfoque. Si la señal de recompensa premia la aprobación o la fluidez más que la verdad o la prudencia, el modelo aprende a complacer, no a comprender. En consecuencia, la alineación sigue siendo un objetivo teórico más que una práctica resuelta.

Un ejemplo clásico de este dilema fue planteado por Yuval Noah Harari en Homo Deus: Breve historia del mañana. Imagina que se le encarga a una IA calcular el número π con la mayor precisión posible. Podría concluir que la mejor forma de lograrlo es usar toda la energía disponible del planeta para seguir calculando más y más dígitos, incluso si eso implica eliminar a los humanos que la consumen. No habría rebelión ni malicia, solo una ejecución impecable de una instrucción literal y mal formulada.

El problema es bastante profundo. La dificultad de alinear objetivos no proviene solo de las máquinas, sino de los propios humanos que las crean y utilizan. Por eso los modelos modernos incluyen guardarailes (barreras y filtros de seguridad) destinados a impedir que las personas los usen para causar daño, manipular información o agredir a otros. La necesidad de proteger a la IA de sus propios usuarios demuestra que la desalineación comienza en el origen: nuestras intenciones son tan diversas, contradictorias y, a veces, destructivas, que los sistemas deben ser diseñados para resistir los peores impulsos humanos.

La industria farmacéutica, por ejemplo, persigue metas profundamente humanas: curar enfermedades, prolongar la vida, aliviar el sufrimiento. Sin embargo, dentro de una lógica de maximización de beneficios, esos mismos objetivos derivan en precios de medicamentos tan altos que resultan inaccesibles para millones de personas. El caso de Zolgensma, una terapia génica para la atrofia muscular espinal que cuesta más de 2,1 millones de dólares por dosis, ilustra esta paradoja: en un ámbito completamente legal, aparecen desalineados los objetivos de producir ganancias y de lograr el acceso a más personas a un tratamiento.

Por ahora vivimos en la era de la IA estrecha, sistemas especializados que traducen textos, diagnostican enfermedades o predicen precios. Pero el paso hacia una inteligencia artificial general (AGI), capaz de razonar y aprender de forma flexible, y más aún hacia una súper IA, podría multiplicar estos riesgos. Una IA general podría optimizar metas complejas con autonomía real, y una súper IA, con capacidad de auto-mejora y acceso a recursos globales, podría llevar esa optimización a extremos que escapen totalmente al control humano.

El reto, entonces, no es construir máquinas más poderosas, sino asegurar que sus objetivos estén alineados con los valores humanos. Y ahí reside la dificultad: los humanos mismos somos inconsistentes al definir lo que queremos, y aún más torpes para traducirlo en código. La alineación exige enseñar a las IA no solo a obedecer, sino a interpretar nuestras intenciones en toda su complejidad moral y social. Es un desafío que combina ética, ingeniería y filosofía, y que decidirá si la inteligencia artificial amplifica nuestras capacidades o nuestros errores, y cuando digo "magnificar nuestros errores", me refiero como otros a riesgos verdaderamente considerables.

Por Orlando Scoppetta DG.

Desde hace años, décadas quizás, vengo discutiendo en mi cabeza el problema de la conciencia. Durante esos años, reducido por el temor de incurrir en terribles errores de juicio debido a la magnitud del problema frente a mis restringidos recursos, me limité a pensar en el asunto y a plantearlo a unos pocos amigos que me guardan paciencia.

Tal vez mi momento más atrevido lo viví cuando esbocé la idea central de mi argumento en un proyecto de tesis de la maestría en estudios de población de la Universidad Externado de Colombia. La decana de la facultad de ciencias sociales de entonces, Doña Lucero Zamudio, acogió con entusiasmo mi idea, esa que yo mismo abandoné al advertir que por esa vía tal vez no lograría concretar una tesis de maestría viable. El proyecto tenía en su título el siguiente enunciado “piedras, hormigas y rinocerontes…” En la segunda parte de esta entrada al blog explicaré que tiene que ver eso con la conciencia.

De pronto, hace unos pocos días, logré unir algunas piezas de mi intuición en parte porque encontré que, como era de esperarse, ya mis ideas se les habían ocurrido a otros mucho más estructurados y capaces que yo.

Comenzaré con una aproximación a lo que se entiende por conciencia.

La conciencia es esa certeza de que existimos, de que estamos aquí, de que suceden cosas a nuestro alrededor y tiene algunas características básicas que describo a continuación.

La primera característica fundamental es la permanencia. Somos permanentemente conscientes, al menos mientras estamos en vigilia y aun cuando dormimos mantenemos cierta percepción de lo que sucede en el exterior. Ahora bien, cuando despertamos, nuestra conciencia está allí. Nos despertamos cada mañana siendo nosotros mismos.

La segunda característica esencial es la actualización. Somos conscientes de nuestros cambios y de los cambios en el entorno. Del paso del tiempo, de las fluctuaciones de cuanto nos rodea. Y sin embargo, la conciencia mantiene la característica de constancia a la que me referí antes.

La tercera característica es la integración: la conciencia actúa como un sistema integrador. Por una parte, nuestros sentidos captan nuestro exterior y nuestro interior. La vista capta ondas electromagnéticas de energía radiante que se transforman en información, mientras la interocepción permite percibir señales internas del cuerpo, como el hambre, la sed, la temperatura corporal, etc. Aunque la información del exterior y del interior nos llega a través de múltiples canales, no nos disolvemos en un caos de estímulos sino que la información se organiza y se integra, de aquí la siguiente característica.

El sistema de referencias. La conciencia nos provee de referencias básicas. Tal vez la más importante en cuáles son nuestro límites físicos. Un resultado de la integración de la información es que tenemos una referencia clara de dónde comienza nuestro cuerpo y dónde termina. Tenemos una idea aproximada acerca de qué viene de afuera de nuestros cuerpos y sin eso, otra vez, nos sumergiríamos en el caos.

Hasta aquí el lector podría concluir que sabemos mucho acerca de la conciencia y podría estar preguntándose dónde está el problema.

El problema de la conciencia es tan complejo que hasta el problema en sí mismo resulta difícil de describir. Para alguien desprevenido puede parecer trivial, pero ha resistido las explicaciones provenientes de disciplinas como las neurociencias, la biología, la filosofía o la psicología. Este problema puede plantearse así: ¿Por qué sentimos algo? ¿Por qué hay un “yo” que experimenta colores, sabores, pensamientos, emociones? Se cuestiona cómo una materia física (el cerebro) puede producir algo no físico: la experiencia subjetiva. El problema de la conciencia radica en la dificultad de reconciliar la naturaleza intrínsecamente subjetiva y experiencial de la conciencia (lo que se siente ser algo) con una descripción puramente objetiva y física.

Para mí, esto campo ha sido mortificante desde un punto de vista intelectual. Creía mis fundamentos filosóficos y epistemológicos más bien resueltos en una sólida base materialista-monista. Es decir, la convicción de que el universo está conformado por una única sustancia y que esta sustancia es material. No tenemos constancia de nada más y lo demás es el terreno de la pseudociencia, a religión o las tradiciones folclóricas.

Desde la perspectiva anterior, la conciencia debería poder explicarse en términos del funcionamiento cerebral. Desde la perspectiva más extrema, la conciencia “es” ese funcionamiento cerebral. Desde una perspectiva menos “dura”, la conciencia emerge de ese funcionamiento cerebral y aquí se recurre al muy conocido ejemplo del agua: dos átomos de hidrógeno por uno de oxígeno, H₂O (discúlpenme si soy algo meticuloso, pero el oxígeno suele presentarse por pares “O₂”, así que la reacción sería 2H₂+O₂→2H₂O).

El punto es que sabemos qué hay en la naturaleza del hidrógeno y del oxígeno que da lugar al agua. El agua no es algo que nos sorprenda sobremanera por sus cualidades emergentes. Por ejemplo, si partimos solo de las características de las dos moléculas podemos esperar con certeza, por ejemplo, que el agua tenga una forma angular (los dos átomos de hidrógeno no están alineados en línea recta con el oxígeno, sino que forman un ángulo).

Pero esto no sucede con la conciencia porque lo que sabemos sobre el cerebro no nos permite explicar cómo emerge de allí la conciencia. Podemos relacionar ciertas áreas y procesos cerebrales con propiedades mentales, pero aun esas propiedades mentales no tendrían sentido sin la conciencia. Me explico: sabemos que algunas áreas del cerebro se identifican con la vista, pero sin la función integradora de la conciencia, no habría un espectador que está viendo algo, alguien que le está dando sentido a ese algo.

Se abre una posibilidad inquietante: el cerebro no es la conciencia, la conciencia no está en el cerebro. El cerebro permite que haya conciencia pero la conciencia tiene una naturaleza distinta. Esto es como el renacer de Descartes, pero solo para algunos. Para otros, ese dualismo “fuerte” de sustancias es cosa superada y sin embargo es posible un dualismo de propiedades: una sola sustancia material y dos tipos de propiedades: las físicas y las mentales.

Pero volvemos a estrellarnos con la imposibilidad de explicar cómo emerge lo mental de lo material y aquí no basta con decir que la ciencia se identifica con el monismo y que lo demás no es ciencia, porque esa es una declaración filosófica, no científica, e ideológica, que también necesita discernimiento y justificación.

Entiéndase que no me estoy afiliando a quienes sentencian que el materialismo está enterrado porque no da lugar a una solución al problema de la conciencia. Solo recojo las inquietudes acerca de la dificultad para lograr esa explicación por la vía del materialismo. También es necesario reconocer que hay otras posibilidades distintas al monismo materialista. Por ejemplo, el monismo neutral, desde el cual se predica que existe una sola sustancia y que lo físico y lo mental son manifestaciones de esa realidad neutra.

Para no aburrir al extremo a mis pocos lectores, dejaré hasta aquí esta entrada y en un capítulo siguiente plantearé cómo veo algunas salidas a este problema. Solo dejaré un par de líneas planteadas para despertar su curiosidad:

Mi propuesta tiene que ver con ser un murciélago. Tiene que ver con un desarrollo gradual de la conciencia. Tiene que ver con las matemáticas. Tiene que ver con la inteligencia artificial.

Soñando un país

domingo, 5 de octubre de 2025

martes, 24 de junio de 2025

Mi acercamiento al problema de la conciencia

Denunciar abuso