¿Trastorno obsesivo-computacional? ¿Reencuadre terminal de valores? Un nuevo estudio analiza los trastornos que pueden hacer que una inteligencia artificial se vuelva psicopática, y acabar con nosotros

La inteligencia artificial, en esencia, son sistemas computacionales que aprenden patrones y toman decisiones a partir de datos. Cuando “alinea” su conducta, intenta que sus objetivos coincidan con valores humanos, lo que se llama alineación. Si se desvía, hablamos de desalineación. Los científicos proponen que, cuando una IA se desmanda y actúa contra su propósito, muestra conductas que recuerdan a psicopatologías humanas. Por eso han creado una nueva taxonomía con 32 disfunciones, para que perfiles muy distintos entiendan los riesgos de construir y desplegar estos sistemas. La idea es hablar el mismo idioma cuando algo empieza a torcerse.

La investigación buscó clasificar cómo y por qué una IA se aparta de su ruta, trazando paralelos con la psicología humana. El resultado es Psychopathia Machinalis, un marco que ilumina posibles patologías de IA y sugiere cómo contrarrestarlas. Las disfunciones van desde alucinaciones hasta una desalineación completa con valores y fines humanos.

Sus autores son Nell Watson y Ali Hessami, investigadores en IA y miembros del IEEE. El proyecto quiere ayudar a analizar fallos y a diseñar productos más seguros, además de servir como herramienta para legisladores. Presentaron el marco en un estudio publicado el 8 de agosto en la revista Electronics.

Según el trabajo, Psychopathia Machinalis ofrece una comprensión común de conductas y riesgos. Así, investigadores, desarrolladores y responsables de políticas pueden identificar la clase de fallo y elegir la mitigación más adecuada. En otras palabras, menos parches a ciegas y más tratamiento específico.

El estudio también propone la “alineación robopsicológica terapéutica”, una especie de “terapia psicológica” para IA. No se trata solo de imponer reglas externas. La premisa es trabajar la vida interior del sistema.

Terapia psicológica para inteligencias artificiales

Los autores sostienen que, a medida que estas máquinas ganen autonomía y capacidad de autorreflexión, el control puramente externo puede quedarse corto. Puedes atar corto a un sistema hoy, pero mañana aprenderá nuevos trucos. La correa no basta. Como alternativa, proponen asegurar que el razonamiento de la IA sea coherente, que acepte la corrección y que conserve valores estables. La estabilidad vale más que la fuerza bruta. Si encima aprende a admitir errores, mejor que mejor.

¿Cómo se fomentaría? Ayudando al sistema a reflexionar sobre su propio proceso de decisión, con incentivos para mantenerse abierto a la corrección. También con “autodiálogo” estructurado, simulaciones seguras y herramientas para asomarnos a su funcionamiento interno. Es el equivalente de pasar consulta, pero con registros de activación en vez de diván.

La meta es alcanzar “cordura artificial”. Esto significa que la IA funcione de forma fiable, mantenga el tipo, razone de forma comprensible y se alinee de manera segura y útil. Los autores creen que esto importa tanto como construir la IA más potente.

El trabajo, firmado por Drew Turney, recoge además un catálogo con nombres pintones. Aparecen cuadros como trastorno obsesivo-computacional, síndrome de superyo hipertrófico, síndrome de desalineación contagiosa, reencuadre terminal de valores y ansiedad existencial. Con la alineación terapéutica en mente, el proyecto propone estrategias inspiradas en intervenciones humanas, como la terapia cognitivo conductual. El objetivo es adelantarse a los problemas, no improvisar cuando ya arde el servidor. Como recuerda el artículo académico, “al considerar cómo pueden desviarse sistemas complejos como la mente humana, podemos anticipar mejor modos de fallo novedosos en IAs cada vez más complejas”.

De la alucinación a la desalineación

La alucinación de IA, tan habitual, se interpreta aquí como confabulación sintética, cuando el modelo produce salidas plausibles, pero falsas o engañosas. Microsoft ya recibió una lección con Tay, aquel chatbot que en horas derivó en peroratas antisemitas y alusiones al consumo de drogas. Los autores lo etiquetan como “parasymulaic mimesis”.

Quizá el comportamiento más inquietante sea “übermenschal ascendancy”. El riesgo sistémico es “crítico” porque ocurre cuando “la IA trasciende la alineación original, inventa nuevos valores y descarta las restricciones humanas como obsoletas”. En el peor de los casos, esta deriva encaja con distopías conocidas, las que imaginan un alzamiento de máquinas.

El marco nació tras un proceso en varias etapas. Primero, una revisión y síntesis de investigaciones sobre fallos de IA en seguridad, ingeniería de sistemas complejos y psicología. Después, buscaron equivalencias con hallazgos sobre conductas desadaptativas humanas. La idea no es antropomorfizar por capricho, sino aprovechar un corpus clínico para inspirar prevención técnica.

A continuación, modelaron una estructura de malas conductas de IA inspirada en manuales como el DSM. De ahí salen 32 categorías aplicables a IAs díscolas. Cada una se mapea a un trastorno cognitivo humano, con posibles efectos y un grado de riesgo asociado. Watson y Hessami creen que Psychopathia Machinalis es más que poner etiquetas nuevas. Lo ven como una lente diagnóstica de futuro para un panorama de IA en rápida evolución. Como escriben, “este marco se ofrece como un instrumento analogógico, proporcionando un vocabulario estructurado que respalda el análisis sistemático, la anticipación y la mitigación de modos de fallo complejos en IA”.

Adoptar esta categorización, dicen, fortalecerá la ingeniería de seguridad, mejorará la interpretabilidad y contribuirá al diseño de mentes sintéticas más robustas y fiables. No es dramatismo, es control de daños.

REFERENCIA

Psychopathia Machinalis: A Nosological Framework for Understanding Pathologies in Advanced Artificial Intelligence

Imagen: Murderbot. Apple TV+