Las imágenes más surrealistas: de la cámara oscura a las redes neuronales tipo DALL E

Retrato robótico de Dalí creado por la red neuronal DALL-E. OpenAI

DALL E: Ha nacido un nuevo tipo de imagen que procede de las capas más profundas de la inteligencia artificial (IA). Pero la historia de la fotografía está plagada de «fantasmas»

Arturo Fuentes Calle, Universitat Politècnica de Catalunya – BarcelonaTech

María no existe.

La imagen a la derecha corresponde a una persona que no existe y que cualquiera puede generar en esta web. Son fantasmas de un tipo de inteligencia artificial generativa responsable de otras creaciones como los famosos deepfakes.

En el siglo XXI somos testigos del nacimiento de un nuevo tipo de imagen que procede de las capas más profundas de la inteligencia artificial (IA).

Desde las representaciones mentales que los primeros humanos formaban alrededor de la palabra y el fuego hasta las automatizadas ha habido un camino tecnológico largo y repleto de momentos increíbles.

Capturar eclipses en una caja oscura

El firmamento siempre fue un escenario fascinante, que dio lugar tanto a interpretaciones mitológicas como científicas.

Hace siglos algunos estudiosos pensaron que en lugar de proyectar la imaginación hacia el firmamento tal vez sería más interesante proyectar la luz hacia el interior de una cámara y estudiarla. Así fue como empezaron a tomarse las primeras imágenes del firmamento. Este fue uno de los usos de la cámara oscura que permitía, mediante la entrada de luz por un pequeño agujero, visualizar la imagen exterior, por ejemplo, un eclipse solar, proyectado sobre una de sus paredes.

Esta es la primera representación de una cámara oscura durante la observación de un eclipse en Lovaina (Bélgica) en enero de 1544, realizada por el astrónomo Reinerus Gemma-Frisius.
Reinerus Gemma-Frisius

Los primeros fantasmas en el siglo XIX

Capturar fenómenos de nuestra realidad está muy bien, pero crear nuestras propias imágenes y proyectarlas iba a resultar un espectáculo memorable.

La linterna mágica fue un tipo de proyector conformado originariamente por una vela, un espejo y un cilindro con lente para concentrar la luz por la que viajaban desde paisajes bucólicos a espectros y demonios, dando pie a un género conocido como fantasmagoría.

El uso de humo y otros efectos como mover el propio proyector permitieron aterrar a las audiencias del siglo XIX.

Ilustración del libro Memorias recreativas, científicas y anecdóticas (1831) del físico y aeronáutico E. G. Robertson que representa una sesión de fantasmagoría ofrecida en París en 1797.
Etienne Gaspard Robertson

Impulsos eléctricos: la primera imagen en la tele

En la segunda década del siglo XX, un retrato en escala de grises de 32 líneas de resolución y 5 imágenes por segundo pasaría a la historia como la primera imagen televisiva.

La experimentación y el conocimiento basado en la electricidad y el electromagnetismo permitieron la llegada progresiva de una nueva generación de imágenes que podían llegar a todos los hogares del mundo al mismo tiempo.

El reto era capturar la escena y, por primera vez, transmitirla de un lugar a otro como ya pasaba con el sonido en la radio. Antes de transmitir se tenía que explorar la escena de forma ordenada, y convertir los cambios de luz en variaciones de corriente eléctrica. Este principio de generación de imagen electromecánica puede verse en este vídeo.

Un bebé fue la primera imagen digital

El bebé de la primera imagen digital de la historia es Walden, el hijo de Russell Kirsch, creada mediante el escaneo de una fotografía analógica en 1957.
Russell A. Kirsch / National Institute of Standards and Technology / Wikimedia Commons

A mediados del siglo XX llegó la primera imagen digital, captada por un escáner. Entonces ni siquiera existía internet abierto a todos los públicos.

Este dispositivo permitía captar las variaciones de intensidad de una fotografía y registrarlas de una forma mucho más precisa, mediante la codificación en celdas individuales, los píxeles.

La imagen convertida en matriz numérica está preparada para ser codificada, mezclada, comprimida, registrada y estudiada mediante las herramientas que provee la revolución digital.

Alucinando con la inteligencia artificial

Si podemos reconocer una cara es porque en el fondo todas las caras se parecen o tienen elementos comunes. Hay posiciones en la fotografía de un rostro donde ciertos valores de los píxeles –como aquellos que definen los labios, la nariz, etc.– son más probables que otros.

La Gioconda con efecto Deep Dream.
Pjfinlay / Wikimedia commos

Modelar una cara desde el entrenamiento con miles de caras es uno de los hitos del aprendizaje automático de la inteligencia artificial. Además, lo interesante es manipular esa representación modelada potenciando unas características sobre otras.

El resultado son aberraciones como las alucinaciones digitales del algoritmo de Google Deep Dream o los rostros de personas que no existen (como la que mostramos al principio del artículo), fruto de muestrear nuevas imágenes desde el modelo genérico de cara. Ahora sí, las imágenes resultantes son verdaderos fantasmas.

La inquietante resurrección de Salvador Dalí

La alucinación es un forma de demostrar que podemos forzar y distorsionar las representaciones latentes de un modelo a nuestra conveniencia. Algo así como si un supercirujano fuera capaz de extraer la cara de un donante y transferirla a un receptor.

El deepfake tiene muchas aplicaciones que pueden ser tan creativas como poco éticas. Una de las aplicaciones que se explora desde hace unos años es la de recrear personajes famosos o históricos.

La folclórica Lola Flores en un anuncio fue la primera “resurrección” popular. Más inquietante aún es la realizada por el Salvador Dalí Museum de la ciudad de San Petersburgo (Florida). A partir de material de archivo y entrevistas, recrearon la expresiones faciales y la voz del famoso pintor surrealista. ¿Qué sensación produce ver “revivir” a un personaje histórico?

Dalí Lives, un proyecto creado con inteligencia artificial. Fuente: The Dalí Museum.

Generación de imágenes con una orden de texto

Capturar la representación de un cara mediante la exposición a miles de caras ya es un hito. Pero si además logramos capturar la relación entre diferentes entradas de datos, como podría ser la entrada combinada de imagen y texto, habremos llegado aún más lejos.

Este tipo de representación multimodal la podemos conseguir con arquitecturas de IA como el sistema Dall-E2. Dall-E es un acrónimo que fusiona Wall-E, la famosa película de Disney, y al pintor Salvador Dalí. Las redes sociales ya se han inundado con sus creaciones. ¿Qué pueden dibujar? Casi todo. El único límite es la imaginación. Por ejemplo, un hombre medieval sentado ante un ordenador.

Ya es posible probar, y gratis DALL-E mini, un modelo inspirado en DALL-E que sirve para experimentar el nivel de capacidad asociativa entre la entrada textual y un resultado visual. Hay formas de conseguir un resultado u otro en función de las palabras utilizadas o cómo se ordenen en el texto.

¿Qué tipo de consecuencias positivas y negativas puede tener para la sociedad este tipo de generación de imágenes realistas por parte de los algoritmos de la IA? ¿Nos acostumbremos a vivir rodeados de fantasmas?

Arturo Fuentes Calle, Profesor colaborador, Universitat Politècnica de Catalunya – BarcelonaTech

Este artículo fue publicado originalmente en The Conversation. Lea el original.