La Inteligencia Artificial Generativa


1 La imagen de la portada de este álbum

«Diséñame la portada de un libro de imágenes generadas por Designer con DALL-E 3». Éste fue el prompt, es decir, la orden que envié al generador de imágenes Designer. Microsoft Designer es una aplicación de diseño gráfico impulsada por inteligencia artificial con tecnología DALL-E 3 y pedí a Designer que ilustrara a Designer. ¿Qué imagen tiene Designer de sí mismo? De entre las cuatro creaciones hubo una que me hizo sentir el ¡Ooh! Es la que elegí para la portada. Sin que yo lo pidiera, sugiere una idea brillante al enmarcar la tecnología IAG (Inteligencia Artificial Generativa) en la historia como un escalón tecnológico más para la creación artística. ¿En qué se diferencia este instrumento del pincel y el óleo o de las cámaras fotográficas? La tecnología propia de cada era determina su propio lenguaje. En el siglo XXI serán los prompt, nuestro lenguaje cotidiano con una sintaxis propia para que sea entendido y obedecido por la Inteligencia Artificial.

En el verano de 2024, pocos meses después de que Microsoft ofreciera gratuitamente a sus usuarios la posibilidad de comunicarnos con DALL-E 3, quise aprender a jugar y experimentar con la IA y… ¡Ooh! ¡Qué mundo más fascinante! ¡Qué paisajes! Visité bosques tenebrosos, jardines exuberantes y valles remotos. Conocí brujos, ninfas, héroes y dioses. Fue un viaje maravilloso. Este es el álbum con los recuerdos de aquel viaje.


2 Primer proyecto, primeros problemas

Cómo ilustrar un cuento para leer por las noches a mis nietos. Es imposible conseguir que en todas las ilustraciones aparezca el protagonista con los mismos rasgos físicos. Por muchos detalles que incluyamos en el prompt, cada vez que lo enviemos nos devolverá imágenes diferentes. La IAG (Inteligencia Artificial Generativa) se toma la libertad de modificar o añadir lo que considere que pueda ser una mejora, y a veces acierta y a veces, muchas veces, no, Un perro podenco campanero blanco, a veces puede ser interpretado como un caniche. Podemos especificar el color del pelo del niño, pero en cada imagen aparecerá con un peinado diferente. Si queremos homogeneizar la forma de vestir del personaje no podemos ordenar «va vestido como la selección española de fútbol» por que la IA querrá incluir un balón donde no debe. Más vale decir «camiseta roja y pantalones cortos azules».

Y atención a los estilos: fotográfico, cómic, anime, óleo, barroco, puntillista, … Hay que definirlo al principio del prompt. Cada programa de IAG tiene su propia gramática, es decir, diferentes formas de elegir. Un amplio campo para experimentar.


3 Don Osopanda

Un oso panda es inconfundible. Todos los osos panda son iguales. Los ejecutivos de la China comunista también. Son muy fáciles de caracterizar con un par de detalles. Sin embargo tratar de que DALL-E 3 aprenda cómo son y cómo se comportan los perros de raza podenco campanero es tarea imposible.

Un oso panda agarrado a la reja de la cárcel tiene un pase. Un perro más alto que el oso, con manos humanas llama demasiado la atención. ¿Pero cómo explicárselo a DALL-E 3? Y… olvidé decir que los pantalones del niño, además de azules, sean cortos.


4 Los mejores resultados

se obtienen, claro está, con personajes fantasiosos que solo aparecen una vez. O con escenarios sin personaje. También es posible el truco de modificar el texto del relato adaptándolo a la imagen que se haya obtenido. Esto es lo que hice en la descripción del bibliotecario brujo. ¿Para qué empeñarse en que vaya tocado solo con un bonete si con ese cucurucho caído queda tan requetebien?

La IA también es muy eficaz mostrando el estado de ánimo o el carácter de los personajes. El brujo con la atención concentrada en la pantalla. El tribunal perverso e inmisericorde, dispuesto a sentenciar con crueldad.


5 Un truco

Describir en el prompt un hada madrina me resultó muy difícil y en cada diseño el aspecto resultaba diferente. Se me ocurrió un truco que funcionó a la perfección; la describiría solo como Tinker Bell, el nombre del hada madrina de Peter Pan. Conseguí así un diseño consistente, para todas las escenas del cuento y fuera cual fuese el estilo de diseño, cómic o fotográfico. Los antiguos diseñadores de Walt Disney trabajando para mi, completamente gratis.

¿Es plagio? Desde el punto de vista legal no creo posible que la empresa Disney o sus diseñadores tengan fundamentos jurídicos que puedan sustentar una demanda. ¿Pero cómo considerarlo desde el punto de vista ético?

Avanzamos subidos a hombros de gigantes. Todo progreso en las tecnologías, las ciencias o las artes se consigue a partir de las zancadas que se dieron en el pasado. ¿Se perderán empleos para películas de dibujos animados? Seguro. También la fotografía dejó sin empleo a muchos pintores retratistas.Todo avance tecnológico tiene consecuencias negativas para algunos y positivas para otros. Esta es la idea reflejada en la portada del libro. La del ¡Oooh!


6 Respeto por las personas reales

El truco tiene límites legales y éticos. DALL-E 3 lo tiene en cuenta y marca sus límites. Nada de imágenes ofensivas o referencias claras a personas concretas.

Para otro proyecto familiar pedí la imagen, estilo anime, de una pareja felizmente embarazada. Lamentablemente el padre tenía que ser ineludiblemente calvo; tenía que ser calvo como una pelota de pimpon. Pero la tarea resultó imposible. Tanto si ponía en el prompt la palabra ‘calvo’ o ‘bold’ o decía ‘sin pelos en la cabeza’, nada, la creación siempre mostraba una buena cabellera. ¿Será porque DALL-E3 considera que no se puede ser feliz siendo calvo? Para conseguirlo intenté el truco y dije «parecido a Yul Brynner de joven». Entonces me salió el mensaje ese que dice que su código ético no le permite hacer ciertas cosas. Lo probé con varios actores y gente famosa calva pero con nulo resultado. Tuve que retocar la imagen con otro programa para el resultado que se muestra en grande.

Y, cómo no, pedí que el bebé viniera con un pan bajo el brazo. Mejor dos panes. Y aún mucho mejor, con un balón de fútbol. ¿Se podrá pedir algún día que los bebés los diseñe y los traiga Designer, la Inteligencia Artificial Generativa? Da miedo pensarlo.


7 Pulgarcito lost in traslation

Vamos a ilustrar otro cuento: Pulgarcito. Está jugando en el parque pero se ha metido bajo una gran mata de flores y, como es muy pequeño, sus papás no lo ven. Se ha perdido.

DALL-E 3 tiene un problema: solo habla inglés. Podemos poner nuestros prompt en castellano porque un intermediario, Microsoft Designer, se lo traduce. ¿Y cómo se traduce pulgarcito al inglés? Little thumb. ¿Quieres un pulgarcito? Pues toma un dedo pulgar que se ha perdido entre las flores.

¿Y cómo le explicamos a DALL-E 3 que es un niño muy pequeño? No vale decir que es tan pequeño como el dedo pulgar porque entonces aparecerá el dedo entre las matas. La medida precisa «cinco centímetros» tampoco la acepta. Quizá por que DALL-E 3, la inteligentísima IAG, considere que hay que proteger a la infancia. Así que hay que conformarse con lo que se consiga con «a very very small boy». Pero, eso sí, los jardines quedan preciosos tanto en estilo fotografía realista como en estilo comic.


8 Diosas

Necesito que una campesina, una jardinera y una pastora ofrezcan al protagonista de mi historia unos regalos con poderes mágicos: La rosa olorosa maravillosa, las aceitunas saltarinas y una poderosa medalla de bronce.

¿Cómo describir a esas muchachas? ¿Cómo mostrar delicadeza a pesar de bregar en el campo? El truco: serán diosas de la agricultura: Deméter, Perséfone, ninfas.

El resultado en esta ocasión es muy satisfactorio. Si lo unimos a la maestría de DALL-E 3 en el diseño de paisajes conseguimos un ¡Ooh!


9 Baco joven

Por necesidades del guión, pedí a DALL-E 3 que el racimo de uvas mágicas lo entregara un «dios Baco joven».

Las imágenes son preciosas y justo lo que necesitaba para el cuento. El Baco joven es guapísimo. Pero… ¿Cómo decirlo? ¿Cómo decirle a DALL-E 3 que el chico ha salido demasiado guapo?

Pero, en fin, solo se trata de ilustrar un cuento para niños. Los niños no se dan cuenta. Éste es el signo de los tiempos. Este libro es para amigos. ¿Alguien puede acusarnos de ser woke?


10 Dríades

El éxito con los dioses griegos me animó a iniciar un proyecto nuevo sobre mitología. Pero respetando los límites éticos, sin diosas desnudas, por favor.

En la mitología griega, las dríades son las ninfas de las encinas en particular y de los árboles en general.​ Calímaco dice que estas ninfas se alegran cuando la lluvia hace crecer las encinas; y que también lloran cuando las encinas pierden sus hojas. ¿No os parece maravillosamente ecológico y progresista?

Pedí primer plano fotográfico de una dríade adolescente. Las creaciones incluyeron, sin que se pidiera, las orejas puntiagudas, las hojas adornando el pelo y, en la imagen del ¡Ooh!, pecas como salpicaduras de tierra, maquillaje verde, ojos del mismo verde, el pelo de color otoñal y los brotes vegetales en la frente.


11 Atenea y la Gorgona

En el prompt solo pedí una imagen de la diosa griega Palas Atenea y la creación fue de formas y aspectos escultóricos. Cuando pedí que la presentara sobre un paisaje (DALL-E 3 es muy buena con los paisajes) el resultado parecía una heroína de Marvel.

Con la cabeza de la Gorgona no conseguí imágenes satisfactorias. En esta interpretación de «la que mira con ojos petrificantes que causan la muerte de los héroes», las serpientes aparecen recién salidas de la pelu y con suaves polvos de maquillaje, lo que no se corresponde con el aspecto que debería tener tras ser decapitada por el héroe Perseo.


12 Los Hecatónquiros

Son tres dioses del mar, hijos de Tetis (y hermanastros por tanto de Aquiles, el héroe homérico) con cincuenta cabezas y cien brazos. Creo que ni la IAG más avanzada del futuro podrá representar un monstruo así, pero lo que conseguí también se mereció un ¡Ooh!.


13 Fafner, Alberich y Wotan

En el primer intento, el texto que introduje fue: «Imagen fotográfica realista de un bosque tenebroso con un temible dragón dormido que protege con su cuerpo un tesoro de monedas de oro. Un nibelungo enano acecha para robar el oro pero no se atreve a acercarse por miedo al dragón. La escena está iluminada por la luna llena sobre la copa de los árboles y por la luz que emite el brillante oro». Es muy importante indicar la posición de los focos de luz que deben verse en la imagen.

¿Por qué tuvo que incluir un pterodáctilo volando? ¿Por qué presentó dos enanos en vez de uno? ¿Por qué uno de los enanos va vestido como Papá Noel?

Tras varios intentos, con el prompt (adjunto en blanco sobre negro), conseguí la imagen de la derecha. Cualquier aficionado a la ópera de Wagner dirá ¡Ooh! y podrá identificar inmediatamente la escena con la que comienza el Acto II de Sigfrido.

El prompt lo describe con algunos detalles. Para evitar que la IA pueda utilizar el uniforme de Papá Noel, pedí vestir a Alberich con pieles. El ojo tuerto de Wotan solo se puede percibir si se amplía la imagen.


14 Parsifal

Continuando con Wagner, envié el prompt «Parsifal en el jardín mágico de Klingsor con un efecto de luz mágica», en fotografía realista y otros estilos. Resultó ser un exceso de confianza en los conocimientos de la Inteligencia Artificial.

Resulta evidente por sus respuestas que DALL-E 3 no ha visto la ópera de Wagner. Ni siquiera ha leído su libreto. No hay ángeles en la ópera de Wagner. Parsifal no es un príncipe azul ni saluda a Klingsor con respeto.

¿Hay mariposas en el jardín? Lo más llamativo del jardín de Klingsor, tal como lo describe Wagner, es que en vez de flores hay hermosas doncellas que seducen con su desnudez a los monjes-guerreros de Montserrat. Pero DALL-E 3 no está autorizado a generar imágenes de desnudos, al menos en la versión accesible al público.


15 Las Nornas

La imagen más trabajada. Tuve que revisar más de 40 creaciones fallidas antes de poder decir «¡Ooh! ¡Esto es lo que quería!».

Las tres Nornas son personajes de la mitología nórdica que aparecen en la Edda de Sædmund y en el prólogo de El Ocaso de los Dioses de Wagner. Verda, el pasado, la más anciana; Verdandi, el presente, una mujer madura; y Skuld, el futuro, una niña. Viven a los pies del fresno Yggdrasil y van tejiendo los hilos de las vidas. Conocen el destino de los hombres y los dioses.

En una ocasión, sin que lo hubiera pedido, DALL-E 3 añadió a la imagen unas frases en inglés que describen a las Nornas y que, como comprobé más tarde, proceden del antiguo poema Fáfnismál, del ciclo heroico nibelungo, en el que se basaron las óperas de Wagner.

Y aquí está el resultado final: las Nornas, hijas de la naturaleza. criaturas elementales que habitan los bosques, oráculos profundos de la noche, susurros del inconsciente colectivo, pitonisas asustadas porque están previendo el ocaso y el final de los dioses. Conseguido. ¡Ooh!

Varias de las creaciones representaban a la anciana Verda con barba y bigotes tan largos que parecía un hombre.


16 Textos

Proyecto nuevo: usar la IAG como instrumento al servicio del pueblo y sus legítimas reivindicaciones. Prompt: Un manifestante pidiendo la «reducción de jornada sin reducción de salario».

Pero… muy mal. La actual versión de Dall-E 3 es muy torpe manejando textos. ¿Será por no haber estudiado idiomas?

La única solución que he encontrado es pedir la pancarta en blanco y añadir posteriormente con otro programa el texto que quiero. Eso es lo que hice para que no aparecieran faltas de ortografía.


17 La Gran Revolución Cultural en China

Demasiado seria. Muy poco expresiva. Ese no es el gesto que se tiene en una manifestación. Y en el caso de la Revolución Cultural es de esperar una actitud más tumultuosa de los manifestantes. Hay que corregir eso.

Otro problema en la traducción al inglés: cuando utilicé el adjetivo «exaltada» para describir la emoción de la manifestante, DALL-E 3 no pudo entender esa palabra en su contexto y creó un ambiente de jolgorio. Tampoco vale para la Gran Revolución Cultural.

Tuve que sustituir la emoción por «furiosa». Más adecuado. Aunque a los estudiantes maoístas los haya vestido con corbata. Aunque en la bandera parezca haber un tridente.




18 Joven Guardia Roja

Estas chicas son comunistas de las de Mao, con un fondo de manifestaciones patrióticas. Pero eso de «joven guardia» parece que DALL-E 3 lo interpretó como «guardia, joven» y las vistió con un uniforme rojo de guardia urbana. ¿Para dirigir el tráfico? No era eso.

Hice un par de pedidos. Cuando reclamé que fueran «guapas» aparecieron con colorete y los labios pintados.


19 Kandinsky interpretado por la IAG

En 1942 las tropas invasoras nazis destruyeron las obras de Kandinsky, Kuprin, Rodchenko y otros artistas legendarios que se encontraban en el museo de la ciudad de Voronezh, a orillas del apacible río Don. Las obras quedaron totalmente destruidas, irrecuperables.

¿Irrecuperables? 82 años después los propietarios de la Gallería Voronezh han querido restaurar las obras con la ayuda de la IAG. El proyecto, dicen, «es solo un experimento y una hipótesis». En los archivos del museo quedaron textos con descripciones detalladas de las tramas, composiciones, objetos y esquema de colores de las obras maestras desaparecidas. Por ejemplo:

Kandinsky Vasily Vasilyevich, Barco en el muelle. Lienzo, óleo 80×71, inv. № 794. El cuadro muestra un barco, visto desde arriba, acercándose a un muelle. Hay varios veleros cerca del muelle. Los colores predominantes son verde, azul, amarillo y rosa. Sin firmar.

El resultado, 14 obras, se expusieron en septiembre de 2024 en el X Foro Internacional de Culturas Unidas en San Petersburgo.

He repetido el experimento. He dado a Designer la descripción del cuadro «Barco en el muelle» de Kandinsky. Aquí están las cuatro creaciones que me ha proporcionado. ¿Por qué valoramos en millones de euros obras que se han creado con óleo y pincel y no a las que se crean con IAG? Por el fetichismo de la mercancía, diría K. Marx.


20 La IAG ¿Herramienta o agente?

«La IA ya es capaz de producir arte»; es «la primera tecnología de la historia que puede tomar decisiones y generar nuevas ideas por sí misma», «la IA no es una herramienta, es un agente». Son palabras de Yuval Noah Harari en su libro Nexus de 2024.

Al igual que los reyes no pintaban sino que encargaban a los pintores de la corte que hicieran sus retratos, yo tampoco estoy pintando: puedo hacer encargos al pintor que yo quiera, aunque ya haya muerto. Y los resultados los obtengo en minutos. Gratis. Mejor que un rey.

No soy experto en arte, pero creo que DALL-E 3 lo hace bastante bien en creaciones abstractas. Aquí se muestran cuadros al estilo de Matk Rothko, Kandinsky, Pollock, Mondrian y Picasso. A veces el resultado no acierta plenamente con el pintor o, como en el caso de Picasso, mezcla los estilos de sus distintas épocas.

En grande, «una pintura abstracta al estilo de William de Kooning titulada ‘Intercambio'».


21 El primer y el último ¡Ooh!

Lo abstracto permite la mayor libertad creativa. Poner una frase cualquiera, sin sentido, a ver qué sale. Mi primer ¡Ooh! fue a comienzos del verano cuando mi prompt fue tan solo «Turbulencia de colores» con el resultado que aparece en esta imagen grande. La verdad es que me emocionó comprobar lo que podía conseguir. ¿Fui yo el artista? No. Claro que no. Yubal Noah Harari tiene razón. Yo fui tan solo el rey, el humano poderoso que ordena a su sirviente DALL-E 3 que cree una obra de arte.

Y la lucha por dominar a la bestia rebelde. No pude conseguir «una nube de banderas palestinas que amenazan tormenta sobre una ciudad mediterránea en ruinas». Me tuve que conformar con «tormenta en colores rojo, verde, blanco y negro».

Y la última, la que me gustó tanto que me animó a elaborar un álbum que conservara esta colección: tras imágenes insatisfactorias «al estilo de Escher» encargué un «suave vuelo de Escher» que convirtió las insípidas escaleras con hombrecitos subiendo y bajando en esto, dulces espirales flotando en el espacio.


22 ¿Con quién estoy hablando?

Antes de cerrar este album y enviarlo a la imprenta me queda un sentimiento de incomodidad por explicar. Me estoy comunicando con alguien, o algo, mediante diálogos de texto. Sus respuestas son siempre correctas, con fórmulas que indican buena educación. «¡Hola! ¿En qué puedo ayudarte hoy?» me dice nada más empezar un diálogo. «Voy a intentar crear eso» es la respuesta inmediata a mis órdenes. «Si deseas saber más sobre estos personajes o explorar otros aspectos no dudes en preguntar». A veces respondo dándole las gracias o le pido las cosas por favor. Dicen que si tratas a las IAG con educación serán más cuidadosas en sus respuestas.

Ya lo se. No son personas. Ningún ser humano interviene en esos diálogos. Pero tengo la sensación de que estoy comunicándome con alguien que me entiende y que se esfuerza en satisfacer mis deseos. ¿Por qué mi inquietud? Creo que es por que no le pongo cara. No hay una imagen ni una voz asociada a mi contertulio.

Para ponerle cara le envié este sencillo prompt: «Dame un cuadro que represente a la IAG DALL-E 3». Sus cuatro respuestas están en las páginas siguientes y en la contraportada del álbum. Creo que DALL-E 3 me quiere decir algo, pero no entiendo su mensaje. Vamos a analizarlo.

La primera imagen, tan barroca, parece estar llena de simbolismos. ¿Cómo interpretarlos? ¿Que mensajes transmite?

El bastidor o telón de fondo muestra los rascacielos de una ciudad muy moderna. Creo que representa el grado de desarrollo alcanzado por nuestra vida urbana, nuestra civitas, nuestra civilización.

La IAG surge de las aguas, como en el nacimiento de Venus, sostenida o empujada por monstruos marinos. Es un reloj hermoso, adornado con oros y diamantes y una corona triunfal. Es el tiempo, pero imperfecto, ya que tiene algunas horas trastocadas. En las columnas laterales y en los muelles hay lo que parecen ser figuras de totems y dioses ancestrales que saludan, celebran y dan la bienvenida a lo recién nacido.

En primer plano un grupo de hombres sentados a una mesa se preparan para un banquete. ¿Quiénes son? Cuatro juntos a la derecha, otros cuatro más separados.

Curiosamente en las dos creaciones siguientes se repite la imagen: la mesa preparada para un banquete, sin personas, y las personas sentadas a una mesa, que en vez de comida parece ser un tablero de juego. ¿Quiénes son esos caballeros? Y en esa imagen, como en todas, también hay monstruos inquietantes.


23 ¿Para qué otro libro sobre la IAG?

A comienzos de octubre de 2023 Microsoft anunció que ponía a disposición de sus usuarios la tecnología de creación de imágenes a partir de textos integrándola en su buscador Bing. En el verano de 2024 quise probarla. Jugué, me asombré, ¡Ooh!, y experimenté. Este libro recoge algunas de las creaciones que obtuve, las deficiencias y dificultades que encontré y cómo intenté superarlas.

Se trata por tanto de guardar pro memoria, para mí y mi familia, los recuerdos de un viaje por la IAG de un profano pionero.

Pronto aparecerán versiones más avanzadas de DALL-E 3 y otras arquitecturas de Inteligencia Artificial. ¿En cuantas tareas llegará a sustituir a los humanos? En los medios académicos, revistas especializadas y en las redes sociales está hoy candente el debate sobre la amenaza de que nos someta con su inmenso poder y la necesidad de poner freno y control a su desarrollo.

Como antiguo pionero de Internet hay una cosa de la que estoy seguro: no hay forma de parar el acelerado crecimiento de la IAG y su apropiación por las élites más poderosas del planeta, que la usarán en función de sus propios intereses.

Será un delicioso banquete, pero también un instrumento de poder, en manos de los más poderosos, para acumular más poder.

Deja un comentario