Publicación
La Inteligencia Artificial o el collage posmoderno
Pensamientos contextuales
En este artículo abordaré algunas reflexiones generales sobre mis impresiones en el campo de la inteligencia artificial (IA), su uso y en particular el uso que, como creador, le doy a las herramientas que están proliferando día con día basadas en las técnicas que en su conjunto se denominan inteligencia artificial. Empezaré con una observación puntual, si bien para mi práctica académica desarrollo código computacional con algunas de las técnicas que caen dentro de la definición de inteligencia artificial, si bien he estudiado con bastante detalle los procedimientos y mecanismo de muchos de los algoritmos que se utilizan y tengo las nociones fundamentales de las lógicas matemáticas que hay detrás de los procedimientos computacionales, y si bien doy cursos introductorios del tema, no me dedico a las ciencias de la computación y no soy matemático lo cual tiene implicaciones importantes a la hora de aproximarse al tema. De hecho, he intentado con total conciencia evitar utilizar el término de Inteligencia Artificial en mi práctica cotidiana, dado que, particularmente he observado que en los últimos años el término se ha erosionado y la frontera entre su desarrollo, su uso y su mera aplicación son cada vez más difusos. También, he mantenido distancia porque el término ha abrazado cada vez más conceptos, técnicas y recursos, de forma tal que su etiqueta llana ha dejado de definir certezas y profundidades. Prefiero y considero más preciso hablar de algoritmos particulares y técnicas precisas para dar mayor claridad y certeza en su uso. Aún así, para los fines de este artículo, utilizaré al inicio del texto el término en su acepción general para posteriormente concentrarme en procedimientos particulares y su aplicación en los procesos creativos de mi trabajo.
Otra consideración a incluir en este artículo, es que está basado en un discurso de investigación autoetnográfico que intenta contribuir en un fragmento de la experiencia cultural, en este caso muy específico, en el campo de la creación artística, a partir de una historia de mi trabajo personal, que por supuesto, tiene sus propios sesgos, sus alcances, sus logros y sus errores.
Para abordar la temática del uso de la inteligencia artificial en el arte, su impacto, su uso y su alcance, considero que primero debemos establecer un marco contextual y una serie de conceptos fundamentales, algunos polémicos, que nos permitan concentrar nuestros planteamientos. Los temas de la inteligencia artificial, la creatividad humana y el arte son tan extensos cada uno y su convergencia también lo es por lo que abordaremos solo algunos puntos centrales y probablemente existirán tendencias, inclinaciones y opiniones personales a lo largo de esta reflexión.
Primeramente, ¿Somos máquinas biológicas? Podemos afirmar que sí, salvo que adoptemos una visión dualista de la la existencia y coloquemos el concepto del alma en algún lugar invisible, inmedible, ajeno a la observación humana y dotado de cualidades místicas justificadas, más por una visión religiosa de la existencia que por una realidad observable. Así pues, nuestras ideas, nuestro albedrío, nuestra creatividad y lo que definimos como imaginación está estructurado en el cerebro.
Cada día, los cientos de investigadores en neurociencias descubren y aportan un fragmento más del rompecabezas que,en algún momento, podrá desentrañar a cabalidad la maquinaria biológica en lo que es el órgano más complejo de los organismos vivos. Esta tarea colosal no es simple, para empezar el cerebro humano tiene más de cien mil millones de neuronas, y como cada una de ella se puede conectar con muchas otras, la estimación es que hay más de ciento cincuenta billones de sinapsis en un cerebro humano. Como referencia, un GPU actual tiene setenta y seis mil millones y, aunque ciertamente es un logro tecnológico impresionante, las arquitecturas digitales actuales no han generado la complejidad de interconección entre sus componentes. Es decir que, por principio, debemos de entender que tiene una arquitectura que no genera una red retroalimentada. El equivalente de la sinapsis en el mundo digital se da a través de operaciones computacionales, no de manera nativa en los componentes electrónicos. Al menos no en el nivel que se requiere para lograr una equivalencia en la integración de operaciones paralelas.
En otro sentido ¿Que es el arte? La pregunta es evidentemente tan compleja que no la han desentrañado ni filósofos, ni estetas, ni epistemólogos en más de tres mil años. Sin embargo debemos intentar estructurar la manera en la cual se aborda aquí, dado que nuestra reflexión gira en torno al arte, a la creatividad y a la inteligencia artificial. Una micro definición de mi parte podría ser que el arte es el potencial de generar vasos comunicantes entre un objeto, idea, o acción con una lectura o visión individual e interna que se moldea, a través de la percepción, que se modula por nuestro interés, y que resuena y estimula por nuestra individual memoria. En otras palabras, el arte es la posibilidad de interpretar un material de manera sensible. Con lo anterior, pongo énfasis en la conexión entre la obra artística y su apreciación y no en el objeto en sí dado que la humanidad tiene ya más de cien años realizando arte conceptuales y cuestionando temas como técnica y virtuosismo. De esta manera, la estética y el arte podrían relacionarse al menos tangencialmente con el solipsismo asumiendo que la experiencia artística es individual y única. Cada ser humano experimenta la misma obra artística de manera diferente en función de sus vivencias, su personalidad y su estado anímico y psicológico en ese particular momento. Visto de esta manera, la obra artística es un pretexto, una excusa y un detonador. La obra artística es entonces, un objeto potencial que requiere ser activado por un observador dispuesto y predispuesto a detonar una experiencia particular.
¿Qué sucede entonces si existe una consciente predisposición a detonar las experiencias estéticas? Artistas destacados de los años cincuenta y sesentas partieron de esta premisa para cimentar un arte que en ese momento se llamó contemporáneo y que pudo sacrificar la técnica y el virtuosismo para construir pretextos sensibles. Si el espectador está altamente predispuesto a ver y encontrar lo sublime no hace falta un objeto detallado y todo tiene el potencial de ser arte. Cage en el campo del sonido, Duchamp en el campo visual lo dejaron claro. Sin embargo, que todo tenga el potencial de ser arte no quiere decir que lo sea, fundamentalmente porque la experiencia artística es contexto. El contexto se establece por un espacio determinado (un museo, una sala de conciertos, un festival), un tiempo (una moda, una escuela, una estética, una corriente artística), y, fundamentalmente, por una premisa socio cultural. Este último punto es trascendental debido a que el entendimiento de una propuesta artística está acompañado de la presunción de conocimientos previos. No es posible apreciar una obra, o se aprecia de manera acotada, si el espectador no tiene los referentes asociativos. Un ejemplo, ¿se entiende/aprecia igual el Guernica de Picasso si sabemos que existe una ciudad con ese nombre que fue bombardeada por los alemanes durante la guerra civil? ¿Se aprecia igual si sabemos y conocemos sobre las razones y propuestas que manejó el cubismo?
Menciono lo anterior, porque muy probablemente los niveles de simbolismo y estética que se manejan en la actualidad requirieron de miles de años de construcción de símbolos, arquetipos, eventos, religiones, cosmogonías y visiones compartidas que, en un conjunto, establecen a la sociedad moderna. En esa dirección el arte a lo largo de la historia no ha sido una historia de producción de objetos creados para la contemplación sino un imbricado de relaciones entre individuos a través de objetos activados por su interpretación. Objetos optimizados para que los humanos nos hagamos preguntas, reflexionemos sobre nuestro entorno y experimentemos sensaciones de forma individual y de forma colectiva. Visto desde esta perspectiva, el arte es más una práctica asociada a los mecanismos de percepción que a las estructuras de producción. Es por esto mismo, que las formas, técnicas y materiales de la obra artística han cambiado a lo largo de la historia y no así la necesidad de contemplación y búsqueda de experiencias sublimes. Los objetos artísticos son por tanto elementos contextuales decantados y altamente destilados y optimizados para generar las reflexiones antes mencionadas.
La búsqueda en los humanos por encontrar experiencias sublimes nos conduce a una pregunta polémica. ¿los seres humanos somos los únicos organismos vivos con sensibilidad artística y creativa? De vez en vez nos encontramos en la literatura científica ejemplos de comunidades de monos que juegan o hacen herramientas, comunicación entre delfines, rituales fúnebres en elefantes, o primates que aprenden lenguaje de señas y manifiestan deseos a futuro. Sin embargo, tal vez también es aceptado que dentro de su acepción más dogmático y rígido, el término inteligencia superior se aplica a la capacidad del pensamiento abstracto y matemático, a los sutiles giros del lenguaje, a la manipulación de los entornos, a la construcción de estructuras sociales complejas, y, probablemente, a la posibilidad de dejar un registro o evidencia de la capacidad de imaginar. Si una mariposa es capaz de imaginar o detenerse a contemplar la excepcionalidad de una flor, no lo podemos saber con certeza. Sin embargo no hemos visto una manifestación o evidencia de dicho proceso. Por el contrario, el homo sapiens, con su particular estructura cerebral ha dejado manifestaciones y evidencias de sus curiosidades no primarias desde su mutación a esta especie.
¿Cuál es el punto de contacto entre la inteligencia, la memoria, la atención, la concentración, la observación, la creatividad y el arte? Si asumimos que fue una evolución en las estructuras cerebrales, ya sea por mejora evolutiva, por eficiencia en los sistemas biológicos o por mero azar que el cerebro del homo sapiens puede imaginar, entonces la capacidad de imaginación radica en la particular configuración neuronal. Lo anterior supone que, si la ciencia y su implementación en tecnología biomédica fuese capaz de replicar un cerebro dicho invento sería capaz de imaginar. Ahora bien, tal vez halla una simplificación en el razonamiento anterior, después de todo el hombre pudo volar cuando dejó de replicar el movimiento de las alas de las aves y entendió la leyes de la aerodinámica. La corrección sería entonces, que cuando el humano entienda más del funcionamiento del cerebro, entonces el humano podrá construir dispositivos pensantes. ¿Son las tecnologías binarias digitales actuales el camino a seguir? Tal vez sea pronto para asegurarlo, pero hay evidencias de que hay procesos biológicos, aún no identificados, que permiten una eficiencia en la percepción de los seres vivos que no se ha replicado digitalmente.
Una revisión de las evidencias históricas en la creación de mecanismos pensantes nos podría hacer suponer que aún estamos lejos de entender el comportamiento del cerebro como para poder replicarlo en su totalidad. Ciertamente los experimentos de los últimos años son deslumbrantes. Los medios de comunicación propagan constantemente los pequeños logros, por ejemplo, entrenamientos computacionales que derivan en la posibilidad de leer órdenes de movimiento en personas cuadripléjicas, intervenciones quirúrgicas en roedores que borran o implantan recuerdos, sistemas híbridos con circuitos integrados embebidos en glándulas olfatorias creando narices olfatorias biónicas, etc. En el campo de la creatividad se tuvo el apoyo Convocatoria de “Ciencia Básica y/o Ciencia de Frontera Modalidad: Paradigmas y Controversias de la Ciencia 2022, Proyecto 320551 para utilizar una supercomputadora y generar una imagen que los autores mencionan como una micro idea imaginativa.
Sin embargo, a pesar de todos estos esfuerzos, recursos y experimentos, los humanos estamos lejos de producir una máquina de pensamiento no se diga de un humano o de una mosca. Los agrupamientos cerebroides en medusas procesan imágenes de manera más eficiente que la supercomputadora más sofisticada. Uso el término eficiente como un agregado de consumo de energía vs calidad del reconocimiento y tiempo de aprendizaje. ¿Es por tanto una mosca más inteligente que ChatGP3? O recurriendo a una pregunta planteada ya en 1968 ¿Sueñan los androides con ovejas eléctricas? Tal vez la imposibilidad de responder estas preguntas radica en la imprecisión de los conceptos y en el juego retórico. Con esta nueva ola en el concepto de inteligencia artificial se habla mucho de los diferentes tipos de la misma categorizando por ejemplo en IA estrecha a aquella que está enfocada a resolver un grupo reducido de problemas y IA general a aquella que podría resolver problemas amplios y generales. Aunado a esto podríamos incluir la muy citada IA con autoconciencia. ¿Sabe el servidor de ChatGP3 si está vivo o muerto?, sabemos que no sabe; ¿lo sabe un caracol? Sabemos que tiene un instinto de sobrevivencia y una necesidad de preservar su especie. ¿Experimenta un caracol lo que definimos como tristeza o duelo si pierde a su descendencia? Sin poder probarlo, tendemos a declarar que no, dada la falta de evidencias tangibles y dado también que dicha conducta estaría acompañada de muchos otros comportamientos. ¿Podría cambiar de humor ChatGPT3 o simplemente mentir en una respuesta porque sabe que mintiendo en la respuesta pone en problemas al usuario de la empresa contraria y con ello tener un beneficio propio?
La pregunta anterior nos lleva inevitablemente a otro campo que se apoya de los recursos tradicionales de la inteligencia artificial; la creatividad computacional es el área que busca modelar procesos creativos empleando sistemas digitales. El tema es en sí atractivo pues, a diferencia de otros campos de la inteligencia artificial, aquí el eje rector se encuentra en los procesos creativos más que en los resultados de clasificación o generación. Sin duda, la frontera entre los modelos de creatividad computacional y los actuales sistemas de generación de contenido se traslapan y probablemente sistemas complejos utilizarán conceptos de ambos territorios.
Antes de adentrarnos en los puntos específicos relacionados con la generación de sonidos, música y artes empleando IA me gustaría realizar una última reflexión en relación a las fronteras y profundidades de los procesos creativos. En el entorno contemporáneo dialogan estéticas tradicionales y propuestas contemporáneas y conceptuales en donde las fronteras del arte y su horizonte social lo ha acercado al espacio público, la publicidad, el entretenimiento, la mercadotecnia y las imágenes de masas en redes sociales. Como nunca antes en la historia, se coloca la creación artística en territorios peligrosamente democráticos. Menciono peligrosamente porque, si a finales del siglo pasado se estableció que cualquier cosa podía ser arte, tal vez ahora nos inclinamos como sociedad a que cualquier persona puede producir arte. Después de todo, las herramientas de producción y las redes de distribución se han democratizado. ¿Cuántas fotografías atractivas no se toman diariamente y quedan públicas en las redes sociales? El problema no radica en que cualquier persona pueda manifestar su creatividad porque esto último es sin duda valioso, importante y genera una sociedad más rica y atractiva. El problema está en que, al menos hasta ahora, los niveles de ruido generado, el control que finalmente, se quiera o no, tienen los consorcios mediáticos y la importancia de dirigir la atención cultural hacia ciertas estéticas y esferas de consumo existe y es notoria.
En otras palabras, sin duda hay una cantidad exponencialmente mayor de artefactos audiovisuales, sin embargo, en mi opinión, no estoy seguro si como sociedad tenemos la habilidad para hacer el equivalente de una curaduría generalizada de los elementos que tienen valor cultural o no. O tal vez, escribo desde una posición conservadora del valor estético, y esta visión es un remanente de una evaluación anquilosada de la realidad creativa que por cientos de años ha tendido a ser elitista y a generar capas culturales de valores y niveles de sofisticación. Ignoro cuál era el porcentaje de personas en el mundo que tenían acceso a escuchar una obra de Wagner quien vivió antes de que se hiciera popular y funcional el registro sonoro, pero si sé que ahora se podría utilizar un pasaje excelso de una de sus óperas para acompañar un anuncio de goma de mascar en una publicidad de instagram que aparecerá millones de veces alrededor de todo el mundo globalizado. ¿Por qué menciono este tema que podría parecer secundario en relación a la inteligencia artificial? Lo veremos más adelante, pero complemento la imagen citando y adaptando un fragmento del tango Cambalache de Julio Sosa:
“Pero que el siglo XX es un despliegue
De maldad insolente, ya no hay quien lo niegue
Vivimos revolca'os en un merengue
Y, en el mismo lodo, todos manosea'os
Hoy resulta que es lo mismo ser derecho que traidor
Ignorante, sabio o chorro, pretencioso estafador
Todo es igual, nada es mejor
Lo mismo un burro que un gran profesor”
En mi opinión Julio Sosa quedó muy corto describiendo lo que pasaría con la revolución digital. Si en el siglo XX vivíamos en un merengue y un lodo todos revolcados, el mundo digital del siglo XXI es un océano de contenidos en donde hay una notoria dificultad para parametrizar valores y calidades. Los contenidos digitales no se priorizan por una evaluación por pares o por un colegio de expertos con experiencia y conocimientos especializados. Los contenidos pueden fácilmente “subir a la superficie” por la cantidad de “likes” generando una inmediatez peligrosa. El proceso “democratizador” del like podría tener un sesgo y no generar un verdadero proceso de selección natural en donde perdura un objeto de mejor calidad. Es muy pronto para verificar si este proceso es funcional o no en el largo plazo pero la retroalimentación en donde ciertos contenidos moldean el gusto y el gusto genera el “like” que a su vez magnífica un gusto podría estar generado una retroalimentación que podría llevar a una peligro estabilidad y homogeneización.
Evidentemente existe un dejo de petulancia en la visión arriba mencionada y constantemente aparecen procesos creativos inéditos y obras trascendentales que generan propuestas atractivas, frescas y de facturas sorprendentes. Sin embargo, vislumbro un problema de cantidades, recurrencias y repeticiones e intuyo que las bases de datos que alimentan todos los sistemas de clasificación y generación de contenidos automáticos no son ajenos a estas repeticiones.
Composición y aprendizaje humano
Juguemos un poco a la combinatoria para revisar los límites y alcances de la probabilidad y la repetición en su nivel más básico. El sistema musical occidental divide la octava en doce partes. La gran mayoría de la música ocidental genera su música en dos modos tonales, el modo mayor y el modo menor. El modo mayor utiliza únicamente siete de las doce notas de la escala cromática. Podríamos revisar todas las combinatorias posibles para construir todas las posibles melodías de cuatro notas. Se podría iniciar en una de siete posibilidades para después ir a una de siete posibles notas para posteriormente ir a otra de las posibles siete. Por tanto tenemos que hay 2401 posibles combinatorias. El número se reduce si a este cálculo en crudo le aplicamos los parámetros que se suelen encontrar que si bien, no son reglas, son procedimientos históricos que probablemente tienen su origen en leyes gestálticas de la percepción. Por ejemplo, que la melodía no empieza en el séptimo grado y que en las melodías no suele haber intervalos grandes y de haberlos la subsecuente nota cambia de dirección para compensar el brinco. Si modelamos estos procesos y los establecemos como reglas de composición el número real de combinaciones posibles se reduce.
Los juegos de combinatoria en la composición musical son antiguos y son un juego recurrente en la historia. Así pues, tenemos que Mozart compuso una obra que es más bien un generador aleatorio de valses. Tenemos también una obra de Bach que se genera a partir de un motivo y las descripciones son las transformaciones iniciales. En el siglo XX diferentes compositores utilizaron mecanismos de generación procedural siendo Xenakis uno de los destacados creadores en utilizar un generador estocástico digital para producir la información para una partitura. Toda esta temática la puedes encontrar en diversos libros de historia de la música y las matemáticas por lo que no ahondaremos mucho en el tema.
Por el contrario, donde probablemente deberíamos centrar la atención es en el trabajo de David Cope. Su libro y el código computacional “Experiments in Music Intelligence” de 1996 es sin duda una investigación seria y profunda de los procesos estadísticos empleados para la generación de secuencias que conservan rasgos estilísticos de la fuente original. David Cope, generó música al estilo de Bach, Beethoven, y Chopin entre muchos otros. Interesante son dos puntos, el primero que Cope tuvo el cuidado de hablar de Experimentos dejando claro que los procesos estadísticos no eran un proceso de Composición, sino más bien, un proceso de investigación que involucraba el analizar, el sintetizar y el reconstruir a través de procesos estadísticos que revisaban los contenidos originales a diferentes niveles de estructuración, es decir se revisaba la forma, la frase y la relación entre notas. Cope no trabajó con redes neuronales ni procesos de aprendizaje automático, pero logró resultados atractivos. Probablemente, las piezas al estilo de diferentes compositores podían “engañar” al escucha convencional, sin embargo, un músico profesional podía también identificar que había pequeños elementos erráticos que no concordaban con los procesos originales. De cualquier forma, lo atractivo de estos pioneros experimentos radica en la demostración de que, cada compositor tienena serie de subreglas y patrones que en conjunto definen una huella estilística determinada.
Aquí entramos en un punto central, tal vez el más importante dentro de las reflexiones de este documento. ¿Qué significa componer música? Si un estudiante llegase con una obra perfectamente realizada, pero que suena exactamente a una sonata de Mozart, ¿Es eso componer? ¿O es más bien un oficio de replicar un estilo? ¿Hay algún valor en poder replicar estilos o es una técnica y una habilidad mecánica? ¿Es un requisito inicial el poder replicar estilos para posteriormente encontrar un estilo personal? ¿Cuántos creadores logran delimitar un estilo propio y cuantos estilos posibles quedan por generar antes de ocupar todo el “espacio latente” antes de que los estilos estén tan cerca unos de otros que la percepción humana no los pueda diferenciar? ¿Evolucionará la percepción humana para aumentar el nivel de detalle y con ello aumentar los puntos dentro de dicho espacio? En mi opinión estas son las preguntas que, como creadores, deberíamos de plantearnos antes de buscar un santo grial en las técnicas computacionales en voga.
Durante mi formación en composición transité por varios profesores, dos de ellos son figuras muy reconocidas y sus métodos de enseñanza eran totalmente divergentes. Uno de ellos, asignaba como tarea para cada semana realizar una obra en el estilo de diferentes compositores. Una sonata al estilo de Mozart para la primera semana, una pieza para piano al estilo de Debussy para otra semana, un canon a tres voces al estilo de Bach, etc. Estos ejercicios obligaban a los estudiantes a analizar, entender y descifrar los patrones que definen la huella de cada uno de los compositores mencionados. Ignoro si el objetivo se logra de manera consciente o inconsciente. Es decir, el estudiante no necesariamente generaba una tabla estadística o enunciaba una serie de reglas a seguir. Los estudiantes con un pensamiento musical desarrollado, integraban el estilo y pensaban más en las cualidades sonoras, las excepciones y el juego. Ese mecanismo de integración y análisis que pasa por el territorio de lo que podríamos llamar “inteligencia musical” es complejo de definir. ¿Puede ser modelado numéricamente? Probablemente lo es, pero aún no lo he visto. A algunos de estos estudiantes con buenos resultados musicales se les pedía explicar cómo llegaban al resultado y no podían describirlo ni en palabras ni mucho menos, en modelos matemáticos.
Imaginando que el estudiante era un experto en modelado matemático y producía una serie de cadenas de Markov para las secuencias de notas, para la secuencia de intervalos, para la secuencia de ritmos, para las secuencias armónicas, etc.; el resultado sonaría a un estilo determinado, pero no necesariamente habría una contribución en el terreno imaginativo del sonido. Habría un elegante resultado sonoro al estilo de tal o cual compositor, pero no habría un mejor resultado que el original. A lo más una repetición, bien realizada. De hecho, en esto consistían los experimentos de Cope de los años noventa. Cope sabía que los estilos estaban dados por valores en los parámetros estilísticos así que, variando estos valores, podría producir estilos intermedios y exploraciones en territorios no ocupados anteriormente. El estilo de Cope no se considera trascendente en el campo de la composición musical y Cope es más valorado por sus reflexiones y contribuciones en el terreno del cómputo musical que en el terreno de la composición ya sea pura o asistida. ¿Por qué si Cope podía generar cualquier estilo musical teniendo un corpus de un estilo específico y podía transitar puntos intermedios entre cada estilo no pudo generar una huella composicional validada históricamente?
El otro profesor con el que estudié es un compositor radical en el terreno de la imaginación y sugería que los ejercicios de réplica no eran necesarios. No decía que no fuera importante escuchar y entender a los compositores validados por la historia; lo que decía era que intentar replicarlos no era necesario y que la atención debía centrarse en estudiar el imaginario individual. Centraba su proceso en la reflexión de la individualidad y en intentar acompañar a los estudiantes en el entendimiento de sus propios procesos creativos. Entender, analizar y estudiar cómo imagina un humano es, tal vez, un trabajo más cercano a la psicología y a la psiquiatría que a la técnica musical. Atrapar una idea sonora, disecarla metafóricamente hablando, estudiarla, revisarla, entenderla para posteriormente modificarla, extenderla y derivarla en nuevas ideas es un trabajo de creación. De hecho, el profesor hacía mucho énfasis en explicar que lo suyo no era un “taller” sino un “laboratorio” y que no se realizaba “composición” sino “creación”. Este cambio de enfoque no es menor, dado que en esencia lo que se buscaba con esa actitud exploratoria era indagar, con precarias herramientas descriptivas, en el imaginario de una persona.
Haciendo un ejercicio de “neurociencia ficción”, si este profesor hubiera podido, habría entrado en el cerebro del estudiante para revisar las estructuras sonoras que se están produciendo para encontrar aquellas que proponen una manera “diferente pero coherente y atractiva” de organizar contenidos sonoros. Es muy probable que, si el sujeto de estudio no ha estado expuesto a una diversidad de ejemplos sonoros y sobre todo, si no se ha generado un interés genuino por la atención a ciertos elementos sonoros, no encontremos en dicho cerebro las imágenes novedosas que se buscan. Por el contrario, podría ser que, indagando cuidadosamente pudiéramos encontrar propuestas interesantes en cerebros que no han tenido una formación musical, pero que pertenecen a individuos que se han preocupado por escuchar con atención y que se han generado preguntas y reflexiones adecuadas en sus escuchas. Después de más de veinte años de producir material sonoro, me atrevo a sugerir que el proceso de creación es más un mecanismo de análisis y reflexión desinteresado y detallado que un proceso de producción sistemática.
Evidentemente, lo anterior nos excluye que una vez identificado un interés o una atención a la creación de ideas sonoras, no sea necesario formalizar sus mecanismos de construcción y atender a las metodologías compositivas en cuestión. Como se dijo anteriormente, el estudio sistemático de las formas, normas y reglas particulares de los estilos musicales, del contexto cultural acompañan la imaginación. Por poner un ejemplo, que retomaremos más adelante, las niñas y niños no aprenden su lengua materna por medio de aprender las reglas gramaticales del idioma, ni tampoco amplían su vocabulario leyendo el diccionario, sin embargo la persona que decide convertirse en escritor o escritora deberá probablemente en algún momento de su formación, invertir mucho tiempo leyendo obras que la cultura ha validado como valiosas por x o y motivo que sirvan como ejemplo y que moldean su memoria y su campo de referencias. La lectura atenta tendrá una influencia en la manera de construir imágenes literarias y poco a poco, de una manera que aún no se entiende del todo por parte de las neurociencias, el cerebro de está persona cambiará lenta pero inevitablemente y se llevarán a cabo consolidaciones en las sinapsis neuronales.
La inteligencia artificial, nicho y etiqueta
Aunque actualmente en la cultura popular la IA está en las primeras planas, creo que las comunidades académicas, sobre todo en los campos de las ciencias de la computación y en las neurociencias, las comunidades caminan menos despavoridas. Son comunidades que tienen ya en sus espaldas el conocido “Invierno de la IA” y son más rigurosas en entender, por ejemplo, que el éxito de un experimento acotado en un roedor no implica necesariamente su aplicación al día siguiente en los humanos. Sin lugar a dudas se avanza y el incremento en el número de grupos de investigación, la democratización del conocimiento por medio de internet, y el relativo abaratamiento de computadoras en las cuales se pueden construir pequeños modelos generativos permite a comunidades en todo el mundo entender los principios de los procesos de aprendizaje automático. Las comunidades creativas no estamos ajenas a experimentar y “jugar” con estas técnicas y nos encontramos en un punto fascinante en el cual, la adaptación de muchos de los modelos existentes puede ser implementada en contextos variados sin la necesidad de tener un conocimiento detallado de las matemáticas detrás de los modelos.
Antes de entrar de lleno a las algoritmos generativos en el campo de la composición musical y muy particularmente en el campo de la música experimental y la improvisación actual revisemos por razones históricas el trabajo del compositor y trombonista George Lewis quien desde los años ochentas diseñó un software llamado Voyager con el cual interactuaba en el escenario. El Voyager es un sistema reactivo que responde al músico en función de los materiales generados. La experiencia en vivo era fascinante, con el pequeño detalle de que George Lewis es un trombonista espectacular en sí mismo. Sin demeritar en lo más mínimo el desarrollo tecnológico, mi impresión es que no importaba que tan sofisticado o primitivo fuera el procedimiento reactivo del sistema computacional, Lewis tenía el oído y el entrenamiento musical para guiar y controlar los resultados.
El Voyager no es el único software reactivo para la improvisación sonora y la posibilidad de diseñar este tipo de sistemas es común hoy en día. Por poner un ejemplo, en el programa de posgrado de Tecnología Musical de la Universidad Nacional Autónoma de México, cada año hay al menos un estudiante integrando sistemas de escucha automática para integrarlo en sistemas de composición automática cuyo diseño tecnológico excede por mucho el trabajo de Lewis, no así, necesariamente, su resultado musical. Para tener resultados propositivos se requiere que el grupo de trabajo esté altamente capacitado en varios campos, y estos no siempre es sencillo.
La interdisciplina es un paradigma sin lugar a dudas interesante. Su implementación en las comunidades académicas es, tal vez menos espectacular, dado lo difícil de mantener grupos con necesidades y curiosidades diferentes. Hay muchos estudiantes de Ciencias de la Computación talentosos, pero muy pocos les interesa construir una carrera en el campo de la composición musical. Hay extraordinarios compositores y ejecutantes, pero a muy pocos les interesa dedicar años de estudio para adquirir los conocimientos en álgebra lineal, cálculo y estadística para diseñar modelos optimizados para fines musicales. Esto nos lleva a que, salvo en muy raras situaciones, el trabajo se desarrolla entre varias personas. En esta situación emergen otras problemáticas, incluso desarrollar un lenguaje y un vocabulario compartido entre músicos y desarrolladores es complejo. Mantener la atención y los recursos en estos espacios de trabajo grupal es también complicado.
Tal vez lo anterior es entendible, como sociedad probablemente es más importante generar modelos computacionales para diseñar vacunas, detectar tumores y mejorar el tráfico vehicular en las ciudades. Lo anterior hace que la implementación de modelos innovadores en la creación sonora experimental sea un trabajo mucho más artesanal de lo que se podría pensar hasta ahora. Me refiero a ese nicho particular de la relación entre desarrollo computacional y la música experimental alejada del “mainstream”.
En el caso de la música de consumo cotidiano, tal vez la realidad es diferente. En mi opinión hay dos razones fundamentales para implementar mecanismos de automatización en la producción musical. Sin caer en una posición conspiratoria los mecanismos económicos vigentes buscan, sin lugar a dudas, reducir costos, agilizar procesos, y sobre todo, generar estados de opinión como mecanismos de publicidad. Si en los años ochenta una bebida estaba “adicionada con vitaminas y hierro” y esto aumentaba su venta, considero que cualquier elemento de consumo humano en este momento tendrá mayor atención si está desarrollado con “inteligencia artificial” aunque no nos quede claro ni cómo ni en qué medida ni bajo qué métrica o procedimiento es esto real. En este particular momento de la historia en los medios y las industrias el concepto de “inteligencia artificial” es más una etiqueta de status que un conjunto de procedimientos precisos.
Por otra parte, pensemos también que diariamente se suben a spotify 120,000 nuevas canciones. El número es aterrador pues 120,000 canciones a un promedio de cuatro minutos cada una nos da un aproximado de 133 horas de música. Dado que spotify cuenta ya con varios millones de canciones resolvemos que no hay vida humana que pueda consumir la cantidad de música que se encuentra circulando en los entornos digitales y lo mismo sucede con los libros, las fotografías, el cine, los documentales y cualquier otra expresión humana. Si como humano no soy capaz de consumir todo el material, ¿quien me sugiere o dicta lo que debería de experimentar para expandir mis horizontes? ¿El azar, mi comunidad, la publicidad, la serendipia, o los algoritmos de recomendación basados en procedimientos muy básicos de similitud?
Las comunidades creativas requerimos por muy diversos motivos tener conocimiento, control y acceso a las técnicas y herramientas computacionales vigentes. Ya sea para ser parte de las industrias creativas y su ecosistema tradicional, ya sea para cuestionar la realidad vigente o ya sea para indagar nuevos mecanismos de creación y de la relación hombre-máquina. Es en este último campo en el que he desarrollado parte de mi trabajo.
Composición e inteligencia artificial, historia personal
Por azares de la vida, mi primer acercamiento a las redes neuronales fue directamente de Marvin Minksi quien al final de su vida ya no daba cursos, pero visitaba y charlaba informalmente en los diferentes laboratorios del MIT e improvisaba en el piano del Media Laboratory. Minski conocía, evidentemente, todas las propuestas vigentes en el campo de las redes neuronales. A principios del siglo veinte se gestaban los principios de una nueva ola en el uso de redes neuronales después de un período de declive en los setentas producto de una decepción colectiva por los alcances de los perceptrones. Sin embargo, Google estaba naciendo y aún no existían ni los agregadores de información ni los servicios en las nubes actualmente establecidos.
Sin embargo, desarrollar código computacional con redes neuronales sin tener estudios formales de cómputo o matemáticas no era sencillo por lo que por muchos años desarrollé sistemas computacionales para interacción musical que obedecían a la lógica tradicional de reglas preestablecidas. Condicionales y aleatoriedades restringidas son mecanismos funcionales en ciertos contextos si son guiados por razones estéticas claras. Posteriormente, implementé sistemas de retroalimentación en su acepción tradicional en la cibernética con resultados más o menos aceptables para los fines que pretendía y jugué por largos periodos con cadenas de markov para construir fragmentos y pasajes. En mi tesis de maestría implementé árboles de decisión y técnicas de minería de datos para analizar estructuras en improvisaciones libres sin mucho éxito. En mi tesis doctoral implementé un sistema basado en la escucha automática para inferir ambientes y situaciones acústicas específicas.
Más recientemente, realicé experiencias que involucran la organización automática de fragmentos sonoros por medio de técnicas de agrupamiento utilizando K-medias y hace poco realicé con un grupo de alumnos un sistema de generación sonoro basado en agentes autónomos que tiene resultados orgánicos atractivos (véase aquí). Todas estas experiencias fueron creadas con las técnicas que en su momento estaban en boga en las comunidades donde realizaba las investigaciones. Luego vino el boom…
El concepto de redes neuronales profundas lo conocí por mis alumnos hace ya algunos años, supe de los mejores tutoriales para implementar modelos en Tensorflow por mis alumnos y el mejor curso para implementar GANs lo tomé en Youtube también por recomendación de un estudiante. Hace ya algún tiempo que me percaté que en los ecosistemas académicos en los que colaboro los procesos de aprendizaje y transferencia de conocimiento han cambiado significativamente y que, al menos en las comunidades creativas interesadas en cómputo, ha costado mucho trabajo encontrar expertos humanos que nos expliquen los detalles matemáticos que están detrás de los procedimientos que utilizamos. pero que existen los recursos virtuales para poder implementar muchos procedimientos que prometen ampliar los recursos expresivos con los que trabajamos.
En los últimos tres años, en colaboración con, o tal vez gracias a, los alumnos del posgrado en tecnología musical de la UNAM hemos implementado sistemas de clasificación automática por medio de modelos de regresión, LSTMs, GANs con descriptores de audio, GANs con representaciones simbólicas de música, y GANs con formas de onda y espectrogramas. Lo interesante de las lógicas de trabajo ha sido que los alumnos tienen una curiosidad o necesidad musical a resolver. El nivel de dominio de los alumnos en el campo de la programación es variable, pero regularmente limitado debido a que vienen de haber estudiado alguna carrera creativa. Incluso algunos vienen de haber estudiado matemáticas, pero no computación y me he percatado que una formación en matemáticas no necesariamente está vinculada a un dominio en la programación computacional. Los estudiantes realizan una investigación en internet y se informan de las técnicas que les podrían ser útiles sin necesariamente saber cómo implementarlas en la práctica. Posteriormente, trabajamos juntos en la implementación de los modelos, lo que regularmente involucra la adecuación, adaptación y modificación de códigos fuente públicos que encontramos en espacios como GitHub. Aquí es donde, posiblemente, la experiencia desarrollando código en diferentes lenguajes y los años de escribir y estudiar códigos computacionales en el campo de la música y la tecnología musical me permiten apoyar a los estudiantes. Posteriormente los estudiantes continúan con las modificaciones y manipulaciones hasta lograr los objetivos artísticos que se plantean. En la mayoría de los casos entendemos los conceptos matemáticos, pero no los detalles matemáticos de los mismos.
He de aceptar que esta manera de trabajar me dejó por muchos años una sensación de vacío. No entender las matemáticas detrás de los algoritmos fue por mucho tiempo una fuente de frustración ya que sentía que esta manera de trabajar me colocaba en la categoría de usuario y no de creador. Sin embargo, con el paso del tiempo he aprendido a convivir con esta relación y me he percatado que la transferencia de tecnología tiene un valor intrínseco importante. Una vida humana no da para ser ejecutante musical, creador audiovisual, matemático y computólogo, y obtener-contribuir con resultados originales en cada uno de estos campos. Me tomó muchos años entender que mi esencia estaba en la creación sonora y que el resto de mis prácticas eran herramientas satélites que me permiten explorar y experimentar en territorios idealmente innovadores, pero que mi objetivo ha sido la creación artística.
En mi práctica individual como artista no he desarrollado aún un trabajo que involucre redes neuronales profundas, pero he acompañado varios procesos y he revisado muy de cerca su uso en contextos artísticos. Actualmente trabajo en el diseño de GANs para construir texturas sonoras, sin embargo debo reconocer que me encuentro en la fase de exploración y réplica de ejemplos como para poder reconocer los espacios creativos originales. Confieso que soy escéptico de los resultados que pueda obtener se puedan considerar originales, a lo más, intuyo la posibilidad de generar variaciones y manipulaciones que dejarán traslucir el recurso tecnológico.
En el territorio no especializado veo que las herramientas que están proliferando en este momento son por decirlo amablemente “primitivas”. En el portal https://www.futuretools.io/ se agregan links a un gran número de aplicaciones en web y se pueden revisar un gran número de aplicaciones que generan líricas para canciones, bases rítmicas o incluso canciones completas. Algunas podrán ser útiles en contextos acotados y otras podrían incluso pasar como materiales creados por músicos aficionados, sin embargo no encontré alguna que genere estructuras que puedan igualar el trabajo detallado de los compositores y productores musicales vivos. Las herramientas que existen hasta el momento tienen la dificultad de atrapar las sutiles y excepciones que constituyen la sorpresa o la originalidad como la entendemos en los procesos creativos.
Lo anterior no quiere decir que no haya desarrollos sorprendentes y revolucionarios, sólo por mencionar uno, pienso en los sistemas para convertir texto a voz que permiten generar el modelo de una voz en particular, utilizando una muestra de audio humano de corta duración. El siguiente paso que veo alcanzable en el corto plazo y que ya da muestras promisorias son los sistemas de separación de fuentes sonoras. A la fecha, la complejidad de desagregar de una grabación de audio los diferentes elementos ha sido un reto sin solución que muy posiblemente se pueda resolver con las técnicas actuales. La calidad actual es aceptable, tanto que la pieza con la voz de John Lennon y “completada” por medio de Inteligencia Artificial de los Beatles hace unos meses hace uso de dicha tecnología.
Para terminar, me gustaría plantear una nueva preocupación que no es menor y que se comenta a diferentes niveles en los medios y en los espacios dedicados a los temas de tecnología. Para generar modelos de calidad extrema se requiere de un nivel muy alto de procesamiento de máquina y de bases de datos enormes. Los investigadores y creadores convencionales podemos jugar a experimentar con las computadoras que tenemos, en el mejor de los casos tendremos acceso a ciertos computadores con alguna docena de GPUs, sin embargo, serán las grandes industrias (Amazon, Facebook, Spotify, Google, Youtube, Microsoft, etc.) las compañías que tengan a su alcance el poder de cómputo y la información almacenada para generar los modelos funcionales y serán estos corporativos los que establecerán las preocupaciones, agendas y “curadurías” en los modelos. Inevitablemente los modelos tienen sesgos, y los sesgos en los modelos generativos implementados a gran escala generarán contenidos que, como se dijo anteriormente, establecerán gustos y tendencias. Lo que siento, lo que veo y lo que oigo en el estado del arte es que las bases de datos que se están utilizando en términos masivos son el merengue y el lodo al que Julio Sosa hace referencia en su tango. Será el trabajo de creadores, escuchas, espectadores, curadores, y, por supuesto de la comunidad el ser muy críticos con los resultados y no conformarnos con las, a primera vista, atractivas variaciones que actualmente generan los modelos a los cuales únicamente veo como un collage posmoderno.
Conclusiones
El empleo de los procedimientos que, en su conjunto, definen el campo de la inteligencia artificial en el campo de las artes, la música y el análisis de sonido tiene aplicaciones atractivas e interesantes de valor social, industrial y cultural. Sin lugar a dudas la IA agilizará procesos, democratizará procedimientos y pondrá en manos de muchas personas posibilidades creativas básicas complejas hasta el momento. En el terreno de la investigación ayudará a entender mecanismos y procesos creativos, funcionando a manera de microscopio apoyando procesos de inferencia, deducción y abstracción de conceptos.
Como creador, los algoritmos de generación de materiales de manera mecánica serán un recurso más dentro de la paleta de posibilidades que simplificará parte de mis procesos y me permitirá generar metáforas y recursos creativos. Sin embargo, por el momento no hay evidencias cercanas de poder crear una inteligencia artificial generalizada con autoconciencia expresiva que logre simple y llanamente “imaginar”.
Es por todos conocida la historia del turco mecánico. Ese dispositivo de mediados del setecientos que simulaba ser un autómata que jugaba al ajedrez, pero que en realidad escondía en su interior a un maestro humano experto en ajedrez. Como creador involucrado con la relación entre el arte, la tecnología y el desarrollo computacional, en este particular momento de la evolución socio-tecnológica, me intrigan más los humanos jugadores de ajedrez escondidos bajo las mesas, que los turcos mecánicos simulados. Estos humanos con sus habilidades para integrar imaginación y cómputo son, en mi opinión, los verdaderos artistas contemporáneos.