Die Reaktionen auf künstliche Intelligenz reichen von hoffnungsvollen Zukunftsvisionen bis hin zu dystopischen Szenarien. In den letzten Jahren wurde aus einem entfernten Versprechen tägliche Realität: Viele von uns schreiben E-Mails mit ChatGPT und generieren Bilder mit Midjourney, künstliche Intelligenz, so scheint es, stellt jeden Tag einen neuen Bereich unseres Lebens auf den Kopf.
Das gilt natürlich auch für Musik. KI-Technologien kommen bereits im Audio-Bereich zum Einsatz, übernehmen Aufgaben wie das Trennen von Spuren bis hin zu Vocal-Deepfakes und bringen frischen Wind in klassische Produktionstools und Bedienoberflächen von Musikprogrammen. Nicht unwahrscheinlich, dass KI bald selbst Musik macht.
In Musik-Communities sorgt das Aufkommen von KI für erhitzte Debatten. Althergebrachte Annahmen rund um Kreativität, Autor:innenschaft und Authentizität stehen auf dem Prüfstand. Einige Stimmen begrüßen die vielversprechenden neuen Tools, während andere die Technologie für überbewertet und ihre Auswirkungen für überschaubar halten. Wieder andere fürchten um liebgewonnene Praktiken und Kulturen des Musikmachens.
In diesem zweiteiligen Artikel befassen wir uns im Detail mit KI-gesteuertem Musikmachen, einem äußerst komplexen und in sich ständiger Bewegung befindlichen Thema. Wir sehen uns KI-Tools fürs Musikmachen an, sprechen über die durch sie geschaffenen neuen kreativen Möglichkeiten und befassen uns mit den philosophischen Fragen, die sie aufwerfen. Wir versuchen uns an einem Blick in die Zukunft und stellen die Frage, wie KI-Tools die Art verändern könnten, auf die wir Musik machen. Je tiefer wir dabei in das Thema eintauchen, desto ambivalenter werden auch die entstehenden Gefühle. Die Zukunft, sie strahlt – macht aber auch ein bisschen Angst.
Definitionssachen
Bevor wir tiefer ins Thema eintauchen, bestimmen wir ein paar Begriffe näher.
Die erste Frage: Was ist eigentlich KI? Die Antwort ist nicht so einfach, wie man denken mag. Der Begriff stammt aus den 50er Jahren und wurde seither auf verschiedenste Technologien angewandt. Im weitesten Sinne meint KI viele Arten von Computerprogrammen, die den Anschein einer menschlichen Intelligenz erwecken oder die Aufgaben erledigen, von denen wir einst dachten, sie wären Menschen vorbehalten.
Der KI-Boom der letzten Jahre beruht auf einer Technik namens Machine Learning. Ein Machine-Learning-System lernt nicht komplett von Menschen, sondern kann sich selbst auf Grundlage eingespeister Daten optimieren. Machine Learning gibt es seit Jahrzehnten. Neu ist eine besondere Form davon: Das sogenannte Deep Learning.
Deep-Learning-Systeme bestehen aus neuralen Netzwerken: Einem Satz an Algorithmen, die in den Grundzügen wie ein menschliches Gehirn konfiguriert wurden, das eingehende Daten interpretieren und Muster erkennen kann. Das „Deep” darin meint, dass diese Netzwerke viele Ebenen haben, durch die das System Daten intelligenter interpretieren kann. In anderen Worten: Wir können irgendwelche Bilder oder Texte einspeisen und das System erkennt relativ genau die darin auftretenden Muster.
Deep-Learning-Systeme sind jedoch nicht „intelligent” in der Art, die dystopische Sci-Fi-Filme über entfesselte künstliche Intelligenzen gerne zeichnen. Ihnen fehlt das, was wir Bewusstsein nennen. Alles, was sie können – und das können sie gut –, ist Muster in Daten erkennen. Aus diesem Grund ist der Begriff der künstlichen Intelligenz mitunter auch umstritten.
Die Raffinesse des Deep Learnings verlangt nach Prozessoren, weshalb die Technologie erst in den letzten Jahren weithin verfügbar wurde. Präsent ist Deep Learning aber schon viel länger, und das in vielleicht unerwarteten Bereichen unserer Leben. Deep Learning kommt bei Online-Übersetzern zum Einsatz, beim Aufspüren von Kreditkartenbetrug und bei den Empfehlungs-Algorithmen von Musik-Streamingdiensten.
Diese etablierten Spielarten von KI drehen sich meist um Produkte und Dienstleistungen. Tools wie Dall-E und ChatGPT werten nicht einfach nur Daten aus, um Menschen beim Verstehen von Mustern zu unterstützen. Sie produzieren einen Output, der versucht, die nächsten Schritte der Daten zu erraten. In diesen Fällen sprechen wir von generativer künstlicher Intelligenz.
Während andere Formen des Deep Learnings in unserem Alltag eher im Hintergrund stehen, stellt sich die generative KI gern in den Mittelpunkt. Indem sie uns mit Bildern, Texten oder anderen Formen von Medien versorgt, lädt sie zum Dialog mit der Maschine ein. Sie spiegelt uns die menschliche Kreativität wider und stellt die Vorzüge – und Herausforderungen – der KI klar heraus.
Kein ChatGPT für Musik?
Deep-Learning-Technologie kann auf digitales Audio genauso angewendet werden wie auf Bilder, Text und andere Datenformen. Das hat vielfältige Auswirkungen, denen wir uns in diesen Artikeln widmen werden. Bislang gibt es kein ChatGPT für Musik. Das heißt: Es gibt kein Tool, das mit riesigen Audio-Datenmengen gefüttert wurde, das Text oder andere Befehle erkennt und die passende, hochwertige Musik erzeugt. (Das könnte sich allerdings bald ändern – mehr dazu in Teil 2.)
Dafür gibt es ein paar Gründe. Zunächst unterscheiden sich Audiodaten fundamental von Texten oder Bildern, wie Christian Steinmetz, ein KI-Audio-Wissenschaftler der Queen Mary University erklärt: „[Audio] hat eine relativ niedrige Bandbreite – an jedem Punkt in der Zeit steht ein Sample, wenn man von monophonem Audio ausgeht. Aber man bekommt 44.000 dieser Samples pro Sekunde.” Das bedeutet, dass ein paar Minuten Audio das Datenäquivalent zu einem gigantischen Bild besitzen.
Die KI-Audio-Wissenschaftler:innen und Innovator:innen von the Dadabots haben festgehalten, dass die Schnelligkeit, mit der die derzeit verfügbaren Systeme arbeiten, dadurch limitiert ist. „[Mit] ein paar der hochwertigsten Methoden zum Generieren von rohem Audiomaterial kann man einen Tag damit beschäftigt sein, nur einen Song zu generieren.”
Anders als Bilder und Texte hat Audio eine zeitliche Dimension. Für uns ist es von Bedeutung, wie sich die letzte Minute eines Songs auf die erste Minute bezieht, und das stellt die KI vor besondere Herausforderungen. Musik kann außerdem offensichtlich nicht so einfach verlässlich mit Worten beschrieben werden, wodurch es schwieriger wird, sie so einfach durch Worte zu generieren, wie das bei Bildern der Fall ist. „Musik ist eine unserer abstraktesten Kunstformen,” erklären die Dadabots. „Die Bedeutung von Klangfarben, Harmonien, Rhythmen entsteht alleine durch die Interpretation der Hörenden. Es kann sich ziemlich schwierig gestalten, einen kompletten Song so genau zu beschreiben, dass andere ihn sich direkt vorstellen können.”
Hinzu kommt, dass unsere klangliche Wahrnehmung besonders fein gestimmt ist. „Wir sind vielleicht auf eine andere Art sensibel für klangliche Verzerrungen als unser visuelles System sensibel ist,” sagt Steinmetz. Als Beispiel nennt er die Jukebox von OpenAI, ein generatives Musikmodell aus dem Jahr 2020, das damals Vorreiterstatus hatte. Es kann „sehr überzeugende Musik” erzeugen, im Sinne von: Alle grundlegenden Elemente sind vorhanden. „Aber aus einer qualitativen Perspektive klang das super schlecht. Es ist bei Audio fast so, als würde es auch ungeübten Zuhörenden auffallen, wenn nicht alles genau da ist wo es hingehört. Bei einem Bild ist es hingegen eher so, dass wenn man die meisten Details irgendwie hinkriegt, das Bild auch einigermaßen überzeugt. Man muss nicht jedes Pixel genau richtig hinkriegen.”
Es ist verführerisch, daraus zu schließen, Musik sei eben eine Nuss, die man nicht einfach knacken kann: zu mysteriös, zu flüchtig als ästhetische Erfahrung, um von Maschinen gebannt zu werden. Das wäre jedoch naiv; tatsächlich ist die Entwicklung effektiver KI-Musik-Tools seit einigen Jahren auf dem Vormarsch.
Derzeit gibt es ein Wettrennen im Versuch, ein „generatives Musikmodell” zu entwickeln – also eine generative Musik-KI mit der Wandelbarkeit und Effizienz von Stable Diffusion oder ChatGPT. Im zweiten Teil unserer Reihe werden wir uns dem genauer widmen, inklusive der möglichen Implikationen für den Bereich der Musikproduktion.
Dabei gibt es viele Einsatzmöglichkeiten für KI in der Musik jenseits des Ideals eines einzigen, umfassenden Systems. Von generativem MIDI, abgefahrener Synthese oder automatisiertem Mixing bis hin zu Analog Modeling haben KI-Tools das Potenzial, den Prozess des Musikmachens ganz neu aufzusetzen. Im ersten Teil dieser Reihe werden wir uns damit befassen, was bereits auf dem Markt ist und nähern uns der Frage an, wie die Tools sich in Zukunft entwickeln könnten. Ist KI eine Bedrohung für die menschliche Kreativität oder nur ein Ausdruck davon? Welche Aspekte des Musikmachens werden sich verändern und welche bleiben, wie sie sind?
Die Automatisierung der Produktion
An dieser Stelle mag eine gewisse Verwirrung auftreten: Für Menschen, die Musik produzieren oder in irgendeiner anderen Art professionell mit Audio zu tun haben, klingt „KI-Musikproduktionstools” wahrscheinlich nicht nach der neusten aller Ideen. Tatsächlich ist es so, dass das KI-Label in der Welt der Musiktechnik schon seit Jahren umhergeistert.
iZotope etwa integriert KI in Produkte wie das All-in-one-Mixingtool Neutron 4. Der Mix-Assistent des Plugins hört sich den kompletten Mix an, analysiert die Beziehungen zwischen den Sounds und generiert einen Mix, der nach eigenem Gusto angepasst werden kann.
Firmen wie Sonible bieten „smarte” Versionen von klassischen Plug-in-Effekten wie Kompression, Reverb und EQ. Die Plug-ins passen sich automatisch an eingehendes Audio an. Anwender:innen steht ein einfaches Set an Makros zur Verfügung, um die Einstellungen weiter anzupassen. „pure:comp” etwa bietet nur einen Hauptregler für Kompression, der Parameter wie Threshold, Ratio, Attack und Release gleichzeitig steuert.
Andere Tools übernehmen Teile des Produktionsprozesses, die viele Produzent:innen eher outsourcen. LANDR etwa produziert einen KI-automatisierten Master von Tracks und kostet nur einen Bruchteil eines professionellen Mastering-Engineers. Musiker:innen können ihren Premaster einfach auf der Website hochladen, einen Mastering-Stil und das Loudness-Level auswählen und dann den gemasterten Track herunterladen.
Was verbindet all diese Tools mit den Deep-Learning-Technologien, die gerade ihren Durchbruch erleben? Hier haben wir es wieder mit der Schwammigkeit des KI-Begriffs zu tun. Deep Learning ist eine Spielart der KI-Technologie, aber eben nicht die einzige. Schon vor der Entwicklung des Deep Learning gab es eine Technologie namens „Expert Systems”.
Wie Steinmetz erklärt, basiert diese Methode auf dem „Herstellen dreier Optionen”. Er beschreibt, wie automatisierte Mixing-Tools nach dieser Methode arbeiten könnten. „Wenn das Genre Jazz ist, geht man zu diesem Part der drei. Wenn du Jazz hast und das Instrument ein Kontrabass ist, gehst du zu jenem Part der drei. Wenn du einen Kontrabass mit viel Energie bei 60 Hertz hast, fährst du das vielleicht runter. Man entwickelt eine Regel für jedes mögliche Szenario. Wenn man eine Sammlung an Regeln entwickeln kann, die komplex genug ist, hat man am Ende ein System, das einem intelligent erscheint.”
Wenn man einen Job macht, der theoretisch auch automatisiert werden können – in dem Sinne, dass sich da niemand wirklich um künstlerische Entscheidungen kümmert, sondern etwas einfach erledigt werden muss – dann wird diese Aufgabe früher oder später auch automatisiert werden.
Es ist schwer, mit Sicherheit zu sagen, welche Technologie in Produkten jeweils zum Einsatz kommt. Wahrscheinlich ist aber, dass ältere KI-basierte Musikproduktionstools in irgendeiner Weise auf dieser Methode aufbauen. (Natürlich kann es sein, dass in letzter Zeit auch Deep-Learning-Methoden in die Tools integriert wurden.)
Gut ausgeführt ist der Ansatz sehr effektiv, stößt jedoch auch an seine Grenzen. Wie Steinmetz ausführt, erfordern derartige Technologien professionelle Audio-Techniker:innen, die gemeinsam mit Programmierer:innen alle Regeln entwickeln. Und wie jeder Mensch, der schon mal einen Track abgemischt hat, weiß, geht es dabei selten darum, einfach nur die Regeln zu befolgen. Gute Mixtechniker:innen treffen zahllose subtile Entscheidungen und haben eine gewisse Hellsicht. Es wären einfach zu viele Regeln vonnöten, um das voll abzubilden. „Es ist im Grunde wirklich ein Problem der Dimensionen,” erklärt Steinmetz.
An dieser Stelle kommt Deep Learning ins Spiel. Wir erinnern uns: Deep-Learning-Systeme können sich selbst auf Grundlage von Daten Dinge beibringen. Sie müssen nicht von einem Menschen, der das nötige Wissen hat, mikro-gemanaged werden. Je mehr Daten in sie eingespeist werden und je mehr Prozessorleistung ihnen zur Verfügung steht, desto effizienter können sie ihrer Aufgabe nachkommen.
Das bedeutet, dass ein Deep-Learning-Modell, das mit großen Mengen an Musik gefüttert wurde, vermutlich besser funktionieren würde als ein Expert-Systems-Modell – und in mancherlei Hinsicht mit seinen Ergebnissen vielleicht auch menschliche Mixtechniker:innen übertreffen würde.
Im Audiobereich ist das noch nicht wirklich Realität. Steinmetz weist jedoch auf die Bild-Klassifikation hin, die ein gutes Beispiel dafür abgibt, wie weit KI-Tools kommen können. „Das beste Modell ist im Grunde akkurater als ein Mensch, wenn es um das Klassifizieren von Bildinhalten geht, weil wir es mit Millionen von Bildern trainiert haben – mehr Bilder, als sich ein Mensch jemals anschauen könnte. Da steckt also viel Kraft dahinter.”
KI wird also wahrscheinlich ziemlich gut darin, eine ganze Reihe an technischen Aufgaben zu übernehmen, die Musikproduzent:innen bislang als essenziell für ihren Job angesehen haben. Von Kleinstaufgaben wie das Einstellen von Attack und Decay an einem Kompressor bis hin zu diffusen Aufgaben wie die Finalisierung eines Mixdowns: Vielleicht ist KI bald unsere ganz eigene In-House-Soundtechnikerin.
Was ändert das für Menschen, die Musik machen? Steinmetz zieht eine Analogie zur Demokratisierung von digitaler Fotografie durch Smartphone-Kameras. Professionelle Fotograf:innen, die in ihrem Arbeitsalltag etwa Veranstaltungen begleiteten, wurden seltener benötigt. Die Nachfrage nach künstlerischen Fotograf:innen bleibt.
„Beim Mixing oder in der Audiotechnik ist das so ähnlich. Wenn man einen Job macht, der theoretisch auch automatisiert werden können – in dem Sinne, dass sich da niemand wirklich um künstlerische Entscheidungen kümmert, sondern etwas einfach erledigt werden muss – dann wird diese Aufgabe früher oder später auch automatisiert werden.” Wenn es jedoch um die Realisierung einer kreativen Vision geht, kann keine KI die Aufgabe der Person übernehmen, die die Entscheidungen trifft. Küntler:innen werden „KI als ein Tool benutzen, aber immer noch auf dem Chefsessel sitzen. Sie überlassen dem Tool ein paar Entscheidungen, treffen aber am Ende des Tages die relevanten Entscheidungen selbst.”
Das bietet natürlich wenig Sicherheit für diejenigen, die von ihren hart erarbeiteten und eher funktionalen Produktions- oder Technikskills finanziell abhängig sind. Wir können uns auch fragen, ob die nächste Generation von Produzent:innen darunter leiden wird. Wie genau man etwa Kompressoren oder EQs einsetzt, ist immer auch zumindest zum Teil eine kreative Entscheidung. Wenn die Technologie Prozesse wie diese automatisiert, können Produzent:innen die Chance verpassen, kreative und neue Lösungen für alte Probleme zu finden – und potenziell produktive Fehler zu machen?
Andererseits haben Musikschaffende durch die Automatisierung jener Aufgaben mehr Zeit und Energie, die sie in die kreativen Aspekte ihrer Arbeit investieren können. Viele Aufgaben, die DAWs heute innerhalb von Sekunden erledigen, hätten zur Zeit analoger Studio massenhaft Ressourcen, Arbeitsstunden und Skills verschlungen. Das heißt aber noch lange nicht, dass wir Musik aus modernen DAWs für kreativ verkümmert halten. Vielmehr hat sich der Ort der Kreativität verlagert, als neue Sounds, Techniken und Herangehensweisen immer mehr Musiker:innen zur Verfügung standen.
„Es stimmt, dass manche Aspekte der eher mechanischen Musikproduktion künftig wahrscheinlich von Tools ersetzt werden, denen die Aufgaben leichter fallen,” sagt Mat Dryhurst, gemeinsam mit der Musikerin Holly Herndon Mitbegründer des KI-Start-ups Spawning. „Das verschiebt aber nur die Regeln für das, was wir von Kunst erwarten. Im Allgemeinen schätzen wir Künstler:innen, die aus dem einen oder anderen Grund von gesetzten Regeln abweichen, und es wird auch in der KI-Ära große Künstler:innen geben, so wie es in jeder Ära große Künstler:innen gegeben hat.”
Am Anfang war MIDI
Zwischen funktionalen und künstlerischen Produktionsaufgaben zu unterscheiden, ist im Falle von Aufgaben wie dem Mixing relativ einfach. Aber was ist mit der Seite der Komposition? Auch hier könnte KI für einigen Wirbel sorgen.
Ein früher Versuch, Machine Learning in diesem Feld zum Einsatz zu bringen, war „Magenta Studio”, ein Projekt aus dem Magenta-Labor von Google, das 2019 als eine Sammlung von Max-For-Live-Tools veröffentlicht wurde. Die Tools bieten eine Reihe an Möglichkeiten, MIDI-Noten zu generieren: Neue Melodien oder Rhythmen von null auf zu entwickeln, Melodien basierend auf gegebenen Noten zu Ende zu schreiben oder zwischen zwei melodischen Clips zu morphen. Die Modelle, trainiert auf Millionen von Melodien und Rhythmen, spucken oft hochwertigere – und vielleicht musikalischere – Ergebnisse aus als traditionelle generative Tools.
Firmen wie Orb Plugins haben die KI-gestützte Erzeugung von MIDI-Noten noch weiter getrieben, indem sie diese in konventionelle Softsynths eingebaut haben. Bei Drum-Sequencer wurde damit indessen begonnen, Anwender:innen rhythmische Inspiration zu liefern.
Warum das frühe Interesse an MIDI? MIDI-Noten sind, verglichen zu Audioinformationen mit 44.000 Samples pro Sekunde, recht simple Daten – das heißt, Modelle können einfacher gebaut werden und laufen besser. Als die Technologie noch in den Kinderschuhen steckte, lag es nahe, mit MIDI zu beginnen.
Natürlich bringt die Kompaktheit von MIDI auch Limitierungen mit sich. Tonhöhen und Rhythmen sind in der Musik nur ein Teil des Ganzen. Hinsichtlich des Schwerpunkts auf MIDI unter Machine-Learning- und Musikhacker:innen schreiben die Dadabots vor einigen Jahren: „MIDI ist nur 2 % von dem, was man an Musik lieben kann. Man kriegt Merzbow nicht als MIDI. Nicht die Atmosphäre einer Black-Metal-Platte. Du kriegst nicht die Klangfarbe von JIMI Hendrix’ Gitarre oder dem Saxophon Coltranes oder von MC Ride. Reines MIDI ist ein Ersatz.”
Da die KI-Technologie voranschritt und Prozessoren immer leistungsstärker werden, gibt es immer mehr Tools, mithilfe derer Musiker:innen direkt mit rohem Audiomaterial arbeiten können. Gehören MIDI-basierte KI-Tools also schon der Vergangenheit an?
Vermutlich nicht. Die meisten zeitgenössischen Musiker:innen bauen auf MIDI oder anderen „symbolischen” Musiksprachen. Elektronische Produzent:innen geben Rhythmen in Sequencer ein, zeichnen Noten auf der Pianorolle und bauen auf Techniken, die aus Traditionen der Musiktheorie stammen, wie etwa Tonarten und Tonleitern. KI hat hier viel zu bieten. Neben dem Erzeugen von Ideen können wir MIDI-basierte KI-Tools auch nutzen, um Audio akkurat in Notation zu transkribieren oder komplexe Transformationen von MIDI-Daten zu vollziehen. (Etwa die Transformation von Rhythmen oder Melodien von einem Stil oder Genre in ein anderes).
Julian Lenz von der KI-Musikfirma Qosmo betonte in einer Talkrunde mit Fokus auf die ungebrochene Bedeutsamkeit von „symbolischer Musikgeneration”, dass reine Audiomodelle nicht besonders gut darin sind, die Grundlagen der Musiktheorie zu verstehen. Googles MusicLM etwa, ein jüngeres Musikmodell, das mit hunderttausenden Audioclips trainiert wurde, hat Probleme bei der Unterscheidung zwischen Dur- und Molltonarten. Abschließend zeigte Lenz ein neues Qosmo-Plug-in, das einfache eingetippte Rhythmen in eine komplexe und ausgefeilte Schlagzeugperformance umwandelt. Während reine Audio-KI-Tools immer irgendwie fehlerhaft sind, bieten MIDI-basierte Tools einen direkteren Weg zu neuer Inspiration.
Tools wie diese werfen schwierige Fragen über die Rolle der Kreativität auf. Wenn ein KI-basiertes Plug-In eine Melodie für jemanden generiert, kann die Person sich dann noch als „Komponist:in” dieser Melodie bezeichnen? Was, wenn man die Melodie mit einem KI-Modell entwickelt, das nur mit Songs von den Beatles trainiert wurde? Gehört die Melodie dann einem selbst, der KI oder sogar den Beatles?
Fragen wie diese stellen sich hinsichtlich vieler Formen des KI-gestützten Musikmachens, und wir werden im zweiten Teil darauf zurückkommen. Für jetzt halten wir nur fest: Wenn es um MIDI-basierte Generierung von Melodie und Rhythmus geht, ist der Status des intellektuellen Eigentums schon lange im Wanken. Moderne Komponist:innen elektronischer Musik bedienen sich häufig ausgefeilter Arpeggiatoren, Noten-Randomisierung oder Euclidean-Rhythm-Generatoren. Das generierte Material kann Ausgangspunkt sein, gesichtet und verändert und entsprechend der kreativen Vision der musikschaffenden Person arrangiert werden. KI-Tools sorgen vielleicht schneller für überzeugende Ergebnisse. Ohne die menschliche Subjektivität, die die generierten Ergebnisse in eine kreative Vision einbetten, geht es aber nicht.
Klangfarben übertragen, neue Sounds entdecken
Wenn wir an radikale neue Technologien wie KI denken, stellen wir uns vielleicht wilde neue Klänge und Texturen vor. MIDI wird niemals der Weg dahin sein – dafür brauchen wir Audio.
Im aufstrebenden Feld der „neuralen Synthese” ist der Klangfarben-Transfer derzeit eine der dominierenden Technologien. Einfach ausgedrückt werden beim Klangfarben-Transfer Audiosignale genommen und so verändert, dass sie wie etwas anderes klingen. Eine Stimme wird zur Violine, eine knarzende Tür wird zum Amen-Break.
Wie funktioniert das? Klangfarben-Transfer-Modelle wie IRCAMs RAVE („Realtime Audio Variational autoEncoder”) enthalten zwei neurale Netzwerke, die als Tandem funktionieren. Eines davon enkodiert das eingegangene Audio und begreift es entsprechend bestimmter Parameter wie Lautheit oder Tonhöhe. Mit den aufgenommenen Daten versucht das zweite neurale Netz, das eingegangene Audio zu rekonstruieren (oder zu dekodieren).
Die Sounds, die ein Autoencoder ausgibt, sind vom Audiomaterial abhängig, mit dem dieser trainiert wurde. Wenn er mit Aufnahmen einer Flöte trainiert wurden, spuckt der Dekoder Flöten-artige Sounds aus. Hier kommt der Klangfarben-Transfer ins Spiel. Wenn der mit der Flöte trainierte Encoder mit einer menschlichen Stimme gefüttert wird, gibt er dennoch Flötensounds aus. Das Resultat ist ein merkwürdiges Amalgam: Die Konturen einer Stimme mit der Klangfarbe einer Flöte.
Klangfarben-Transfer ist bereits in einer Reihe an Plug-ins vertreten, von denen jedoch noch keines auf dem freien Markt verfügbar ist. Frei zugänglich ist am ehesten Neutone von Qosmo, ein kostenloses Plug-in, mit dem einige auf neuraler Synthese basierende Technologien in der DAW ausprobiert werden können. Darin enthalten sind RAVE und eine andere Klangfarben-Transfer-Methode namens DDSP (Differentiable Digital Signal Processing). DDSP ist eine Art Hybrid aus der Encoder-Technologie und der DSP aus konventioneller Synthese. Sie ist einfacher zu trainieren und sorgt für Ergebnisse, die besser klingen – solange der Audio-Input monophon ist.
Beispiele für Klangfarben-Transfer finden wir schon seit einigen Jahren in Musikreleases. Ein frühes Beispiel ist der Track „Godmother” von Holly Herndons Album PROTO, für den ein perkussiver Track der Produzentin Jlin durch ein Klangfarben-Transfer-Modell geschickt wurde, das auf menschliche Stimmen trainiert wurde. Ergebnis ist ein unheimlicher Beatbox-Sound, voll von befremdlichen Details und körnigen Artefakten.
„Godmother” hat experimentelle Qualitäten, als würde der Track neue klangliche Landschaften erobern. Diese Eigenschaft liegt großen Teilen der Musik inne, die mit Klangfarben-Transfer entstanden ist. Auf A Model Within des Produzenten Scott Young sind fünf experimentelle Kompositionen vertreten, denen genau diese Qualität inneliegt. Jede davon erforscht ein anderes Preset-Model aus Neutone und fängt auf ihre Art die ungewohnte Interaktion zwischen Mensch und Maschine ein.
Auch schon bevor er KI-Tools für sich entdeckte, interessierte sich der immer gut beschäftigte Young für generative Kompositionsmethoden. Zu Beginn seiner Musikkarriere, so erinnert sich der Producer, verbrachte er „einen Monat damit, einen Track zu bauen. Das war ziemlich romantisch. Ich lebte jedoch in Hongkong, wo die Möglichkeiten limitiert waren. Also habe ich mich langsam an die Reaktor-Generatoren gewöhnt, um Sequenzen zu erzeugen und zusammenzufügen.”
Der Musiker Eames schlug ihm schließlich im letzten Jahr vor, das Ganze mithilfe generativer AI ein bisschen zu beschleunigen. Young fing an, zu experimentieren, und stieß dabei auf RAVE, das er jedoch zunächst nicht so einfach zum Laufen brachte, trotz seines Backgrounds als Software-Entwickler. Schließlich entdeckte er Neutone. „Die Preset-Modelle waren so eindrucksvoll, dass ich mit großem Eifer begann, damit Musik zu machen. Die Resultate haben mich umgehauen. Der Output ist wirklich lebensecht.”
Eine Angst, die KI oft entgegengebracht wird, ist, dass sie das Musikmachen des kreativen Aspekts beraubt. Young hat mit dem Klangfarben-Transfer eine gegenteilige Erfahrung gemacht. Klangfarben-Transfer-Modelle sind – zumindest bis jetzt – temperamentvoll. Die Soundqualität ist fehleranfällig und sie reagieren unvorhersehbar auf Inputs. Für Young war es diese Unvorhersehbarkeit, die ihn aus dem gewohnten Musik-Trott herausriss. „Da wird im Schaffensprozess viel mehr Wert auf den Zufall gelegt, denn man weiß nicht immer, was mit dem, was man spielt, passiert.”
Sobald das Material generiert war, musste er daraus eine Komposition bauen – ein Prozess, den er mit dem Bearbeiten von Live-Jazz-Aufnahmen zu früheren Zeiten in Verbindung bringt. „Wenn man mit generativen Methoden arbeitet, geht es für einen selbst als menschlichen Schaffenden darum, zu wissen, wie man die Teile zurechtschneidet und zu etwas verbindet, was Bedeutung hat und mit uns in Resonanz tritt.”
Auf „Crytrumpet”, dem unheimlichsten Track der EP, schickt Young eine Aufnahme eines weinenden Babys – seiner Tochter – durch ein Modell, das mit einer Trompete trainiert wurde. Momente wie dieser fangen die schlichtweg merkwürdige Qualität der KI-Technologie gut ein. Klangfarben-Transfer ist jedoch bei weitem nicht die einzige Einsatzmöglichkeit von KI in Plug-ins.
Im März war Steinmetz neben Andrew Fyfe von Qosmo und der Audio Programmer Platform an der Organisation der Neural Audio Plugin Competition beteiligt. Durch das In-Aussicht-stellen von Geldpreisen für die besten Einsendungen wollte der Wettbewerb Innovation anregen. „Die Erstellung von neuronalen Netzen in Plugins hatte sich noch nicht wirklich etabliert,” erklärt Steinmetz. „Wir brauchen eine Methode, wie wir mehr Leute dazu anregen können, in dem Bereich zu arbeiten, weil ich weiß, dass hier viel zu tun ist, und dass das wirklich viel bewirken wird.”
Unter den 18 Einsendungen boten manche neurale Herangehensweisen an konventionelle Effekte wie Kompression, andere schlugen generative MIDI-basierte Tools vor. Manche der Ideen waren auch etwas überraschender: Mit Vroom, einem Sound-Design-Tool, können einzelne Sounds durch Texteingaben generiert werden. HARD ist ein neuartiger „Audio-Remixer”, der das Crossfaden zwischen den harmonischen und rhythmischen Parts von zwei Tracks unabhängig voneinander ermöglicht. Jede:r musste den eigenen Code als Open Source anbieten, und Steinmetz hofft, dass künftige Plug-in-Designer:innen darauf aufbauen werden. Nach ihm erleben wir derzeit die Geburtsstunde einer „Bewegung an Menschen, die sich für diese Themen interessieren”.
Analog Modeling
KI kann also neue Sounds erzeugen. Sie kann aber auch die alten – und vielleicht auch besser, als wir das früher konnten. Analog Modeling ist ein Eckpfeiler der Plug-in-Industrie. Manche Menschen sagen voraus, dass KI deren Zukunft ist. Plug-ins wie TAIP von Baby Audio (das eine „europäische Tape-Maschine von 1971 emuliert”) und Neural Q von Tone Empire („ein bekannter alter deutscher Equalizer”) arbeiten mit neuronalen, netzwerk-basierten Methoden statt mit traditionellen Modeling-Techniken.
Wie das funktioniert, erklären Baby Audio auf ihrer Webseite:
„Während bei einer normalen DSP-Emulation die Wirkung der verschiedenen analogen Komponenten und ihre gegenseitigen Abhängigkeiten "geschätzt" werden müssten, können wir mithilfe von KI/neuronalen Netzen die klanglichen Merkmale, die eine Bandmaschine so klingen und sich so verhalten lassen, genau entschlüsseln. Dafür wird ein Algorithmus mit verschiedenen Trainings-Daten aus trockenem oder bearbeitetem Audiomaterial gefüttert und ihm so genau beigebracht, auf welchen Charakteristika der Unterschied dazwischen beruht. Wenn diese Unterschiede einmal von der KI verstanden wurden, können wir sie auf neues Audiomaterial anwenden.”
Warum mit KI arbeiten statt mit traditionellen Modeling-Methoden? Zum Einen wegen der besseren Ergebnisse. Tone Empire führt aus, dass traditionelles Circuit-Modeling „niemals eine so authentische analoge Emulation produzieren kann” wie KI-basierte Ansätze.
Ein anderer Faktor ist die Geschwindigkeit. Analog Modeling mit neuraler Verarbeitung spart Plug-in-Firmen potenziell viel Zeit und Geld. Wir könnten es also bald mit vielen hochwertigen, günstigen analogen Modellen zu tun haben – nicht das Schlechteste für Produzent:innen, die gerne mit neuen Spielzeugen spielen.
Radikaler gesprochen bedeutet das, dass Modeling den Musikschaffenden selbst in die Hand gegeben wird. In der Gitarrenwelt passiert das bereits über Firmen wie TONEX und Neural DSP. Die Quad Cortex Modeling Unit von DSO enthält eine KI-gestützte Neural-Capture-Funktion, mithilfe derer Gitarrist:innen ihre eigenen Amps und Pedale bauen können. Das Prinzip ist einfach: Der Quad Cortex schickt einen Testton durch die Ziel-Einheit und generiert auf Basis des ausgegebenen Audios in wenigen Sekunden ein qualitativ hochwertiges Modell.
Die daraus entstehenden Möglichkeiten sind spannend. Viele von uns haben dieses eine kaputte, alte Pedal oder dieses eine Teil aus unserem Rack, dessen einzigartigen Sound wir lieben. Was, wenn wir daraus ein Modell für unseren Computer erstellen könnten – und das Modell mit unseren Freund:innen teilen könnten? Bis jetzt war Modeling eine Sache für Technik-Profis. Umso spannender ist der Gedanke, die Technik in die Hand von Musiker:innen zu geben.
Die Demokratisierung der Musiktechnik
Dieses Thema – Aufgaben, die früher den Profis vorbehalten waren, an Musiker:innen zu übergeben – wird immer wieder in Zusammenhang mit KI-gestützten Musiktools diskutiert. Für Steinmetz ist Analog Modeling nur eine der Anwendungsmöglichkeiten für Deep-Learning-Technologien, und auch nicht die spannendste davon. Er wirft die Idee von Tools wie Midjourney oder Stable Diffusion auf, die statt Bildern neue Audioeffekte ausgeben.
„Damit kann jede:r eigene Effekte erstellen, weil man dazu keine Programmierer:innen mehr braucht. Ich kann einen generativen Space nach Tönen oder Effekten durchsuchen, genau so, wie ich Stable Diffusion durchsuchen würde. Ich könnte einen neuen Effekt entdecken und mit Freund:innen teilen, oder ihn für eigene Produktionen nutzen. Das eröffnet ganz neue kreative Möglichkeiten.”
Oben haben wir uns damit beschäftigt, wie bestimmte Produktionsaufgaben von KI automatisiert werden können, und wie Musikschaffende dadurch mehr Fokus auf ihre Kreativität legen können. Sie könnten sich zum Beispiel mehr auf ihre Produktionstools konzentrieren. KI-Technologie könnte uns allen die Möglichkeit geben, unsere jeweils eigene Toolbox fürs Musikmachen zu entwickeln. Diese Toolbox so kreativ und einzigartig wie möglich zu gestalten, wird vielleicht eines Tages so wichtig wie es EQs und Kompression heute sind.
Steinmetz zeichnet das Bild des „Wachstums einer Art Programmierer:innen/Musiker:innen/Audiotechniker:innen, Menschen, die sich sowohl mit der technischen als auch der musikalischen Seite beschäftigen.” Diese Menschen werden entweder kreative Wege finden, die bereits vorhandenen KI-Modelle zu „brechen”, oder aber „ihre eigenen Modelle zu bauen, um eine Art Sound für genau ihre eigenen musikalischen Praxen zu entwickeln.” Für Steinmetz liegt darin das neueste Ziel einer lange gewachsenen Beziehung zwischen Künstler:innen und ihren Tools. „Immer, wenn ein neuer Synthesizer die Bühne betritt, kommen ein paar Musiker:innen mit Ideen, wie sie ihn modifizieren und sich aneignen können.”
Für Dryhurst liegt die Zukunft auch in Künstler:innen, die ihre eigenen Modelle bauen, so wie er und Herndon das für PROTO und andere Projekte getan haben."Ich glaube, dass viele Produzent:innen Modelle in Zukunft eher so nutzen wollen, dass sie sozusagen ihr eigenes 'Rig' bauen, das seine eigenen Ergebnisse hervorbringt. Ich denke, dass wir auch irgendwann anfangen, Modelle selbst als ein neues Ausdrucksmedium zu sehen, das geteilt und erlebt werden kann. Ich denke, hier wird es sehr aufregend und neuartig; es könnte sich zeigen, dass die Interaktion mit einem Künstler:innenmodell sich genauso etabliert wie die Interaktion mit einem Album oder einem anderen traditionellen Format. Wir haben bisher nur an der Oberfläche der Möglichkeiten gekratzt."
Text: Angus Finlayson
Bilder: Giacomo Moroso
Übersetzung: Julia Pustet