Dies ist Teil 2 unseres ausführlichen Einblicks in das Musikmachen mit künstlicher Intelligenz. Im ersten Teil haben wir gelernt, was KI eigentlich ist, und welche Herausforderungen beim Musikmachen damit verbunden sind. Außerdem erforschten wir KI-Einsatzmöglichkeiten wie die Erzeugung von MIDI-Daten, Klangübertragung und Analog-Modellierung.
Im zweiten Teil soll es vor allem um die Auswirkungen der KI auf das Musikmachen gehen. Wir befassen uns mit Vocal-Deepfakes, der Möglichkeit eines musikalischen ChatGPT und den grundlegenden Fragen, die von der KI aufgeworfen werden: Wie steht es mit der Kreativität und Originalität? Und was bedeutet es eigentlich, Musiker:in zu sein?
Der Beginn der Deepfake-Ära
Die menschliche Stimme spielt in unserer Kultur eine einzigartige Rolle: Kein Sound kommt dem Ausdruck des authentischen und einzigartigen Ichs näher. Selbst wenn eine Stimme mit Effekten wie Autotune verfremdet wird, bleibt sie eng mit einer Person verbunden – meist mit einer ganz bestimmten Person. Die Sing- oder Sprechstimme ist also so etwas wie ein Fingerabdruck der Persönlichkeit. Zumindest war sie das mal.
Denn was wäre, wenn wir eine Stimme ohne einen dazugehörigen Menschen haben könnten? Tools wie Vocaloid von Yamaha bieten schon seit langem die Möglichkeit, Stimmen von Grund auf zu synthetisieren. Allerdings funktionierten die roboterhaft klingenden Ergebnisse nur in Situationen, in denen es auf die Künstlichkeit ankam (z. B. bei virtuellen Popstars wie Hatsune Miku). KI-Tools sind für diese Aufgabe viel besser geeignet. Deep Learning ermöglicht Stimmen, die so lebendig klingen, dass sie den Hörer:innen eine Persönlichkeit vorgaukeln können.
Ein gutes Beispiel dafür ist Synthesizer V von Dreamtonics. Wir geben die MIDI-Noten und -Texte ein und wählen eine Voice-Bank mit den gewünschten Eigenschaften aus (etwa Natalie, „a feminine English database with a voice that presents a soft and clear upper range as well as rich and expressive vocals on lower notes.“) Und dann erklingt eine Stimme. Die Ergebnisse klingen unterschiedlich, aber im besten Fall täuschend echt. Tatsächlich ist dies regelmäßig der Fall. Letztes Jahr gab das chinesische Unternehmen Tencent Music Entertainment bekannt, dass es bereits mehr als 1.000 Songs mit KI-generierten Stimmen veröffentlicht hat.
Die Auswirkungen auf den kommerziellen Teil der Musikindustrie sind dementsprechend fundamental. (Majorlabels scheinen von der Idee einer Popmusik ohne temperamentvolle Popstars fasziniert zu sein.) Doch obwohl die Sprachsynthese mittels generischer Voice-Banks viele Verwendungsmöglichkeiten bietet, wird sie Popstars aus Fleisch und Blut in absehbarer Zeit nicht ersetzen können. Wenn wir unseren Lieblingssänger:innen oder -rapper:innen gerne zuhören, liegt das vor allem an der einzigartigen Stimme – an der Klangfarbe, der Textur und unserer emotionalen Verbindung zu einer Person, die etwas repräsentiert und uns am Herzen liegt. Kurzgesagt: Anonyme synthetische Stimmen können mit der Aura echter Künstler:innen einfach nicht mithalten.
Aber was wäre, wenn die KI diese Stimmen perfekt nachahmen könnte? Diesen April sorgte eine neue Kollaboration zwischen Drake und The Weekend – „Heart On My Sleeve“ – im Internet für Aufsehen. So weit, so normal, außer dass daran so gut wie alles fake war. Hinter dem Song stand KI-Klontechnologie, gelenkt von jemandem namens Ghostwriter. Ein paar Wochen zuvor hatte der KI-Unternehmer Roberto Nickson bereits für ähnliches Aufsehen gesorgt, als er mithilfe eines KI-Tools seine Stimme in die von Kanye West verwandelte.
Das KI-unterstützte Klonen von Stimmen ist verwandt mit der Klangfarben-Übertragungstechnologie, die wir bereits in Teil 1 dieses Artikels untersucht haben. Doch während Plug-ins wie Neutone nach einer Technologie in den Kinderschuhen klingen, verstehen die Tools zum Klonen von Stimmen ihr Handwerk inzwischen erschreckend gut. Dies gilt sowohl für das Sprechen als auch für das Singen. Das KI-Unternehmen ElevenLabs sorgte letztes Jahr für Bestürzung, als es die Stimme von Leonardo DiCaprio in die Stimmen von Bill Gates, Joe Rogan und anderen verwandelte. Es dauerte nicht lange, bis irgendwelche Spaßvögel das Tool dazu benutzten, um Promis beleidigende und hetzerische Dinge in den Mund zu legen.
Wir treten also in eine neue Ära der „Deepfakes“ ein. Wenn uns das Bilderzeugungstool Midjourney glauben machen kann, dass der Papst Balenciaga trägt, dann müssen wir auch jeder aufgenommenen Stimme mit Skepsis begegnen. Für Elektronikproduzent:innen könnte dies jedoch auch eine Chance darstellen. Sampling ist ein Grundstein der elektronischen Musik, und gesampelte Stimmen – egal ob Acapellas, zerschnittene Phrasen oder Spoken Word – sind in vielen Dance-Genres zu Hause. Diese Praxis entstand aus der freizügigen Sampling-Kultur der 1980er und frühen 1990er Jahre und kann heutzutage bei streitsüchtigen Rechteinhaber:innen für Konflikte sorgen. Was wäre, wenn KI das Sampeln von Stimmen ermöglichen würde, ohne damit das Urheberrecht zu verletzen?
Der französische Clubmusik-Produzent Jaymie Silk nutzt seit langem gesampelte Stimmen aus Filmen oder Reden in seiner Musik. Auf seinem 2021 erschienenen Track „A President Is Just A Gangster With A Nuclear Weapon“ ließ er den Refrain mit der roboterhaften Text-to-Speech-Funktion seines iPads aufsagen. Als er Ende 2022 die Idee weiter vorantreiben wollte, entdeckte er ein KI-Tool – möglicherweise FakeYou –, das Text-to-Speech mit Stimmen berühmter Rapper:innen und Sänger:innen kann. Er erkannte sofort das Potenzial und wollte der Erste sein, der das Tool im Club-Kontext einsetzt. (die Eile machte Sinn, denn nur wenige Monate später unternahm David Guetta das Gleiche mit der Stimme von Eminem.
Das Ergebnis war „Rub Music Vol. 1“, eine EP mit kraftvollen Club-Tracks und Vocal-„Samples“ von Künstlern wie The Weeknd, Kendrick Lamar und Tupac. Die Lyrics stammen natürlich von Silk und deuten auf seine Bedenken hin: In „Illusions“ lässt er Tupac sagen: „What is real is not real... Everything is an illusion.“ Hier schwingt eine gewisse Deepfake-Angst mit, doch es geht auch um den spielerischen Umgang mit einem spannenden neuen Werkzeug.
Seit Silks EP ist die Technologie zum Klonen von Stimmen noch besser geworden (auf seiner neuen Veröffentlichung „Let’s Be Lovers“ kommen ebenfalls KI-Stimmen zum Einsatz). „Es war damals noch sehr einfach gestrickt“, erinnert er sich. „Man konnte die Einstellungen noch nicht verändern, sondern nur etwas eintippen – und vielleicht Glück haben.“ Auch die Tonqualität war nicht besonders gut. In manchen Fällen – wie bei der Stimme von The Weeknd in „Artificial Realness“ – konnte selbst eine umfangreiche Nachbearbeitung die verzerrten Zischlaute nicht entfernen.
Im Vergleich dazu klingen neuere Klon-Technologien besser. Es fällt nicht schwer, sich ein Tool vorzustellen, das die prominente Besetzung von FakeYou mit den Funktionen eines Sprachsynthesizers wie Synthesizer V kombiniert. Das Ergebnis wäre eine mächtige „Sampling“-Toolbox, mit der man jeden nur erdenklichen Popstar zum Singen oder Rappen bringen könnte.
Wem gehört deine Stimme?
Aber ist das tatsächlich legal – oder sogar moralisch vertretbar? Wie gesagt: Die Stimme ist der Fingerabdruck der Persönlichkeit und das wichtigste Werkzeug des individuellen Ausdrucks. Die unbegrenzte Reproduzierbarkeit könnte für viele Künstler:innen den finanziellen und kreativen Ruin bedeuten. Sollten Sänger:innen nicht selbst bestimmen können, wer ihre klanglichen Abbilder verwendet?
Der soziale Kontext macht diese Frage noch dringlicher. Bei der Erörterung der potenziellen Nachteile von KI-Tools bringt Silk den Begriff „digital Blackface“ ins Spiel, der Roberto Nickson für sein Kanye-Video verpasst wurde. Dessen Kritiker wiesen darauf hin, dass solche Tools weißen Menschen eine neue Möglichkeit böten, von Schwarzen Künstlern zu profitieren: Eine toxische Dynamik, die mindestens so alt ist wie die Popmusik.
Wenn wir das Klonen von Stimmen als eine neue Form des Samplings betrachten, dann erinnert die entstehende Dynamik an ein der Sampling-Kultur zugrundeliegendes Unrecht. Weltberühmte Samples, die die Tanzmusik seit Jahrzehnten prägen – zum Beispiel der Amen- bzw. Think-Break – stammen von Musikern, die für die Wirkung ihrer Arbeit nie angemessen entlohnt worden sind. Man kann sich leicht vorstellen, dass die KI-Sprachtechnologie eine ähnlich ausbeuterische Dimension hat.
Diese Entwicklung wird schon seit einiger Zeit vorhergesagt. Nach ihren Experimenten mit dem Klangfarben-Transfer auf der 2019 erschienenen LP „PROTO “ (besprochen in Teil 1 dieses Artikels) brachte die Musikerin Holly Herndon 2021 Holly+ an den Start. Das Herzstück des Projekts ist ein hochwertiges KI-Sprachmodell von Herndons eigener Stimme: ihr „digitaler Zwilling“. Die Benutzer:innen können mit diesem Modell über eine Website interagieren, indem sie eigenes Audiomaterial hochladen, das dann von Herndons’ „unverwechselbarer und mit Effekten bearbeiteter Stimme“ interpretiert wird. Das Ergebnis klingt dann wie ein Mix aus Jlins Beats und „PROTO“ – für alle zugänglich und in hoher Qualität.
Laut ihrem Statement zu Holly+ hat Herndon das Projekt ins Leben gerufen, um sich mit Fragen rund um den „Besitz der Stimme“ auseinanderzusetzen und zu antizipieren, was ihrer Meinung nach ein Trend der Zukunft ist: Künstler:innen übernehmen die Kontrolle über ihr eigenes „digitales Abbild“, indem sie qualitativ hochwertige Modelle ihrer Stimme zur öffentlichen Nutzung anbieten. Auf diese Weise behält der:die Künstler:in die Kontrolle über seine:ihre Stimme und kann möglicherweise sogar davon profitieren. (Die Nutzung von Holly+ ist zwar kostenlos, aber die Gewinne aus jeder kommerziellen Nutzung gehen an eine DAO, die demokratisch entscheidet, was mit dem Geld geschehen soll.)
Laut Herndon könnte das von Tools wie FakeYou angebotene Stimmenklonen tatsächlich gegen das Urheber:innenrecht verstoßen – zumindest in den USA. Herndon liefert einen Kontext rund um „Stimmmodell-Rechte“ und beruft sich auf Rechtsfälle aus den 1980er Jahren, in denen Persönlichkeiten des öffentlichen Lebens davor geschützt wurden, dass andere Künstler:innen oder Marken sich ihr Stimmbild kommerziell aneigneten. Diese Präzedenzfälle „deuten darauf hin, dass Persönlichkeiten des öffentlichen Lebens das ausschließliche Recht behalten, ihr stimmliches Abbild für kommerzielle Zwecke zu nutzen“. Und tatsächlich ließ UMG den Drake x The Weeknd-Song innerhalb weniger Tage entfernen – mit dem Argument, dass Musik mit auf Künstler:innen trainierten KI-Tools gegen das Urheber:innenrecht verstoße.
Es muss also eine rechtliche und ethische Infrastruktur aufgebaut werden, um diese sich rasant entwickelnden Tools in den Griff zu bekommen. Aber wie beim Filesharing in den 2000er Jahren wird die Gesetzgebung den Geist möglicherweise nicht in die Flasche zurückbringen. Es konnte sogar darauf hinauslaufen, dass Sänger:innen mit ihrem eigenen digitalen Abbild konkurrieren – um Aufmerksamkeit und vielleicht sogar um Arbeit. Tatsächlich sind es nicht nur Sänger:innen, die Angst vor dieser Art von Rationalisierung haben. Für Unternehmen, die keine:n menschliche:n Illustrator:in bezahlen wollen, sind kostengünstige oder kostenlose Bilderzeugungs-Tools zu einer verlockenden Option geworden. ChatGPT hingegen erfüllt professionelle Texter:innen mit Angst. Diese Frage wird in der Kreativbranche und in anderen Angestelltenberufen immer häufiger gestellt: Wird die KI meinen Job übernehmen?
Automatische Komponist:innen
Dies führt zu einer Frage zurück, die bereits in Teil 1 angesprochen wurde. Tools wie ChatGPT und Stable Diffusion können dank ihrer Ausgereiftheit und breiten Verfügbarkeit mit Menschen konkurrieren. Ein gleichwertiges Tool – leistungsstark, von guter Qualität und allgemein zugänglich – gibt es für Musik noch nicht. (Die Gründe dafür haben wir in Teil 1 dieses Artikels untersucht). Doch wird sich das bald ändern?
Die Antwort der Fachleute ist ein klares Ja. Mat Dryhurst von Spawning nennt mehrere Organisationen, die momentan an einem solchen Modell arbeiten. Eine davon ist Google, deren MusicLM Anfang des Jahres vorgestellt wurde. Allerdings ist das Tool noch nicht allgemein verfügbar. (Seit Mai können kleine Tester:innen-Gruppen darauf zugreifen.) Eine weitere Organisation ist HarmonAI, die mit Stability AI verbunden ist – den Erfinder:innen des Text-zu-Bild-Modells Stable Diffusion. An HarmonAI sind die Dadabots beteiligt, die bereits angekündigt haben, dass noch in diesem Jahr ein neues Tool erscheinen wird.
Um zu verstehen, wie ein solches Tool die Musiklandschaft verändern könnte, schauen wir uns am besten die bereits existierenden und weniger ausgereiften KI-Musik-Generatoren an. Während ein „allgemeines“ Musik-Modell vorerst noch in den Sternen steht, komponiert die KI bereits in begrenzten Kontexten. Im Gegensatz zu den in Teil 1 untersuchten Tools sind diese KI-Technologien weniger darauf ausgelegt, bestehende Vorgänge der Musikproduktion zu unterstützen. Stattdessen bieten sie die Möglichkeit, die musikalischen Skills – zumindest in bestimmten Situationen – vollständig zu ersetzen.
Zum Beispiel bei kommerziellen Kompositionen. Unsere Welt ist von Multimedia-Inhalten geprägt, und es gibt einen unerschöpflichen Bedarf nach Musik für Werbung, Podcasts und Social-Media-Beiträge. Die Schöpfer:innen solcher Inhalte haben momentan mehrere Möglichkeiten. Sie können eine neue Komposition in Auftrag geben oder Tracks von Lieblingskünstler:innen lizenzieren – beides ist normalerweise mit hohen Kosten verbunden. Oder sie holen sich einen günstigeren Soundtrack aus einer Musik-Library – dem musikalischen Äquivalent von Shutterstock. Was aber, wenn die Musik für die Suchenden zwar erschwinglich ist, aber nicht so richtig passt? Oder wenn das Budget sehr klein ist?
Hier kommen KI-Produkte wie AIVA ins Spiel. AIVA wurde 2016 als KI-Modell ins Leben gerufen und für klassische und sinfonische Kompositionen trainiert. (AIVA war die erste virtuelle Instanz, die von einer Verwertungsgesellschaft als Komponist:in anerkannt wurde). Die Technologie wurde 2019 kommerziell verfügbar gemacht und präsentiert sich heute als „kreative:r Assistent:in“ – immer bestrebt, so schnell wie nie zuvor „überzeugende Soundtracks für die unterschiedlichsten Projekte zu entwickeln.”
Die Bedienung des Tools ist ein Kinderspiel und die Nutzung der Basisversion kostenlos. Man klickt auf „Create a Track“ und wählt dann zwischen verschiedenen Einstellungen. 12 vorgegebene Stilrichtungen – von „20th Century Cinematic“ bis zu „Hip Hop“ legen den Rahmen fest, in dem die KI arbeiten soll. Anschließend wählt man in einem Menü verschiedene Parameter aus: Tonart, Tempo, Instrumentierung und Dauer.
Ich entschied mich für einen schnellen „Fantasy“-Track, der von Solo-Streichern gespielt wird, und bekam drei Minuten mit Arpeggien und zusammenhanglosen melodischen Wendungen geliefert. Genauem Zuhören würde so etwas kaum standhalten, aber als Hintergrundmusik in einem Low-Budget-Projekt durchaus seinen Zweck erfüllen. Und es wäre sogar möglich gewesen, die Musik-Generierung im MIDI-basierten Editor-Modus zu verfeinern. (Die MIDI-Datei kann zur weiteren Verwendung heruntergeladen werden).
AIVA kann mit relativ einfacher KI-Technologie wirkungsvoll sein, da es in einem eng definierten Rahmen arbeitet. Die voreingestellten Stilrichtungen und Wahlmenüs sind weit entfernt von den Texteingabe-Feldern anderer KIs, bei denen alles möglich ist. Aber im Rahmen von formelhafter und funktionaler Musik kann die Methode funktionieren.
Sollten sich professionelle Komponist:innen also Sorgen machen? Die Antwort spiegelt wahrscheinlich unsere Diskussion über die Mix-Automatisierung in Teil 1 wider. Die KI könnte bald in der Lage sein, formelhafte Aufgabenstellungen zu bearbeiten, bei denen Inspiration weniger erforderlich (oder erwünscht) ist. Bei höheren Zielen wird die kreative Vision eines Menschen nach wie vor nützlich sein. Möglicherweise wird ein zweistufiges System entstehen, bei dem die menschliche Komposition ein Qualitätsmerkmal ist. Mit anderen Worten: Der Mensch könnte zur Premium-Wahl werden.
Dies ist zumindest eine Möglichkeit, die von KI-nutzenden Komponist:innen ins Spiel gebracht wird. Andere Tools führen zu einem anderen Ergebnis. Aber was wäre, wenn die KI uns alle zu Musiker:innen macht?
Jede:r ist ein:e Musiker:in
Boomy ist eine KI-basierte Plattform, die dazu einlädt, „in Sekundenschnelle Songs zu komponieren, selbst wenn man noch nie zuvor Musik gemacht hat.“ Das Ganze funktioniert ähnlich wie AIVA. Man navigiert durch mehrere Menüs mit Stilrichtungen und Subgenres, und die KI generiert nach diesen Vorgaben eine Komposition. Anschließend lassen sich die Ergebnisse mit einem einfachen Bearbeitungs-Tool optimieren.
Genau wie AIVA bietet das Tool kreative Kontrolle in einem äußerst begrenzten Rahmen – und es wird nicht garantiert, dass die Ergebnisse großartig klingen. Dies hat aber kaum Einfluss auf die Beliebtheit. Laut Boomy wurden mit dem Tool inzwischen rund 13 Millionen Songs generiert, die zu einem großen Teil über die Website auf Spotify hochgeladen wurden, um dort Geld einzuspielen.
Tools wie AIVA und Boomy sind nur ein Vorgeschmack auf das, was noch kommen könnte. Die beiden Tools werden ihrem Anspruch, qualifizierte Musikschaffende zu ersetzen, selbst im begrenzten Kontext nicht gerecht. Doch angesichts der rasanten Fortschritte in den letzten Jahren sollten wir diese Technologie nicht unterschätzen.
Google hat bei der Einführung von MusicLM – dem bislang wohl komplexesten Text-zu-Musik-Modell – Soundbeispiele geteilt. Manche sind vor allem wegen ihrer Fremdartigkeit interessant (zum Beispiel der Alien-Sound, der durch das Wort „Swing“ ausgelöst wird), andere jedoch musikalisch. Aus dem 30-sekündigen Clip mit dem Attribut „Fusion aus Reggaeton und Dance“ könnte durchaus ein mitreißender Club-Track werden.
Die zentrale Herausforderung für Musikschaffende bleibt gleich: Wie man aus der Masse herausragt und ein interessiertes Publikum erreicht.
Neuere Beispiele, die von den GoogleLM-Tester:innen geteilt wurden, zeigen den gleichen Mix aus vielversprechenden und geradezu bizarren musikalischen Ansätzen. Wir sollten jedoch im Auge behalten, wie rasant sich die Text-zu-Bild-Tools im letzten Jahr entwickelt haben – von verschwommenen Skizzen bis zu hochauflösenden Deepfakes. Warum sollte es bei der Musik nicht genauso sein? Wenn die Technologie jetzt so weit ist, wo könnte sie dann in ein paar Jahren stehen? Wird es für alle möglich sein, in wenigen Sekunden einen amtlichen Techno-Track entstehen zu lassen?
„Wir leben im Zeitalter der Technologie-Demokratisierung“, sagt Jaymie Silk. Aber diese Ära hatte schon vor dem Erscheinen der KI begonnen. Seit Jahrzehnten sorgen technologische Fortschritte dafür, dass immer mehr Menschen Musik machen und sie mit der Welt teilen können. Gleichzeitig wird immer wieder beklagt, dass viel zu viel Musik veröffentlicht wird. Das hindert uns jedoch nicht daran, Künstler:innen zu feiern, die Schönheit und Sinn in unser Leben bringen.
Ob diese Künstler von dieser Tätigkeit leben können, ist eine andere Frage. Die wirtschaftlichen Aspekte des Musikmachens waren schon lange vor dem Aufkommen der KI problematisch, und die KI könnte die Situation noch verschlimmern. Jedenfalls erfordert die Frage, wie Musiker:innen im Zeitalter der KI ihren Lebensunterhalt verdienen könnten, ernsthafte Überlegungen. Aber selbst wenn sich noch mehr Menschen mit der Musikproduktion beschäftigen, heißt das noch lange nicht, dass es keine Musik mit Tiefgang mehr geben wird.
„Bald wird die Produktion von Medien mit einem bestimmten Niveau an Raffinesse ein Kinderspiel sein. Aber das verschiebt dann eben unsere Wahrnehmung dessen, was banal und was hintergründig ist“, sagt Dryhurst. „Früher war die Produktion von elektronischer Musik sehr aufwendig und technisch. Heute kann sich jede:r ein Sample-Pack und Software kaufen, ein Tutorial auf YouTube anschauen und einen okayen Track produzieren. Das ist keine schlechte Sache, und oft auch der Weg, auf dem die Leute zu einem künstlerischen Ausdruck finden. Wenn dieser Vorgang noch mehr automatisiert wird, verändern sich dadurch unsere Grunderwartungen. Und die Künstler:innen werden sich schon etwas einfallen lassen, um sich von dem abzuheben, was sich inzwischen per Knopfdruck erstellen lässt. Es bedarf immer noch technischer Fähigkeiten, Inspiration oder auch Glück, um etwas Überragendes auf die Beine zu stellen. Das war schon immer schwierig und wird es auch bleiben.“
Jaymie Silk stimmt diesen Aussagen zu. „Es wird mehr miese Musik geben – und mehr Leute, die nur zum Spaß Musik machen.“ Doch die zentrale Herausforderung für Musikschaffende bleibt gleich: Wie man aus der Masse herausragt und ein interessiertes Publikum erreicht. „Daran wird sich nichts ändern. Man muss immer noch gute Musik machen und sich ein Publikum aufbauen.“
Wir spawnen die Zukunft
Musikschaffende werden diese neuen Tools auf ausdrucksstarke und fantasievolle Weise nutzen, genau wie sie es in der Vergangenheit mit neuen Technologien getan haben. Tatsächlich machen sie das bereits.
Der in London lebende Künstler patten entdeckte Ende letzten Jahres das Tool Riffusion. Eine generative KI war ihm bereits aus seiner Tätigkeit als Grafikdesigner bekannt. Und Riffusion sprach seine musikalische Ader an.
Riffusion wurde Ende 2022 ins Leben gerufen – ein Hobbyprojekt mit übergroßer Wirkung. Anstatt die Text-zu-Musik-Genese direkt in Angriff zu nehmen, greift Riffusion auf die bereits existierende und erfolgreichere Text-zu-Bild-Technologie zurück.
Diese funktioniert durch „Feinabstimmung“ – ein Vorgang, bei dem ein KI-Modell auf eine bestimmte Art von Inhalten trainiert wird, um deren Produktion zu verbessern. Die Musiker Seth Forsgren und Hayk Martiros haben das Text-zu-Bild-Modell Stable Diffusion anhand von Spektrogrammen (visuellen Darstellungen der Frequenzen eines Klangs im Zeitverlauf) verfeinert. Diese Spektrogramme können dann „gelesen“ und in Audio umgewandelt werden. Und schon haben wir ein Text-zu-Bild-Modell, das wir hören können.
Es macht viel Spaß, mit Riffusion zu spielen. Man kann einfache Textaufforderungen eingeben – zum Beispiel „Emotional Disco“ oder „Latent Space Vaporwave“ – und bekommt einen endlosen Strom sich wiederholender Loops. Man kann sich die besten Kreationen aussuchen und herunterladen. Für patten stand schnell fest, dass Riffusion weit mehr als nur ein Spielzeug ist. „Nach einer kurzen Testphase war mir klar, dass damit einiges möglich ist. Also versuchte ich, das Beste aus Riffusion herauszuholen.“
patten sammelte anderthalb Tage lang unablässig Material durch Texteingaben und Downloads. Später ging er alles durch und fügte die spannenden Abschnitte „zu fragmentarischen und wolkenartigen Musikstücken zusammen“. Daraus wurde schließlich „Mirage FM“ – laut Patten „das erste Album, das komplett aus Samples von einer Text-zu-Audio-KI besteht.“
„Mirage FM“ ist ein wunderschönes und verträumtes Album, das absolut einzigartig klingt, obwohl es an vertraute Stilrichtungen erinnert. Die Sounds wurden komplett mit Riffusion erzeugt, aber patten-Fans werden seine charakteristische Handschrift erkennen. Laut patten lag ein Großteil der kreativen Arbeit im Zusammenfügen der Klänge: „Oft habe ich winzige Fragmente zu musikalischen Phrasen und Loops zusammengefügt. Bei diesem Album ging es wirklich um das Editieren als kompositorische Ausdrucksweise.“
Für Dryhurst wird diese Herangehensweise bald eine gängige Praxis sein. „Die Leute werden kein Problem damit haben, musikalische Versatzstücke für ihre Produktionen zu generieren.“
Eine Besonderheit von „Mirage FM“ besteht darin, dass die Musik trotz ihres innovativen Charakters eine nostalgische Qualität besitzt. Dies wird durch die leicht blecherne, von Artefakten durchsetzte Klangästhetik unterstützt. (Laut Dadabots ist dies möglicherweise auf Probleme mit dem Phasenabgleich zurückzuführen, die durch Riffusions spektrographische Methode verursacht wurden.) patten vergleicht die Klangästhetik mit Bandverzerrung oder Vinylknistern. Ein interessanter Vergleich, insbesondere im Zusammenhang mit dem Slogan des Albums: „Crate-Digging in Latent Space“. Da liegt es nahe, sich die KI-Tools als Portale in die Zukunft vorzustellen. Doch weil sie mit einem riesigen Fundus an existierender Musik trainiert werden, sind sie bestimmt auch so etwas wie Fenster zu unserer kulturellen Vergangenheit.
Genau wie bei Sprachmodellen gibt es eine Verbindung zwischen generativer KI und dem Sampling. Frühere Generationen von Musiker:innen wühlten sich durch alte Musik, um das perfekte Sample zu finden. Und die Musiker:innen der Zukunft werden vielleicht den „latenten Raum“ eines KI-Modells nach den besten Sounds durchleuchten. Nur dann kommen uns die Sounds vielleicht bekannt vor, aber sie sind bei jeder Generierung einzigartig und frei von Copyrights.
Der Vergleich der KI mit dem Sampling ist jedenfalls nicht neu. Schließlich wurden die Dadabots damit bekannt, dass sie die KI-Modelle mit der Musik ihrer Lieblingskünstler:innen trainierten – zum Beispiel Bands wie Battles und Meshuggah – und die Ergebnisse kostenlos auf Bandcamp veröffentlichten. Oder in Form von YouTube-Livestreams – „RELENTLESS DOPPELGANGER“ ist ein „Neuronales Netzwerk, das rund um die Uhr und bis in alle Ewigkeit technischen Death Metal erzeugt.“
Die Dadabots berichten über die Reaktionen der modellierten Künstler:innen: Manche waren „fasziniert“, während andere Projekte – etwa die Fusion von Britney Spears und Frank Sinatra – wegen Urheberrechtsverletzung gemeldet wurden.
Einer dieser Livestreams aus dem Jahr 2021 wurde von einer Abhandlung über das Sampling begleitet. „Das Sampling dient in der Musik einem wichtigen Zweck: Es gibt Sounds, Gefühle, Botschaften und historische Erinnerungen, die sich nur durch Zitate ausgedrücken lassen.“ Doch Urheberrechtsbeschränkungen engen die Freiheit beim Sampling ein. „Die neuronale Synthese gibt Musiker:innen einen Teil davon zurück. Wir können jetzt Musik synthetisieren, die eine bestimmte Ära zitiert, ohne eine zuvor veröffentlichte Aufnahme zu sampeln.“
Der Vergleich mit dem Sampling hinkt allerdings, und wird auch als wenig hilfreich angesehen. „Natürlich gibt es diese technische Möglichkeit, die wirtschaftlichen Auswirkungen des Samplings zu umgehen“, sagt patten. „Aber aus meiner Sicht gibt es da ein riesiges Potenzial für etwas, das weniger an die Welt des Austauschs und der Werte gebunden ist und sich mehr mit der Suche nach völlig neuen Formen der Klangerfahrung beschäftigt.“ Für Dryhurst steht fest, „dass wir die KI als neues Paradigma behandeln müssen, anstatt auf alte Sprache und Konzepte zurückzugreifen.“ Er und Herndon haben einen neuen Begriff für die Praxis der Erzeugung von KI-Audio zur musikalischen Nutzung geprägt: „spawning “.
Wenn wir die generative KI als Sampling ohne Konsequenzen betrachten, können wir die damit verbundenen ethischen Probleme einfacher angehen. Genau wie bei Sprachmodellen will das Attribut „Copyright-frei“ nicht so richtig passen. Generative Deep-Learning-Modelle werden auf Daten trainiert. Ihre Antworten basieren auf Pattern, die sie aus diesen Daten gelernt haben. Ein Text-zu-Bild-Modell wie Stable Diffusion wird anhand einer großen Anzahl von Bildern trainiert. So kann es lernen, was ein ansprechendes oder genaues Bild ausmacht, und es bei Bedarf auch für uns produzieren. Doch woher kommen diese Bilder?
Urheberrecht, Ethik und Originalität
Stable Diffusion wird mit dem LAION-5B-Bildsatz trainiert – einer riesigen Sammlung von Bildern aus dem Internet. Die Bilder in LAION-5B sind öffentlich verfügbar. Das bedeutet jedoch nicht, dass die Urheber:innen dieser Bilder ihrer Verwendung zum Training von KI-Modellen zugestimmt haben. Unzählige Bilder von Kunstseiten wie Deviant Art wurden zum Training von Text-zu-Bild-Modellen verwendet. Deswegen sind die Modelle auch so gut darin, illustrative Bilder in einem Stil zu erzeugen, den wir wiedererkennen.
Viele dieser Kunstwerke – und andere Bilder in Datensätzen wie LAION-5B – sind urheberrechtlich geschützt. Nach geltendem Urheberrecht in den USA und der EU ist die Aufnahme dieser Kunstwerke in einen Datensatz zulässig, solange sie nicht für kommerzielle Zwecke genutzt werden. Doch generative KI ist ein äußerst profitables kommerzielles Unternehmen, und die Präsenz dieser Kunstwerke in Datensätzen der Schlüssel zur Attraktivität der Technologie.
Die ethischen Anforderungen sind ganz ähnlich wie beim Sampling. Das Generieren von Medien aus einem Deep-Learning-Modell, das ohne Einwilligung auf künstlerische Werke trainiert wurde, unterscheidet sich im Grunde kaum vom unerlaubten Sampling. In beiden Fällen können die ursprünglichen Urheber:innen keine Einwilligung erteilen und erhalten auch keine Bezahlung.
Dies bringt manche Künstler:innen und Rechteinhaber:innen auf die Barrikaden. Gegen KI-Modelle wie Stable Diffusion sind eine Reihe von Klagen im Gange, die unter anderem von dem Stockfoto-Unternehmen Getty Images gestartet wurden. Und es gibt eine hitzige Debatte darüber, wie Datensätze zustimmungsfähiger gemacht werden können.
Als Reaktion darauf haben Dryhurst und Herndon das Tool Have I Been Trained? veröffentlicht. Mit seiner Hilfe können Künstler:innen herausfinden, ob ihre Werke in großen Datensätzen verwendet werden, und einer zukünftigen Nutzung widersprechen. Für diesen Widerspruch gibt es zwar keinen rechtlichen Mechanismus, aber die Idee konnte bereits einige Erfolge erzielen. Stability AI – das Unternehmen hinter Stable Diffusion – hat erklärt, dass es Widersprüche (die inzwischen 80 Millionen Bilder umfassen) in der nächsten Version seines Modells berücksichtigen wird.
Dieser Krieg um geistiges Eigentum wird über Bilder geführt. Aber was ist mit Audio? Die komplizierten Eigentumsstrukturen der Musikindustrie führen zu einer größeren Resistenz gegenüber der Erzeugung einwilligungsfreier Datensätze. Möglicherweise ist dies zum Teil dafür verantwortlich, dass generative KI-Musikmodelle hinter Bild und Text zurückbleiben: Es ist schwieriger an die Daten zu kommen, mit denen die Modelle trainiert werden.
„Die Musikindustrie hat eine unglaublich komplexe Struktur, und die verschiedenen Organisationsschichten, die für die Durchsetzung von Urheber:innenrechten zuständig sind, können zur Vorsicht gegenüber neuen Vertriebswegen führen“, erklären die Dadabots. „Selbst wenn ein:e Künstler:in von KI begeistert ist, kann sie möglicherweise nicht allein entscheiden, ob die neu erzeugte Musik verkauft werden darf. Bekannte Künstler besitzen ihre eigene Musik oft nicht vollständig und sind deswegen manchmal nicht in der Lage, ohne Rücksprache mit Labels oder Verlagen eine Genehmigung für die Nutzung zu erteilen.“
Es ist sicherlich kein Problem, wenn die Technologie ein wenig warten muss, bis die rechtlichen und ethischen Rahmenbedingungen aufgeholt haben. Denn es besteht die Hoffnung, dass sich dies in künftigen generativen Modellen widerspiegeln wird. HarmonAI zum Beispiel ergreift bereits Maßnahmen, um Einwilligungsdaten für ihr nächstes Dance Diffusion-Modell einzuholen. Gleichzeitig ist für „Have I Been Trained?“ geplant, die Funktionalität auf Audio auszuweiten. „Die geschaffenen Grundlagen werden für alle Medien funktionieren“, so Dryhurst.
Zusätzlich zur Einwilligung ist es auch die Abhängigkeit der KI von Daten, die Fragen aufwirft. Kritiker:innen der KI werden sagen, dass dies eine grundlegende Limitierung darstellt. Ein KI-Modell, das mit existierenden menschlichen Schöpfungen trainiert wird, kann nichts Neues erschaffen, sondern lediglich alte Ideen wieder aufleben lassen – wenn auch in neuen Kombinationen. Nach dieser Sichtweise könnten KI nutzende Musiker:innen zu Kurator:innen werden, die vertrauten Zutaten zu einer mehr und mehr derivativen Suppe verarbeiten.
Bei näherer Betrachtung ist die Grenze zwischen „Kuratieren“ und „Erschaffen“ allerdings weniger eindeutig. „In der Musik gibt es nicht unbegrenzt viele Instrumente, Akkordfolgen und Möglichkeiten, sie zusammenzusetzen“, sagt Christain Steinmetz. „Deswegen kuratieren Bands im Grunde die Musiktheorie. Sie suchen sich die Elemente aus, die ihnen gefallen, und verpacken sie in kreatives Material.“
patten führt die Idee weiter. „Wenn wir sagen, dass die KI eigentlich nichts Neues macht, weil sie auf vorhandenem Material aufbaut, müssen wir weiterdenken: Was machen wir eigentlich in diesem Gespräch? Wir erfinden kein ganzes System sprachlicher Mittel, um uns auszudrücken. Wir nutzen eine Sprache, die wir sowohl teilen als auch verstehen, mit ihren unterschiedlichen Geschichten.“ Auf diese Weise werfen KI-Tools für Patten tiefgreifende Fragen darüber auf, was Kreativität und Originalität eigentlich bedeuten. „Es gibt diese unglaubliche Chance, uralte Fragen über die Natur des Bewusstseins, der Menschheit und der Kreativität neu zu untersuchen. Und darüber nachzudenken, was wir machen, wenn wir diese Dinge tun – und was uns zu Menschen macht.“
Fazit: Geld, Automatisierung und der Übergang in die Zukunft
In diesem zweiteiligen Artikel haben wir uns damit beschäftigt, wie die KI-Technologie das Musikmachen verändern könnte, und dabei ein breites Spektrum abgedeckt – von technischen Mixing-Aufgaben über die Erzeugung von MIDI-Daten bis zur Nachahmung berühmter Stimmen und dem „Spawnen“ musikalischer Passagen und Kompositionen. Was vereint diese unterschiedlichen Einsatzmöglichkeiten der KI? In jedem Fall macht die KI etwas, das zuvor menschliche Anstrengungen erfordert hätte. Mit anderen Worten: Bei allen KI-Tätigkeiten handelt es sich um Formen der Automatisierung.
Der Drang zur Automatisierung war für die letzten Jahrhunderte der Menschheitsgeschichte von grundlegender Bedeutung. Automatisierung bedeutet, dass Maschinen Produkte schneller herstellen, als Menschen es könnten, oder dass Computer komplizierte Aufgaben für uns erledigen. Durch die Reduzierung des menschlichen Aufwands in einem Produktionsvorgang werden die Kosten gesenkt und die Stückzahlen gesteigert. Unterm Strich bedeutet das mehr Geld für die Besitzer:innen des Automaten.
Dies gibt uns einen Hinweis auf die treibende Kraft hinter neuen KI-Technologien. Es erfordert enorme Ressourcen (ganz zu schweigen von den schwer kalkulierbaren Umweltkosten), um umfangreiche Deep-Learning-Modelle wie ChatGPT und Midjourney zu trainieren. Meist sind es große Technologieunternehmen, die sich die Finanzierung dieser Modelle leisten können, und dann auch die Früchte ernten werden (zumindest erhoffen sie sich das).
Die KI ist nicht nur eine Geschichte über monopolistische Technologiegiganten. Es gibt viele kreative Menschen, die an KI-Musiktools arbeiten – angetrieben von Forscher:innengeist und dem Wunsch nach neuen Klängen. Im Großen und Ganzen ist die KI-Musik ein Nebenschauplatz. Das Hauptereignis ist die Automatisierung großer Teile unserer Wirtschaft.
Die Geschichte lehrt uns, dass Automatisierung ein schmerzhafter Prozess ist. Mühevoll erlernte Fähigkeiten werden überflüssig oder entwertet; Lebensgrundlagen gehen verloren; Kulturen und Gemeinschaften werden auf den Kopf gestellt. Die Abfederung der Auswirkungen ist eine politische Herausforderung und wirft mehrere Fragen auf: Wie organisieren wir unsere Gesellschaft? Wen und was wollen wir wertschätzen? Die Debatte über die Bedeutung und Auswirkungen der KI-Technologie hat bereits begonnen und wird in den kommenden Jahren noch intensiver werden.
Bei genauerer Betrachtung der Geschichte wird allerdings deutlich, dass diese Umbrüche nie den Untergang des musikalischen Schaffens an sich bedeutet haben. Eher verändern solche Momente den Rahmen dessen, was wir als Musik und als Musiker:in betrachten. Manche Musiktraditionen verlieren ihre Relevanz, doch dafür entstehen neue Traditionen, die bis dahin unvorstellbar waren. Als der Mikroprozessor erfunden wurde, hatte das Silicon Valley wohl kaum an Technomusik gedacht. Aber es wurde eine Kette von Ereignissen in Gang gesetzt, die zur Massenmarkt-Audiosynthese, zu Heimcomputern und zu einer völlig neuen Art des Musikmachens führte.
Was dabei nicht vergessen werden darf: Nicht die Technologie hat die Musik hervorgebracht, sondern die Menschen, indem sie sich auf ihre unmittelbare Gegenwart einließen und auf sie reagierten.
„Eine der Herausforderungen, vor denen wir in der Gegenwart stehen, ist die Unfähigkeit, sie als Übergang zu betrachten“, sagt Patten. „Wenn wir beschreiben, was es heißt, Musiker:in zu sein, bewegt sich das in einem spezifischen Zeitfeld, in dem die Dinge auf eine bestimmte Art und Weise laufen. Musiktechnologien kommen und gehen: zum Beispiel die E-Gitarre, die CD oder der Plattenspieler. All diese Dinge schaffen und formen Umstände und Verhaltensweisen, die zwar sehr real, aber nie statisch sind. Wir sollten bedenken, dass der aktuelle Status quo nicht unbedingt so bleiben wird – und auch nicht zwingend den besten Weg darstellt. Es muss nicht unbedingt etwas Negatives sein, wenn das jetzige Bild des Musiker:in-Seins verschwindet.
Zu Teil 1 dieses Artikels
Text: Angus Finlayson
Fotos: Veronika Marxer
Übersetzung: Hendrik Kröz