今回は、AIによる音楽制作を深く掘り下げるパート2です。 パート1では、AIとは何かをはじめ、AI技術を音楽制作に応用する際の課題、MIDI生成/音色変換/アナログモデリングなどのAIの活用について解説しました。
パート2では、AIが音楽制作に与える影響について、より広い視野で見ていきます。 また、ボーカルのディープフェイクについて考え、音楽用ChatGPTの可能性についても予想します。 さらに、創造性やオリジナリティ、音楽家とは何であるかなど、AIによって提起された深い問いを検証します。
ディープフェイク時代の到来
人間の声は、文化の中で独自の位置にあります。 どんな音も声のように、唯一無二の自己を表現できません。 オートチューンのようなエフェクトで加工された場合でさえ、声は個人(通常は特定の個人)と密接に結びついています。 歌声や話し声は、その人らしさを表す究極的な音による刻印なのです。 少なくとも、かつてはそうでした。
もし、人間がいなくても声を作れるとしたらどうでしょう? ヤマハのVOCALOIDのように、ゼロから声を合成するツールは昔からありました。 ですが、そのロボットっぽさは、あくまで人工的であることが重要な要素(初音ミクのようなバーチャルなポップスターなど)である場合のみ機能していました。 その点、AIツールはもっと優れています。 ディープラーニングを使えば、聞く人を騙して「人の声だ」と思わせるほどリアルな声を生成することができます。
DreamtonicsのSynthesizer Vを例にとってみましょう。 まず、MIDIノートと歌詞を入力し、自分が求める特定の特徴をボイスバンクを持つボイスバンクを選択します。たとえば、Natalieは“高音域はやわらかく透明感のある声質でありながら、芯のある豊かな低音域を持つ女性の歌声データベース(収録言語;英語)”です。そうするとすぐに声ができあがります。 結果はさまざまですが、最も上手く行った場合は、一般的なリスナーを騙すことは簡単です。 実際、すでにその状況になっています。 昨年、中国のテンセント・ミュージックは、AIが生成した音声を使った1000曲以上の楽曲をリリース(英語)したことを明らかにしました。
その影響をより大きく受けているのが音楽業界における商業的な分野です (メジャーレーベルは、気むずかしいポップスター不要のポップミュージックというアイデアに興味をそそられるはず)。 一方で一般的なボイスバンクを使った音声合成には、多くの機能的な用途があるとはいえ、人間のポップスターに取って代わることは、すぐにはできないでしょう。 多くの人は、好きな歌手やラッパーの曲を聞いているとき、その声の音色や音質、そして自分の大切なものを表現してくれる人物とのつながりを楽しんでいるのです。 匿名の合成音声がアーティストが持つオーラに勝ることはありません。
でも、もしAIが自分の大好きな声を真似できるとしたら? 今年4月、DrakeとThe Weekendのコラボ曲“Heart On My Sleeve”に、インターネット上は大騒ぎになりました。それだけならそこまで驚く話でもないですが、実はこの曲は、Ghostwriterと名乗るアーティストがAI音声クローン技術を使って作った、まったくの偽物だったのです。 その数週間前には、AI起業家のRoberto NicksonがAIツールを使って自分の声をKanye Westに変換(英語)し、物議をかもしました。
AIによる音声クローニングは、パート1で紹介した音色変換と同類の技術です。 しかし、Neutoneをはじめとした音声変換のプラグインがまだ未熟に聞こえるのに対し、音声クローン技術は劇的に向上しています。 これは歌だけでなく、話し言葉に対しても言えることです。 昨年、音声クローンのAI企業、ElevenLabsが、Leonardo DiCaprioの声をBill GatesやJoe Roganなどに変換したと世間を騒がしました。 その後、すぐにこれは第三者によるイタズラで、ElevenLabsのツールを使って有名人に攻撃的かつ扇動的なことを言わせたと報告されました。
“ディープフェイク”の新時代が到来しています。画像生成ツール“Midjourney”によって、ローマ法王がバレンシアガを着ていると思ってしまうことを踏まえると、人々は録音された音声を聞くたびに懐疑的になる必要があるでしょう。 一方で、エレクトロニックミュージック制作者にとって、これはチャンスとも言えます。 サンプリングはエレクトロニックミュージックの基本であるため、サンプリングされた声は、完全なアカペラであれ、スライスされたフレーズであれ、話し言葉であれ、多くのダンスミュージックのジャンルに取り入れられています。 この手法は、80年代から90年代初頭にかけて、寛容的なサンプリング文化のおかげで生まれたものですが、昨今では、権利者の訴訟問題に発展することも少なくありません。 もし、AIによって制作者が著作権を侵害することなく、好きなボーカリストを“サンプリング”できるようになるとすれば、どうでしょうか?
フランスのクラブミュージックプロデューサーのJaymie Silkは、以前から映画やスピーチの声をサンプリングして楽曲に使っています。 2021年に発表した“A President Is Just A Gangster With A Nuclear Weapon”では、iPadに搭載されているロボットによるテキスト読み上げ機能を使って、タイトルのフレーズを復唱させました。 また、2022年後半にこのアイデアをさらに押し進めようとしていたところ、有名なラッパーや歌手の声でテキスト読み上げを行うAIツール(FakeYouだと思われる)を偶然発見したとのこと。 すぐにその可能性を感じたSilkは、このツールをクラブミュージックで誰よりも早く使いたいと考えました。 (実際、Silkは正しく、数カ月後にはDavid Guettaが同じ方法でEminemを“サンプリング”している)。
その結果が、『Rub Music Vol.1』という、 The WeekndやKendrick Lamar、Tupacといったアーティストのボーカルを“サンプリング”したクラブトラックを集めたEPです。 歌詞は、もちろんSilk自身が書いたものですが、例えば、“Illusions”の歌詞ではTupacが「現実のものは現実ではない…すべては幻想だ」と語るなど、このEPへの懸念も表明。ただ、一方でディープフェイクへの怒りを表現しながらも、このEPにはワクワクする新しいツールを探求している制作者の遊び心も込められてます。
SilkがこのEPを制作して以来、音声クローニングの技術は改善されました (最近の作品『Let's Be Lovers』でも、引き続きAIボイスを使用)。 「当時は初歩的なものでした」とSilkは振り返ります。 「設定の変更や適用はできませんでした。 何かを入力して、運が良ければいい感じにできるかもといった程度ですね」と語るほど、音質も理想的なものではなく、 “Artificial Realness”でのThe Weekendの声のように、後処理を重ねてもシビランスのノイズを取り除けない場合もありました。
最近の音声クローニング技術の音質はますます向上しています。 FakeYouの有名人の声とSynthesizer Vのような、音声合成の機能を組み合わせたツールの登場は容易に想像できます。その結果、強力な“サンプリング”ツールボックスができ上がり、あらゆるポップスターに思い通りに言葉を歌わせ、ラップさせることが可能になります。
あなたの声は誰のもの?
とはいえ、法律や倫理面を考えると、これは実際のところ問題はないのでしょうか? これまで述べてきたようにボーカリストの声は、その人らしさを表す刻印であり、自己表現における主要な手段です。 自分の声を何千回も複製されることは、多くのアーティストにとって経済的、創造的な打撃を与える可能性があります。 ボーカリストは、誰が自分の声の複製を使えるかに関して、自分で決定権を持つべきではないでしょうか?
社会的な背景がこの問題をより切実なものにしています。 AIツールの潜在的なマイナス面について、Kayne Westのビデオを制作したことで、Robert Nicksonが浴びせられることになった“デジタルブラックフェイス”という言葉に、Silkは触れています。 Nickspnは白人であるため批判されました。このようなツールは、白人が黒人アーティストのアイデンティティをもてあそび、利益を得るための新しい方法になると指摘されたのです。そして、その有害な原動力は少なくともポップミュージックと同じくらい古くから存在しています。
新たに出現した音声クローニングをサンプリングの新しい形と考えれば、この行為はサンプリング文化の根底にある、不公平さを思い起こさせます。 AmenやThinkのブレイクビーツなど、何十年にもわたってダンスミュージックを支えた世界的に有名なサンプルであっても、演奏したミュージシャンには、その作品の影響力にもかかわらず適切な報酬は支払われていません。 AI音声技術にも、同じような搾取的な側面があることは簡単に想像がつきます。
このような事態をずっと前から予想していた人もいました。 ミュージシャンのHolly Herndonは、2019年の『PROTO』(パート1参照)での音色変換の実験に続き、2021年に“Holly+”を発表。 このプロジェクトの中心は、Herndon自身の声を高品質に再現したAI音声モデル、つまり彼女の“デジタルツイン”です。ユーザーはウェブサイトで、このAI音声モデルに音声をアップロードすると、Herndon“独特の加工された声”で“歌った”音楽をダウンロードすることができます。それは、PROTOでのJlinのビートにのせた歌に近いですが、誰もがアクセスできて、はるかに高い品質で作られます。
Holly+リリース時の声明(英語)で、Herndonは“声の所有権”をめぐる問題に対処するべく、このプロジェクトを立ち上げたと説明しています。つまり、未来のトレンドを予見した上で、アーティスト自身が自分の声の高音質モデルを公共の場に提供することで、自身の“デジタル肖像権”を管理しようとしたのです。 この方法によって、アーティストは自分の声を管理できるだけでなく、そこから利益を得られるようになります (Holly+の利用は無料ですが、音声モデルの商業利用による利益はDAOに送られ、DAOはそのお金の使い道を民主的に決定する)。
Herndonによれば、FakeYouなどで作られる音声クローニングは、少なくとも米国では、著作権法に違反する可能性があると言います。 “音声モデルの権利”に関して、80年代の判例を引用し、公人は保護されているため、“アーティストやブランドが自分の声を商業的に流用できないよう”になっていると説明。この判例では、“公人が自分の声を商業目的で利用する独占権を保持することを示唆”しています。そして、実際にユニバーサルミュージックは、自社アーティストの楽曲をAIツールに学習させて作った音楽は、著作権法に違反するとし、数日のうちにDrakeとThe Weekendの楽曲を削除させました。
急速に発展するこのようなツールに対して、法的・倫理的なしくみを整備する必要性に迫られています。 しかし、2000年代のファイル共有が始まったときと同様、法整備したからと言って、起きたことが前の状態に戻るわけではありません。 ボーカリストは、注目や仕事を得るために自分自身のデジタル音声モデルと競い合うことにな流可能性があります。 実際、取って代わられる恐怖を感じているのは、歌手だけではありません。 人間のイラストレーターにお金を払いたくない企業にとって、安価で、もしくは無料で使える画像生成ツールは魅力的な選択肢になっています。 そして、ChatGPTはプロのコピーライターを恐怖に陥れています。 そのこともあって、クリエイティブ業界やその他のホワイトカラーの職業の人々の間では「AIは自分の仕事を奪ってしまうのだろうか?」という、疑問が広がっています。
自動化する作曲
ここで、パート1で触れた疑問に立ち返ります。 ChatGPTやStable Diffusionといったツールは、精巧で幅広く利用できるため、人間のクリエイターと競合するようになりました。 音楽にはまだ同様の強力かつ良質、そして広範囲で利用可能なツールは存在していません (理由についてはパート1で説明)。 では、そうなる日は近いのでしょうか?
専門家の答えは“イエス”です。 SpawningのMat Dryhurstは、こういったモデルに取り組んでいる組織について言及しています。 そのひとつがGoogleのMusicLMであり、今年の初めに世界に紹介(英語)されましたが、まだ一般には公開されていません (Googleは、5月に少人数のテスター向けにMusicLMの公開(英語)を開始)。 ほかにも音楽に特化した組織、HarmonAIがあり、Stable Diffusionのテキストから画像へのモデルを開発したStability AIと提携しています。 HarmonAIにはDadabotsが参加しており、「今年中に新ツールを発表する予定」と話して(英語)います。
このようなツールが音楽制作の状況をどう変えるかを理解するために、まずは精度の低い既存のAI音楽ジェネレーターを見ていきましょう。 今のところ、“一般的な”音楽モデルではないものの、AIはすでに限定的な状況で音楽を作り出しています。 パート1で紹介したツールとは対照的に、これらのAIテクノロジーは、既存の音楽制作プロセスをサポートするように設計されていません。 そのかわり、少なくとも特定の状況においては、スキルを持つ音楽制作者を全く必要としないものにしようとしています。
そのひとつが商業用の作曲です。 世界はマルチメディアコンテンツであふれており、広告やポッドキャスト、ソーシャルメディア投稿に使うサウンドトラックの需要は無数にあります。 そのため、コンテンツの作り手にはいくつかの選択肢があります。 多額の費用をかけて新しい作曲を依頼する、または気に入ったアーティストの楽曲をライセンス取得することができます。 あるいはShutterstockに相当するような音楽ライブラリから、より安価なサウンドトラックを入手することもできます。 ただ、どの音楽も自分たちのニーズに合っていない場合はどうでしょう? もしくは予算が限られている場合は?
ここで、AIVA(英語)のようなAI製品が登場します。 AIVAは2016年にクラシック音楽や交響曲の作曲のために訓練されたAIモデルとして誕生しました (音楽著作権協会に認められた最初の“バーチャル”作曲家です)。 この技術は2019年に商用化され、現在は“制作のアシスタント”として、"プロジェクトのために魅力的なテーマ曲を、これまで以上に速く作る”ことを約束しています。
楽曲を生成する過程はシンプルで、 ベーシックバージョンは無料で使用できます。 “トラックを作成する”をクリックすると、オプションの絞り込みが始まります。 “20世紀シネマ”や“ヒップホップ”など12種類のプリセットから、AIに作って欲しい音楽のスタイルを設定します。 そして、キーやテンポ、楽器の編成、曲の長さなどのパラメータをドロップダウンメニューから選びます。
今回は試しに弦楽器のソロ演奏によるテンポの速い“ファンタジー”で設定してみたところ、バラバラなメロディが続く3分間のアルペジオができました。 よく聞けば、リスナーを納得させるのは難しいとは思いますが、低予算プロジェクトのバックグランド用ミックスであれば問題なく使えるでしょう。 また、必要に応じてMIDIを扱うエディターモードで生成する音楽を微調整することもできます (MIDIファイルはダウンロードして使用することも可能)。
AIVAは、厳密に決められたフレーム内で動作するため、精度が高くないAI技術でも効果的に作用します。 とはいえ、プリセットスタイルやドロップダウンメニューから選ぶことは、何でもありの自然なテキストの入力からはかけ離れたものであることは否めません。 とはいえ、定型で機能的な音楽が必要な場合、この方法はかなり有効でしょう。
プロの作曲家は心配する必要があるのでしょうか? その答えは、パート1で紹介した自動ミキシングの話とおそらく重なります。 AIがインスピレーションを必要としない(または望まれていない)汎用的な内容であれば、扱えるようになる日は近いはずです。 しかしながら、より高度なプロジェクトでは、やはり人間の創造的なビジョンが大切になるでしょう。 もしかしたら、人間の作曲家がいることが高品質なメディアの証になり得る、2層構造システムが登場するかもしれません。 言い換えれば、人間が最もプレミアムな選択肢になる可能性があるということです。
これは、少なくとも生成系AIによる楽曲制作によるひとつの可能性です。 しかし、他のツールでは別の結論を導き出します。 もし、AIがすべての人を音楽家にしてしまったら?という...。
誰もが音楽制作者に
Boomy(英語)は、“音楽を作ったことがなくても、たった数秒でオリジナル曲が作れる”と謳う、AIを使ったプラットフォームですが、仕組みはAIVAと似ています。 スタイルとサブスタイルをドロップダウンメニューから選択すると、AIが設定に合わせた曲を生成します。 またシンプルな編集機能も搭載しているため、仕上がりの調整も可能です。
とはいえ、AIVA同様、このツールはかなり限られた枠の中でしか制作を制御できないため、結果的に良い作品ができるかどうかの保証はありません。 しかしながら、そのことはユーザーを遠ざけていません。 Boomyによれば、このツールはすでに約1,300万曲の楽曲生成に使われており、その多くはSpotifyを通じてアップロードされ、制作者に収益化されています。
AIVAやBoomyのようなツールは、今後何が起こるかの一端を表しているに過ぎません。 今のところ、AIがスキルのある音楽制作者に取って代わるという主張は、言った本人たちが取り組んでいる限られた範囲内でさえ、その主張はまだ十分に確立しているとは言い切れません。 実際、近年のAIの急速な進歩は、この技術が頭ごなしに否定できるものではないということも教えてくれます。
Googleは、公開された中で最も精巧なテキストによる音楽生成モデル、MusicLMを紹介する際に、オーディオ例を共有しました。 その多くには、主に奇妙さ故の興味深さがあります (たとえば、“swing”という単語によって生成された、異質な不協和音など)。 しかし、その一方ではより説得力があるものもあります。 “レゲトンとエレクトロニックダンスミュージックの融合”という30秒のクリップは、クラブミュージックの曲の始まりにできそうなほど面白いです。
でも、音楽制作者にとっての課題の中心は変わりません。つまり、いかにしてノイズを打ち破り、関心を持つオーディエンス に届けるかということです
GoogleLMのテスターによってオンラインで共有された最近の例でも、優秀な音楽とかなり奇妙な音楽が同等に混在しています。 しかし、この1年の間に、テキストから画像への変換ツールが、荒いスケッチから高解像度のディープフェイクまで、急速に進歩したことを念頭に置く必要があるでしょう。 音楽でも同じようなことが起きないとも限りません。 現時点でこのような技術が存在するのであれば、数年後には一体どうなるというのでしょうか? 誰でもすぐにある程度のテクノトラックが作れるようになるのでしょうか?
「我々はテクノロジーの民主化時代に生きています」とJamie Silkは語ります。 しかし、その時代はAIが登場する以前から始まっていたのです。 何十年もの間、テクノロジーの進歩によって、さらに多くの人々が音楽を作るようになり、世界に発信できるようになりました。 音楽が“多すぎる”という不満を耳にすることも多々あります。 とはいえ、日々の生活に美しさや意味を与えてくれるアーティストを称賛する気持ちはやみません。
一方で、そのようなアーティストが生計を立てられるかどうかは、また別の問題です。 AIが登場する以前から音楽制作の経済状況は厳しいものでしたが、AIによって状況がさらに悪化する可能性があります。 AIが発達した時代に、ミュージシャンがどのように生計を立てていくかは、真剣に考える必要があるでしょう。 しかし、音楽制作が多くの人にとって身近になったからといって、特別で深みのある音楽がなくなるというわけではありません。
「誰でもある程度のメディアを作れるようになれば、何が平凡であるかとか、全体の背景に対する認識が変わるだけです」とDryhurstは言います。 「かつて、エレクトロニックミュージックの制作は手間がかかり、技術的な問題もありました。 今は誰でもサンプルパックとソフトウェアを購入して、YouTubeのチュートリアルに従えば、それなりのものを作ることができます。 それは決して悪いことではなく、多くの人はそうやって自分を表現する方法を学び始めるのです。 この過程をさらに自動化することは、基本的な期待値を変えるだけです。ボタンをクリックするだけで作れるようになった音楽と区別するために、アーティストが何を作りだすかについてはまだ未知数です。 人目を引くものを作るには、やはり技術的なスキルやインスピレーション、運も必要になるでしょう。 それはこれまでも、そしてこれからも、簡単なことではありません」
Jamie Silkも同意見です。 「くだらない音楽が増えたり、遊びで音楽を作る人が増えたりするでしょう。でも、音楽制作者にとっての課題の中心は変わりません。つまり、いかにしてノイズを打ち破り、関心を持つオーディエンス に届けるかということです。 この部分は変わりません。 そして、良い音楽を作って、コミュニティを構築していくことも同じです」
未来を産み出す
アーティストたちは、過去に登場した新しい技術と同じように、これらの最新ツールを表現力や想像力に富んだ方法で使っていくことでしょう。 実際、すでに実践されているものもあります。
ロンドンを拠点に活動するアーティストpatten(英語)は、昨年末に偶然、Riffusion(英語)を知りました。 グラフィックデザイナーでもあるpattenは、すでに生成系AIに精通していました。 そんな時、Riffusionが耳に留まりました。
2022年末に発表されたRiffusionは、趣味で作られたプロジェクトでありながら、桁外れのインパクトを持っていました。 テキストから音楽への変換に正面から取り組むのではなく、既存のテキストから画像への変換技術を応用したのです。
これは、特定の種類のコンテンツを使ってAIモデルを訓練させることで、そのコンテンツをよりうまく生成できるようにする“ファインチューニング(微調整)”というプロセスによって機能します。 ミュージシャンのSeth ForsgrenとHayk Martirosは、スペクトログラム(音の周波数を時間軸で視覚的に表現したもの)上で、テキストから画像への変換モデル、Stable Diffusionをファインチューニングしました。 そして、このスペクトログラムから“読み取り”を行うことで音声に変換することが可能になります。 これで聞くことが可能なテキストから画像への変換モデルの完成です。
Riffusionは、遊ぶのがとても楽しいツールです。 “エモーショナルディスコ”、“潜在空間のヴェイパーウェイヴ”など、簡単なテキストを入力すると、反復するループを無限に再生してくれます。 さらに気に入ったものはダウンロードも可能。 pattenは、このツールが単なるおもちゃではないと悟りました。 「短期間遊んだだけで、このツールでいろんなことができると思いました。 それで何ができるか試してみたんです」
pattenは、1日半も眠らずに入力とダウンロードを繰り返し、素材を集めました。 その後、集めた素材をもう一度見直し、面白い部分を“断片的な雲のような音楽”としてつなぎ合わせました。この音楽の断片が『Mirage FM』となりましたが、patten自身はこれを、“テキストから音声へ変換するAIサンプルだけで作った最初のアルバム”だと言います。
このアルバムは、他の何ものとも似ていない、美しく夢のようなレコードです。とはいえ、聞きなじみのあるスタイルの気配がちらつくのは否めません。 コンテンツはすべてRiffusionを使って生成されましたが、pattenのファンなら彼のトレードマークである美学に気づくでしょう。 pattenによると、創造性の大半は音声をつなぎ合わせる方法にあると言います。 「本当に小さな断片を音楽のフレーズやループにつなぎ合わせただけで大半を作りました。 このアルバムは、作曲表現としての編集がテーマだと思いますね」
Dryhurstは、近い将来、pattenのようなアプローチが音楽制作者の間で一般的になると考えています。 「人々は作品に使用する音楽のフレーズを生成することに対して、何とも思わないようになるでしょう」
『Mirage FM』の不思議なところは、その境界を破るような新しさがありつつも、音楽にノスタルジックな雰囲気があること。 この効果を高めているのが、人工物が混ざったような、音声の小さな断片です。 (これはRiffusionのスペクトログラム方式によって起きた“位相回復”の問題ではないかとDadabotsは指摘しています)。pattenは、この品質をカセットの歪みやレコードのプチプチと鳴るノイズに例えています。 特にアルバムのキャッチコピーである“潜在空間のレコード・ディグ”と合わせて考えると、この比較は印象的です。多くの人は、AIツールを未来への入り口と考えるかもしれません。 しかし、既存の膨大な音楽データベースを利用して訓練されたAIツールは、私たちの文化的な過去への扉でもあります。
音声モデルと同様に、生成系AIとサンプリングは比較されます。 過去の世代のミュージシャンは、古い音楽を掘り返して完璧なサンプルを探しましたが、未来のミュージシャンは、AIモデルの“潜在空間”から最適な音を探し出すのかもしれません。 そのときのサウンドは聞き覚えがあるものかもしれませんが、それぞれが各生成ごとにユニークで、著作権もフリーです。
サンプリングの比較は、以前にも行われたことがあります。 Dadabotsは、自分たちが好きなアーティストのAIモデルを訓練することで有名になりました。 Bandcampで行った一連の無料リリースは、BattlesやMeshuggahといったバンドを訓練させたモデルから出力した音を捉えたものです。 また、YouTubeのライブ配信でも作品を発表しています。“RELENTLESS DOPPELGANGER”は、“ニューラルネットワークによってテクニカルデスメタルを生成し、24時間365日、無限にライブ配信”しています。
(Dadabotsは、訓練のモデルとして使用したアーティストたちに対する“あらゆる責任”について報告。 “興味をそそる”プロジェクトがある一方で、Britney SpearsとFrank Sinatraの融合(英語)のような他のプロジェクトは著作権侵害のフラグが立っている)。
2021年に発表したあるライブ配信では、サンプリングに関する論説が添えられています。 「サンプリングは音楽において重要な役割を果たします。引用によってのみ表現できる音や感情、メッセージ、そして、歴史を思い起こさせるものがあるのです」。また、著作権の制約により、ミュージシャンが作品でサンプリングを使う自由が制限されているとも。 「ニューラルシンセシス(神経回路網による音響生成)によって、サンプリング能力を一部ミュージシャンに戻すことができました。 既成の録音をサンプリングすることなく、特定の時代を引用した音楽を合成できるようになったのです」
サンプリングの比較は完璧ではなく、参考にならないという意見もあります。 「もちろん、技術的には、サンプリングの使用による経済的影響を回避できる可能性はあります」とpattenは語ります。 「でも、それ以上に大きな可能性があると思うんです。交換や価値に縛られすぎずにこれまで存在しなかった音体験の形を探した方がいい」。Dryhurstは、古い言葉や概念に立ち返るのではなく、「AIを新しいパラダイムとして扱う必要がある」と主張しています。 DryhurstとHerndonは、音楽用のAI音声を生成する行為について、“スポーニング(産み出す)”という新しい用語を作りました。
結論の出ないサンプリングとしての生成系AIの考え方は、倫理的問題に対処するのに役立ちます。 音声モデルと同様に、“著作権フリー”という考えはなかなか定着しないでしょう。 生成系のディープラーニングモデルは、データに基づいて学習します。 そして、そのモデルはデータから学習したパターンに基づいて応答します。 Stable Diffusionのようなテキストから画像への変換モデルは、膨大な数の画像によって訓練され、何が魅力的で正確な画像なのかを学習し、要求に応じて画像を生成することができます。 でも、その画像はどこからやって来るのでしょうか?
著作権、倫理、オリジナリティ
Stable Diffusionは、ウェブから収集された膨大な画像の宝庫である、LAION-5Bという画像データセットから学習します。 LAION-5Bの画像は一般に公開されていますが、 それは画像の作成者が、AIモデルの学習に使われることに同意した訳ではないのです。 Deviant Artのようなアート関連サイトにある無数の画像が、テキストから画像への変換モデルの学習に使われています。これが、見覚えのあるスタイルでイラスト画像を生成できる理由です。
ですが、その中の作品の多く、およびLAION-5Bのようなデータセット内の他の画像は、著作権で保護されています。 米国やEUの著作権法では、これらの作品をデータセットに含めることは、営利目的でない限り認められています。 しかし、生成AIは莫大な利益を生む商業事業であり、データセットにアート作品が存在することが、この技術の大切な鍵となるのです。
倫理的な利害は、サンプリングに関わる問題と似ているでしょう。 ディープラーニングモデルに同意のないアーティストの作品を学習させ、そこからメディアを生成することは、許可なく作品をサンプリングすることとそれほど変わりません。 どちらの場合もオリジナルの制作者は、同意することもなければ報酬を得ることもありません。
そのため、アーティストや権利者の反発が始まっています。 Stable DiffusionのようなAIモデルに対して、一連の訴訟が進行中で、ストックフォトサービスを行うGetty Images社も提訴者に名を連ねています。 そして、データセットの同意性を高くする方法をめぐって、激しい議論が交わされています。
DryhurstとHerndonは、アーティストが自分の作品が主要なデータセットに使用されているかを調べ、今後使用されないようにするためのツール、“Have I Been Trained?”(英語)を制作。 作品をデータセットから削除することを強制する法的な仕組みはありませんが、このアイデアはすでにある程度の成功を収めています。 Stable Diffusionを運営するStability AI社は、次バージョンのモデルではデータセットからの削除要請(現在8000万枚の画像に及ぶ)を尊重すると発表しました。
画像の知的財産をめぐる戦いが繰り広げられています。 音声ではどうでしょうか? 音楽業界は、所有権の構造が複雑なことから、同意のないデータセットの作成に抵抗が高まっています。 実際、このことは生成系AIの音楽モデルが、画像やテキストに遅れをとっている理由のひとつだとも言われています。
「音楽業界の構造は気が遠くなるほど複雑です。著作権を保護するためにさまざまな組織が存在しているので、新しい音楽配信の手段に対して慎重にならざるを得ません」とDadabotsは話します。 「例え、アーティストがAIに興味を持ったとしても、生成された音楽を販売できるかどうかは、アーティストだけの問題ではないのかもしれません。 人気アーティストは自分の音楽を完全に所有していないことが多く、レーベルや発売元に相談せずに使用許可を出せないこともあります」
法律や倫理的な枠組みが追いつくまで、テクノロジーがそれを少し待つ必要があるということは、おそらくそれほど悪いことではないでしょう。 このことが、今後の生成モデルに反映されることが期待されています。 例えば、HarmonAI(英語)は、近々発表する、“Dance Diffusion”モデルでは、データに同意を求める措置をとっています。 そして、“Have I Been Trained?”は、 音声にも対応できるようにその機能を拡張予定です。 「僕たちが導入する基本原則は、メディアの種類を問わず機能します」とDryhurstは語ります。
同意の問題だけではありません。AIはデータセットに依存するため、その範囲についても疑問が生じます。 批評家は、これがAIの根本的な限界であると言うでしょう。 人間が過去に作った創作物で訓練されたAIモデルは、新しいことができません。すでに人間が持っているアイデアを、新しい組み合わせにして吐き出すだけです。 このように考えると、AIを使う音楽家は、単なるキュレーターになり、ますます多様化する文化の中で、おなじみの食材を入れ替えてスープを作るような役割になるかもしれません。
しかし、よく考えてみると、“キュレーション(選定)”と“クリエーション(創造)”の境界線はそれほど明確ではありません。 「音楽では、存在する楽器の数には限りがあり、コード進行の数にも限りがあり、それらを組み合わせる方法の数にも限りがあります」とChristain Steinmetzは話します。 「だから、バンドはその中から音楽理論だったり好きな部分だったりを選んで、作品の素材としてまとめているようなものです」
pattenはこの考えをさらに推し進めます。 「AIは既存の素材から派生したもので、新しいことは何もしていない」と言ったとき、「じゃあ今、自分たちがこの会話でやっていることは何だろう?って考えたんです。 人間は自己表現のために、言語装置のシステムすべてを発明したわけではありません。 僕らはさまざまな歴史とともに、共有し理解している言語を使用しているのです」。このようにpattenにとってAIツールは、創造性やオリジナリティとは何かという深い問いを投げかけるものです。 「意識や人間らしさ、創造性の本質について、古くからある問いに目を向けるとても良い機会ではないでしょうか。 そして、自分がしていることは何なのか、何が僕たちを人間たらしめているのかについて、考えることができます」
【結論】お金、自動化、そして未来への移行
この記事では、AI技術が音楽制作を変える可能性について紹介しました。 技術的なミックス作業の代行からMIDIの生成、有名な歌手の声を制作者が自由に取り扱うこと、音のフレーズや楽曲全体を“産み出す”ことまで、幅広い活動を取り上げてきました。 このようにさまざまなAIの使い方で共通することは何だと思いますか? いずれの場合も、これまで人間の労力を必要としていたことを、AIが行っています。 言い換えれば、これらはすべて自動化の一種です。
自動化を進めることは、過去数世紀にわたる人類の歴史の根幹をなすものです。 自動化とは、機械を使って人間が作るよりも早く製品を作ること、あるいはコンピュータに複雑な計算をさせることです。 工程に必要な人間の労力を減らすことで、自動化はコストを下げ、生産性を向上させます。 つまり、自動化する機械を所有する人が、より多くのお金を手にするのです。
これが新しいAI技術が推進されている理由でしょう。 ChatGPTやMidjourneyのような、大規模なディープラーニングモデルの訓練には、膨大なリソース(計算しにくい環境コストは言うまでもない)が必要です。 こういったモデルに資金を提供できるのは、一般的に大手テック企業であり、報酬を得るのもその企業です(または企業側はそう望んでいる)。
ただ、AIは単に独占的な大手テック企業だけの話ではありません。 発掘精神と新しいサウンドへの渇望に駆られて、AI音楽ツールの開発に取り組んでいる制作者たちがたくさんいます。 とはいえ、AI音楽は、経済の大部分を自動化するというメインイベントの余興にすぎません。
歴史は、自動化が痛みを伴うプロセスであることを教えてくれます。 苦労して身につけた技能が余分になったり、価値を失ったり、生活が失われたり、文化やコミュニティが根底から覆されたりします。 その影響を緩和することは政治的な課題です。そして、私たちはどのように社会を構成し、誰と何を大切にしたいのか疑問を投げかけられています。 AI技術の意義と影響をめぐる戦いはすでに始まっており(英語)、今後数年間はさらに激化することでしょう。
しかし、歴史を振り返ると、このような激変が音楽制作そのものに破滅をもたらしたことはありません。 その時がくれば、何を音楽と考え、何を音楽家と考えるかという枠組み自体に変化があるでしょう。 音楽の伝統の一部はつながりを失ってしまいますが、以前は想像もつかなかったような新しい伝統が生まれるのです。 マイクロプロセッサーが発明されたとき、シリコンバレーはテクノミュージックなど考えていませんでした。 しかし、さまざまな事が動き出したことで、大衆向けのシンセやコンピュータ、そして、まったく新しい音楽の作り方へとつながっていきました。
重要なことは、テクノロジーが音楽を作ったのではないということ。 作ったのは人間だということです。人々がその時代に適応し、反応することによって、音楽が生まれたのです。
「現在、僕たちが直面する課題の1つは、それを移行と見なすことができないことです 」とpattenは言います。 「音楽家であることとは、どういうことかを説明するときは、特定の時代領域において、その当時行われていた方法によって変わってきます」。音楽制作の技術は「生まれては消えるのです。 エレキギターやCD、ターンテーブルのように。 これらすべてが、とても現実的な状況や行動を作り出し、形作りますが、決して永続的なものではありません。 今ある方法が必ずしも将来そうであるとは限らないし、最良の方法であるとも限らないと考えるべきでしょう。 だから、今、僕たちが音楽家だと考えているものが無くなることを、ネガティブにとらえる必要はないのです」
この記事のパート1を読む
文:Angus Finlayson
画像:Veronika Marxer