“AI”という言葉には、複雑な感情を呼び起こします。 未来への期待や希望を抱くこともあれば、今後起こることに恐怖を感じることさえあります。 ここ数年で、AIは遠い約束から日常の現実となりました。 ChatGPT でEメールを書き、Midjourney で画像を生成している方も多いと思います。 毎週、新しいAI技術が私たちの生活に新たな変化をもたらすと約束されているようなものです。
音楽も例外ではありません。 すでにAI技術はオーディオに適用され、 ステムの分離からボーカルのディープフェイクまで、さまざまな作業をこなし、従来の制作ツールや音楽制作のインターフェースに新しい風を吹き込んでいます。 AIが単独で音楽を制作するようになるのも、そう遠くないかもしれません。
AI技術の登場は、音楽コミュニティで激しい議論を巻き起こしました。 創造性、所有権、信頼性に関する考え方が問い直されているのです。 新しいツールを歓迎する人もいれば、技術は過大評価されていて、それほど大きな変化はないだろうと言う人もいます。 一方で、自分が愛する音楽制作の習慣や文化が失われることを恐れて、怯えている人もいるでしょう。
パート1•2に分けて構成された本記事では、AIによる音楽制作を深く掘り下げ、この複雑で変化の激しい話題について紐解いていこうと試みます。 既存のAI音楽制作ツールを調査し、それらが開く創作の可能性と、投げかけられる哲学的な問いかけを探ります。 そして、AIツールが今後の音楽制作をどのように変えていくのか、先を見据えて検証していこうと思います。
深入りすればするほどに、その複雑な感情は強くなっていくでしょう。 未来は明るいかもしれませんが、少し恐怖も感じます。
用語の定義
本題に入る前に、いくつかの用語について整理しておきましょう。
そもそもAIとは何なのでしょうか? その答えは、思っているほど単純なものではないかもしれません。 1950年代に作られたこの用語は、以降、さまざまな技術に適用されています。 最も広い意味でのAIとは、人間のような知能を持つように見える、あるいは人間の知能を必要とすると考えられる作業を行うことのできる、さまざまな形態のコンピュータプログラムのことです。
ここ数年のAIブームは、機械学習と呼ばれる特定の技術によって成り立っています。 機械学習システムは、人間の手による教育が不必要で、与えられたデータを使って自ら改善することができます。 しかし、機械学習は何十年も前から存在しています。 現在、最新の機械学習は、ディープラーニング、と呼ばれる特定種類のものです。
ディープラーニングシステムは、ニューラルネットワーク(おおむね人間脳のように定義されたアルゴリズムの集合)で構成されており、入力されたデータを分析してパターンを認識することができます。 この“ディープ”の部分は、これらのネットワークに複数の層があり、システムがより洗練された方法でデータ解釈できることを示しています。 このため、ディープラーニングシステムは、非構造化データの扱いを得意とします。 つまり、ランダムな絵や文章を投げ込んでも、そのパターンをうまく見つけてくれます。
しかし、ディープラーニングシステムは、よくディストピアSF映画に出演する、突如暴走し出すAIのように“知的”ではありません。 ディープラーニングは、私たちが理解するような“意識”を持っておらず、データのパターンを見抜くことだけに長けているのです。 そのため、“AI”という用語は誤った名称である、という意見もあります。
ディープラーニングは非常に高度な技術であるため、プロセッサーを多く必要とします。それゆえに、この技術はここ数年で広く利用ができるようになりました。 ですが、ディープラーニング技術は、はるかに長い間、様々な形で私たちの生活の中に存在してきました。 ディープラーニングは、オンライン言語翻訳機やクレジットカードの不正利用検知、さらには音楽ストリーミングサービスの推奨アルゴリズムにも使われています。
これらディープラーニングAIの定着した用途は、ほとんどが製品やサービスの内部で機能しています。 最近、AIが脚光を浴びており、 Dall-EやChatGPTのようなツールは、入力されたデータを選別し、人間がパターンを認識できるよう手助けするだけでなく 、 データが次に何を行うかを推測する出力を生成するのです。 これを生成AIと呼びます。
さまざまな種類のディープラーニングが日常生活の背景で使用され続けているのに対し、生成AIはそれ自体に注目を集めています。 画像やテキスト、その他のメディアを私たちに提示し、私たちを機械との対話に誘うのです。 それは人間の創造性を私たちに反映し、AI技術の可能性と課題をより明確にします。
音楽用のChatGPTは?
ディープラーニング技術は、画像やテキストなどのデータと同様に、デジタルオーディオにも適用することが可能です。 その影響は広範囲に渡るので、本記事で深く掘り下げていくことにします。 しかし、AIオーディオは、他のテクノロジーの適用に比べると遅れを取っています。 ですので、音楽用のChatGPTはまだありません。 つまり、文章や他の種類の指示を受け入れ、適切で質の高い音楽を出力できる、大容量オーディオに鍛えられたツールは存在しません (近いうちに存在するかもしれませんが、これについてはパート2で詳しく説明します)。
この件に関しては、いくつかの理由があります。 まず、音声は画像や文章とは根本的に異なる種類のデータであることを、Queen Mary大学のAIオーディオ研究者であるChristian Steinmetzが説明しています。 「オーディオは、比較的帯域幅が狭く、モノフォニックオーディオと仮定すると、各時点で 1つのサンプルを取得します。 ただし、1秒間に44,000個のサンプルを取得することになるのです」つまり、数分のオーディオを生成することは、非常に膨大な画像を生成することに相当するデータなのです。
AIオーディオの研究者であり、開発者であるthe Dadabotsが観察するように、これは現在利用可能なシステムの動作速度に制限をもたらします。 「未加工オーディオを生成する最高品質の手法の一部には、1曲の生成に最大1日を要するものもあります」
画像やテキストとは異なり、オーディオには時間の次元があります。 曲の最後の1分と最初の1分がどう関係するかが重要で、これはAIにとって明確な課題となります。 また、音楽は言葉で確実に説明するのが難しいため、画像では非常にうまく機能する文章指示のアプローチには向きません。 「音楽は最も抽象的な芸術の一つです」the Dadabotsは言います。 「音色、ハーモニー、リズム、それぞれの意味は、聴く人の解釈次第なのです。 曲の全体を客観的に、他の人が瞬時に想像できるよう簡潔に表現することは、非常に難しいのです」
それに加え、私たちの聴覚認知は、異常なほど細かく調整されているようです。 「視覚系が敏感なのとはまた異なる方法で、私たちは音の歪みに対して敏感なのかもしれません」Steinmetzは言います。 彼は、2020年に発表された音楽生成モデルOpenAI’のJukebox(当時は最も高機能でした)を例に挙げます。 重要な要素が揃っているといった意味で、“すごく納得のいく音楽”を生成ことができました。 「でも、品質的にはすごく悪い音でした。 オーディオの場合はまるで、すべてが正確に正しい位置にないと、例え訓練されていない聴取者でも何かがおかしい、と気づくようなものです。 しかし、画像の場合は、多くの詳細をほぼ正しく把握できるようなので、画像としてかなり説得力のあるものが生成されます。 すべてのピクセルが正確である必要はありません」
音楽は、単純に扱いにくく、機械に取り込まれるにはあまりに神秘的で、儚い美的体験なのだ、と結論づけたくなります。 無垢なものです。 実際、効果的なAI音楽ツールを設計するための取り組みは、近年急速に進んでいます。
Stable DiffusionやChatGPTと同等の多機能で熟達した生成音楽AIー“生成音楽モデル”を制作する競争が行われています。 こちらについてと、音楽制作への影響については、本記事のパート2で探っていきます。
しかし、音楽におけるAIの活用は、このような単一統計システムの夢を超え、多くの可能性があります。 生成MIDIから奇抜なサウンドのシンセシス、自動ミキシングからアナログモデリングまで、AIツールは音楽制作のプロセスを揺るがす可能性を持っています。 パート1では、現在、存在するツールの一部を紹介し、今後、これらのツールがどのように発展していくのかについて考えていきます。 その過程で、これらのツールが音楽制作にとってどのような意味を持つのかに触れていきます。 AIは人間の創造性を脅かすのか、それとも単に創造性を増大させるのでしょうか? 音楽制作のどの部分が変わり、どの部分が変わらないのでしょうか?
制作作業の自動化
この時点で混乱している方もいるでしょう。 音楽プロデューサーやオーディオ専門家であれば、“AI音楽制作ツール”はそれほど目新しいアイデアではないかもしれません。 実際に、音楽テック界では、何年も前から“AI”タグが飛び交っていました。
例えば、iZotopeはオールインワン・ミキシングツールNeutron 4などの製品にAIを組み込んでいます。プラグインのMix Assistantは、曲全体のミックスを聴いて、音と音の間の関係を分析し、好みに合わせて微調整できる自動ミックスを提示します。
一方、Sonibleは、コンプレッション、リバーブ、EQといった古典的なプラグインエフェクトの“洗練された”バージョンを提供しています。 これらのプラグインは、入力されたオーディオを聞き、自動的に適応します。 そして、ユーザーには、設定を微調整するための、より簡単なマクロコントロールが提供されます。 実例として、pure:compは、スレッショルド、レシオ、アタック、リリースなどのパラメーターを同時にコントロールする主要の“コンプレッション”ノブをひとつだけ備えています。
また、多くのプロデューサーがアウトソーシングしがちな制作工程の一部を自動化するツールも提供されています。 LANDRは、プロのマスタリングエンジニアを雇うよりも、たったわずかな費用で、楽曲へのAI自動マスタリングを提供します。 マスタリング前の楽曲をウェブサイトにアップロードし、マスタリングのスタイルとラウドネスレベルを選択するだけで、マスタリングされた楽曲をダウンロードすることができます。
これらのツールと、今ブレイクしているディープラーニング技術との関係性はなんでしょうか? ここでまた、“AI”という用語の曖昧さの話に戻ります。ディープラーニングはAI技術の一種ですが、それだけではありません。 それまでは、“エキスパートシステム”がありました。
Steinmetzの説明によると、この方法は「選択できる木を作成することで機能する」そうです。彼は、この方法に従って、自動ミキシングツールがどのように機能するかを説明しています。 「もしジャンルがジャズなら、この木のこの部分に行くんです。 もしジャズで、楽器がアップライトベースなら、木のこの部分に行きます。 アップライトベースで、60ヘルツのエネルギーが多いのであれば、そこを減らしていくのがいいかもしれませんね。 あらゆる可能性を想定して、規則を考えます。 十分に複雑な規則のセットを構築できれば、最終的に知的な印象を与えるシステムに仕上がります」
それぞれどの製品にどの技術が使われているかは、断言することはできません。 しかし、数年以上前からあるAIを使った音楽技術ツールは、このアプローチの種類を用いていると考えられます (もちろん、ディープラーニングの手法がこれらのツールに統合されたのは、もっと最近のことかもしれません)。
このアプローチは、うまく実行すれば効果的ですが、限界があります。 Steinmetzの説明によると、このような技術には、専門のオーディオエンジニアがプログラマーと一緒になって、すべての規則を書き上げる必要があるようです。 そして、楽曲をミックスしたことのある人ならわかるように、ルール通りにやればいいというほど単純なものでもありません。 熟練したミックスエンジニアは、数え切れないほどの繊細な判断と想像力を駆使しています。 完全にこの複雑さを把握するための必要な規則数は、あまりにも膨大です。 「基本的に、この規模の問題ですね」とSteinmetzは言います。
ここでディープラーニングの登場です。 ディープラーニングシステムは、データから自己学習ができることを覚えておいてください。 知識豊富な人間による細かな管理は必要ないのです。 より多くの関連性のあるデータを与えられ、より多くのプロセッサーパワーを自由に使えるようになればなるほど、与えられたタスクに対し熟達することができます。
つまり、大量の楽曲データを与えられたディープラーニングモデルは、エキスパートシステムのアプローチよりも良い仕事をする可能性が高く、指標によっては人間のミックスエンジニアを上回るかもしれません。
オーディオの分野において、まだ実現されていませんが、Steinmetzは、AIツールがこのレベルに達した例として、画像分類を挙げています。 「最高のモデルは、何百万枚もの画像、つまり人間が見ることができないほどの画像で訓練しているので、基本的に人間よりも正確に画像の内容を分類することができます。 それは本当に強力なものです」
つまり、これまで音楽プロデューサーが必須と考えていたさまざまな技術的な作業を、AIが得意になる可能性があります。 コンプレッサーのアタックやディケイを設定するような細かな作業から、全体的なミックスダウンの仕上げといった広範囲な作業まで、AIがあなた専用のエンジニアになる日は近いかもしれません。
これにより、音楽制作者にとってどのような変化をもたらすのでしょうか? Steinmetzは、スマートフォンのカメラによるデジタル写真の民主化と類似していると言います。 イベントの記録や日常的な仕事をするプロカメラマンは減り、美術写真家への需要は変わらなかったのです。
「ミキシングやオーディオエンジニアリングにおいても、同様のことが言えます。 もし、理論的には自動化できるような仕事、つまり、誰も特有の芸術的な作品であることを必要としておらず、ただ何かの型にはまればいいという仕事をしているなら、その仕事はおそらくいずれ自動化されるでしょう」しかし、創造的な構想を実現しようとするときは、技術が意思決定者の代わりになることはありません。 アーティストは「AIをツールとして使いますが、操縦席に座っているのは彼らなのです。 ツールに判断を委ねることもあるかもしれませんが、最終的にはアーティストが最高意思決定者となります」
もちろん、これまで努力して得た制作技術やエンジニアリング技術をより機能的な方法で発揮することで生計を立てている人たちにとっては、安心できる話ではないでしょう。 また、このために次世代のプロデューサーが苦しむことにならないか、とも考えられます。 どのようにコンプレッサーやEQをかけるかは、まさに創造的な側面を持ちます。 もし技術がこれらのプロセスを自動化するなら、プロデューサーは、古くからある問題に対して創造的な新しい解決策を見出す機会を失い、創造的な間違いを犯す可能性があるのでしょうか?
一方、これらの作業を自動化することで、音楽制作者は時間とエネルギーを確保し、その分、音楽の創造的な範囲を広げることができます。 現在のDAWが数秒で実行できる作業の多くは、アナログスタジオの時代であれば、膨大なリソースと作業時間、そしてスキルを必要としたことでしょう。 私たちは、現代のDAWで作られた音楽が、結果として創造性に欠けるとは考えていません。 むしろ、新しいサウンドやテクニック、アプローチが、より多くの音楽制作者にとって身近になったことで、創造できる箇所が増えているのです。
「確かに、決まった手順でできる音楽制作でのいくつかの面は、それら作業を軽々とこなすようなツールに取って代わられる可能性があります」と、Mat Dryhurstと彼のパートナー、ミュージシャン、またAI start-up Spawningの共同設立者であるHolly Herndonとともに語ります。 「しかし、それは私たちの考える、芸術の基準値を変えるだけです。 一般的に、私たちが大切にしているアーティストとは 、何らかの理由で基準値からズレているアーティストであり、どの時代にも偉大なアーティストがいたように、AI時代にも偉大なアーティストが存在するでしょう」
始まりはMIDIだった
ミキシングなどの技術的な作業について考えるとき、機能的な制作作業と芸術的な制作作業を区別することは、比較的簡単です。 では、作曲面ではどうでしょう? AIはここでも状況を一変させる可能性があります。
この分野で機械学習を適用した初期の試みは、2019年にMax For Liveを利用可能にしたGoogleのMagenta研究所のプロジェクトであるMagenta Studioでした。 ゼロから新しいメロディーやリズムを作る、与えられたノートをもとにメロディーを完成させる、ふたつのメロディークリップ間を“モーフィング”するなど、これらのツールは、MIDIノート生成に関するさまざまな試みを提供します。 “何百万もの”メロディーやリズムを学習させたこれらのモデルは、従来の生成ツールよりも洗練され、また、おそらくより音楽的な出力を実現しています。
AIによるMIDIノート生成は、Orb Pluginsのような企業によってさらに進化し、従来のソフトシンセのセットにその機能を搭載しています。 一方、ドラムシーケンサーには、ユーザーにリズムのインスピレーションを与えるために、この技術を取り入れ始めています。
なぜ初期の頃からMIDIに興味を持ったのでしょうか? MIDI表記は、オーディオの44,000サンプル/秒に比べ、非常に合理的なデータであるため、モデルをよりシンプルに、より軽く動作させることができます。 技術が初期段階にあったとき、MIDIは明らかに出発点でした。
もちろん、MIDIのコンパクトさには限界があります。 ピッチやリズムは、音楽の全体像の一部に過ぎません。 数年前、機械学習/音楽ハッカーの間でMIDIが好まれることを取り上げたDadabotsは、「MIDIは、音楽について愛すべきものの2%に過ぎません。 MerzbowをMIDIとして使用することはできません。 同様にブラックメタルレコードの雰囲気も。 Jimi Hendrixのギター音色も、Coltraneのサックス音色も、MC Rideの音色も無理です。 純粋なMIDIは、代役でしかないのです」
AI技術が洗練され、プロセッサーの能力が高くなるにつれて、ミュージシャンが未加工オーディオを直接扱えるツールが登場してきています。 では、MIDIを使ったAIツールはすでに過去のものなのでしょうか?
おそらくそうではありません。 現代ミュージシャンの多くは、MIDIやその他の“記号的”音楽言語に依存しています。 電子音楽家は、シーケンサーにリズムを打ち込み、ピアノロールにノートを描き、音楽理論の伝統に基づいた技術(キーやモードなど)を駆使しています。 AI はこれについて多くのことを提供できます。 アイデアを生み出すだけでなく、MIDIを基本としたAIツールを使って、オーディオを正確に楽譜に書き起こしたり、複雑なMIDIデータ変換を行うことも可能です (例えば、リズムやメロディーをあるスタイルやジャンルから別のものに変換すること)。
“記号的音楽生成”の継続的な重要性を主張する講演の中で 、AI音楽企業QosmooのJulian Lenzは、未加工オーディオモデルはまだ音楽理論の基本を把握するのに適していない、と主張しました。 例えば、Google’のMusicLMは、何十万ものオーディオクリップで訓練された最近の生成音楽モデルですが、メジャーキーとマイナーキーを区別することが困難です。 Lenzは最後に、シンプルなタップリズムを洗練されたフルキットのドラム演奏に変える新しいQosmoプラグインを実演しました。 未加工オーディオのAIツールは、まだまだ未熟ですが、MIDIを基本としたツールからは、より早くインスピレーションを得られるかもしれません。
しかし、このようなツールは、創造性の帰属について厄介な問題を引き起こします。 AIを基本としたプラグインがメロディーを生成してくれた場合、そのメロディーを“作曲家”が生成したもの、とみなすべきでしょうか? ビートルズの曲を学習させたAIモデルを使ってメロディーを生成したらどうでしょう? メロディーは、AIを使用した作曲家のものか、AIのものか、それともビートルズの功績にすべきでしょうか?
これらの問いは、多形態のAI音楽制作に当てはまるものであり、パート2で、再び触れていきます。 MIDIを使ったメロディやリズムの生成に関しては、長い間、帰属の基準が曖昧だった、と表現することで今は十分です。 現代の電子音楽作曲家は、ノートのランダマイザー、高度なアルペジエーター、ユークリッドリズムジェネレーターなどを多用しています。 生成された素材は、スタート地点とみなされ、音楽制作者の創造的な構想にしたがって、ふるいにかけられ、編集され、配置されます。 AIツールは、すぐにより魅力的な結果をまっすぐに提供してくれるかもしれません。 しかし、人間の主観は、生成された結果が自分の創造的な構想にどのように合致するかを判断する必要があります。
音色変換:新しい音を探求
AIのような先鋭的な新技術を考えるとき、ワイルドで新しい音や質感を想像するのではないでしょうか。 MIDI では決してそこまで辿り着けません。 そのためには、オーディオの領域に目を向ける必要があります。
“ニューラルシンセシス”という新興分野でにおいて、音色変換は最も有力な技術の一つです。 簡単に言うと、音色変換とは、入力されたオーディオを別のものに聞こえるようにすることです。 声がバイオリンになり、ドアのきしみがアーメンブレイクに変換します。
どんな仕組みになっているのでしょうか? IRCAMのRAVE (“Realtime Audio Variational autoEncoder”)のような音色変換モデルは、ふたつのニューラルネットワークが連携して動作するのが特徴です。 ひとつは受信したオーディオをエンコードし、特定のパラメータ(ラウドネスやピッチなど)に従ってキャプチャします。 この記録されたデータを使って、もう一方のニューラルネットは入力の再構築(またはデコード)を試みます。
オートエンコーダが出力する音は、学習させたオーディオに依存します。 フルートの録音で学習させた場合、デコーダはフルートのような音を出力します。 ここから“音色変換”の出番です。 フルートを学習させたエンコーダに人間の声を聞かせても、まだフルートの音が出力されます。 しかしその結果に、声の輪郭とフルートの音色という奇妙な融合が生まれました。
音色変換は、すでに数々のプラグインで利用可能ですが、まだ大衆向けに発表されたものはありません。 おそらく最もアクセスしやすいのは、無料でダウンロードできるQosmoのNeutoneプラグインで、数多くのニューラルシンセシス技術をDAW上で試すことができます。 これには、RAVEや、他の音色変換方法、DDSP(Differentiable Digital Signal Processing)と呼ばれるものも含まれます。 DDSPは、エンコーダ技術と従来のシンセサイザーに搭載されていたDSPを組み合わせたようなものです。 学習させることが簡単で、入力オーディオがモノフォニックであれば、より良い音を出力することができます。
音色変換技術は、ここ数年の間に発売されている楽曲への導入が進んでいます。 初期の例で言うと、Holly Herndonのアルバム『PROTO』に収録されている“Godmother”は、パーカッシブなトラックで、プロデューサーJlinが、音色変換モデルに人間の声を学習させ、通したものです。 その結果、奇妙なディテールに満ち、粒子の粗い芸術的な、どこか薄気味の悪いビートボックス演出が生まれました。
“Godmother”は、まるで新しい音の風景を感じているような探索的な性質を持ちます。 これは、音色変換を用いて作られた音楽に共通する性質です。 『A Model Within』では、プロデューサーのScott Youngが、まさにそのような性質を持った、実験的な5曲を披露しています。 それぞれがNeutoneの異なるプリセットモデルを探求し、人間と機械間の奇妙な相互作用を表現しています。
AIツールに出会う前から、多忙な日々を送るYoungは、楽曲生成のアプローチの仕方に興味がありました。 彼が音楽制作を始めた頃に振り返ります。「1ヶ月かけて曲を作っていました。 それはとてもロマンチックでした。 でも、香港での生活では、それを続ける余裕がなかったんです。 そこで、徐々にReaktorのジェネレーターに順応していき、シーケンスを作り、それらをつなぎ合わせるようになりました」
昨年、ミュージシャンのEamesは、生成AIで物事をさらにスピードアップできると述べました。 Youngは探し求め、RAVEに出会いましたが、過去にソフトウェア工学の経験があるのにもかかわらず、動作させるのに苦戦しました。 そこで彼はNeutoneを見つけたのです。 「プリセットモデルがとても印象的だったので、さっそくこれを使って曲作りを始めました。 結果は驚くべきものでした。 出力がすごく生き生きしているんです」
AIツールをめぐる典型的な懸念は、音楽制作から創造性を奪ってしまうのではないかということです。 Youngの音色変換経験は、その逆でした。 音色変換モデルは、少なくとも今は、不安定です。 音質が不安定で、入力に対し、予測不可能な反応をします。 Youngにとって、この予測不可能性は、退屈だった音楽制作の習慣から抜け出すための道しるべとなったのです。 「制作過程では、思いもよらない偶然がもたらす幸運の可能性を重視しています。というのも、毎回何を演奏するかによって出力を予測できるものでもないからです」
いったん素材が生成されても、それを組み合わせて魅力的な楽曲に仕上げる必要があります。その作業は、かつてのジャズライブ録音を編集する作業に似ている、と彼は例えました。 「この生成的なアプローチを使うとき、人間の作り手として重要なのは、どこを切り取り、箇所をつなげて、私たちの心に響くような意味のある作品にすることを、知ることです」
Youngは、EPの中で最も奇妙な曲“Crytrumpet”で、赤ん坊の娘の泣き声を録音し、トランペットを学習させたモデルを通しています。 このような瞬間が、AI技術の妙味をうまく表しています。 しかし、プラグインにおけるAI適用の可能性は音色変換だけではありません。
3月、Steinmetzは、QosmoのAndrew Fyfeと、 the Audio ProgrammerのプラットフォームでNeural Audio Plugin Competition を共同主催しました。 この大会では、最も印象的な作品に賞金を与えることで、技術革新を促進させることを目標としていました。 「プラグイン内にニューラルネットワークを作成するというのは、まだ確立されていなかったんです」Steinmetzは言います。 「より多くの人にこの空間で働いてもらう方法がありました。なぜなら、ここではやるべきことがあり、そしてそれは本当に影響力のあるものになるはずだからです」
応募された18作品の中には、コンプレッサーなど従来のエフェクトに神経を使うものや、MIDIを使った生成的なツールを提案するものがありました。 さらに驚くべきアイデアもありました。 サウンドデザインツールVroomは、文章指示を使って単音を生成することができます。 HARDは、ふたつのトラックのハーモニーパートとリズムパート間、それぞれに対しクロスフェードを有効にできる斬新な“オーディオリミキサー”です。 全員がそれぞれのコードをオープンソース化することが求められ、Steinmetzは将来のプラグイン設計者がこの仕事を基に前進してくれることを期待しています。 彼は、“今回のトピックに関心を持つ人々のムーブメント“が始まる、と見ています。
アナログモデリング
つまり、AIは新しい音を作ることができます。 しかし、AIは古い音も作ることができ、おそらく昔に作られた音よりも優れています。 アナログモデリングは、プラグイン業界の要です。 AIがその未来を担うかもしれないと言われています。 Baby AudioのTAIP(“1971年のヨーロッパのテープマシン”を擬似的に再現)やTone EmpireのNeural Q(“有名なドイツのビンテージイコライザー”)などのプラグインは、従来のモデリング手法に代わってニューラルネットワークを基本とした手法を使用しています。
Baby Audioのウェブサイトでは、これがどのように機能するかを説明しています:
“通常のDSPエミュレーションでは、さまざまなアナログ部品の効果や相互依存関係を「推測」する必要がありますが、AI/ニューラルネットワークを使えば、テープマシンの音や動作が作る音響特性を正確に読み解くことができます。 これは、ドライオーディオと処理されたオーディオのさまざまな訓練データをアルゴリズムに与え、その違いを生み出す正確な特性を識別するように教えることで実現します。 これらの違いをAIに学習させれば、新たなオーディオに適用することができます。”
なぜ、従来のモデリング手法ではなく、AIを使うのでしょうか? その理由のひとつは、より良い結果が得られるからです。 Tone Empireは、従来の回路モデリングでは、AIを使ったアプローチほど「本物のアナログエミュレーションを生成することはできません」と主張しています。
もうひとつの理由は、速さです。 ニューラル処理によるアナログモデリングは、プラグイン会社の時間とコストを大幅に削減できる可能性があります。 つまり、低価格で高品質なアナログモデルが続々と登場する可能性があるのです。これは、新しいおもちゃで遊ぶことが好きなプロデューサーにとって、悪いことではありません。
より根本的言えば、モデリングを音楽制作者自身の手に委ねられることを意味します。 ギターの世界では、TONEXやNeural DSPのような会社を通じ、すでに現実化しています。 Neural DSPのQuad Cortexフロア型モデラーは、AIを用いたNeural Capture機能を搭載し、ギタリストは自分のアンプやペダルをモデリングすることができます。 Quad Cortexが、テストトーンをターゲットユニットに送信し、出力オーディオに基づいて、瞬時に高品質なモデルを作成するというシンプルなものです。
これはワクワクするような可能性をもたらします。 私たちの多くは、壊れた古いペダルやラックギアを持っていて、その個性的なサウンドを愛します。 もし、その場でまたさらに使えるようにモデリングができ、そのモデルを友人と共有することができたらどうでしょう。 これまで、モデリングは技術的な専門家の領域であることがほとんどでした。 ミュージシャンがモデリングを行えたらどんなことができるのかと思うと、わくわくします。
音楽技術の民主化
AI音楽制作ツールを探求する際に、これまで専門的であった技術的タスクをミュージシャンの手に委ねる、というこのテーマが繰り返し現れます。 Steinmetzにとって、アナログモデリングはディープラーニング技術を応用したひとつの例に過ぎず、面白いものではありません。 MidjourneyやStable Diffusionのようなツールが、コマンドで画像を生成する代わりに、新しいオーディオエフェクトを生成することを想像してみてください、と彼は私たちに言います。
「これを使えば、誰でもエフェクトを作ることができます。なぜなら、プログラマーでなくてもできることだからです。 Stable Diffusionで検索するのと同じように、生成的な空間で、トーンやエフェクトを検索することができます。 新しいエフェクトを発見して、それを友人と共有したり、自分の制作に使ったりすることができます。 これにより、創造性の可能性がさらに広がりますね」
先ほど、ある特定の制作作業がAIにより自動化されることで、ミュージシャンが、もっと別の領域に対し創造性を発揮できる可能性があることを説明しました。 その一つの領域は、彼らが使用している制作ツールかもしれません。 AI技術によって、誰もが自分専用の音楽制作ツールボックスを持つことができるようになるかもしれません。 おそらく、このツールボックスをできる限り創造性に満ち、個性的なものにすることが、今日のEQやコンプレッションのあり方のように重要になるのでしょう。
Steinmetzは、「プログラマー/ミュージシャン/オーディオエンジニアのような、技術面と音楽面の両方に精通した人たちが増えていくでしょうね」と想定します。これらの人々は、利用可能なAIモデルを「壊す」創造的な方法を見つけるか、「自分たちの音楽活動へ新しい音を求め、得るために新しいモデルを構築するでしょう」と、彼はこれを、アーティストとツールとの、長年にわたる新たな反復と考えています。 「新しいシンセサイザーが登場するたびに、それをいじって自分のものにしようとアイデアを出すミュージシャンが常にいます」
また、Dryhurstは、彼とHerndonがPROTO や他のモデルを行なってきたように、アーティストが自分でカスタムモデルを構築する未来を見据えています。 「どれだけ多くのプロデューサーが、今後モデルを使いたいか、言わば独自の“機材”を構築して、特異な結果を出したいか、となる未来は、近いように感じます。 また、時がたつにつれ、モデルそのものを新たな表現手段として捉え、共有・体験することができるようになるのではないでしょうか。 アーティスト・モデルとの交流が、アルバムや他の伝統的なフォーマットとの交流と同じくらい一般的なものになるかもしれません。そこが、非常に面白く、斬新なところだと思います。 私たちはまだ、この可能性の表面をかすっただけに過ぎないのです」
文章: Angus Finlayson
画像: Giacomo Moroso