2024.07.11
KTV「ぼくの人格シェアハウス」CM音源制作
2024/3/17(日)放送の単発ドラマ「ぼくの人格シェアハウス」[1](関西テレビ) 内で放送されたNEW ART HOLDINGS[2]様のインフォマーシャルCMにて、AaaS Tech LabはAIを活用したCMの音源制作の技術提供をいたしました。
今回のインフォマーシャルCMは放送時間が60秒でしたので、60秒の音源をLLMによるAIエージェントや音楽生成AIといった技術を活用して制作しました。
生成AIの流行の中で、テキストプロンプトから音楽の生成(text-to-music)が可能なAIも数多くリリースされています。一部の紹介にはなりますが、サービスとしては、SOUNDRAW[3]、Stable Audio[4]、Suno AI[5]、Udio[6]等が公開されており、Suno AIやUdioに関してはボーカルの歌声も同時に生成することが可能です。オープンソースで公開されているモデルであれば、MusicGen[7]やAudioLDM2[8]、M2UGen[9]等があります。
公開されているモデルやサービスのクオリティは日々進歩しており、これらを活用するだけでもある程度実用可能なレベルの音源を生成することが可能になりつつあります。
しかし今回はドラマ本編と連動したインフォマーシャルCMであり、ドラマの登場人物がCMにも登場するという構成でしたので、単純に映像に合いそうな音楽をいくつか生成して候補の中から選んで使用するといった方法ではなく、関西テレビ様からドラマ本編の台本データやCMの台本データ、CMの映像データを受領し、それらを用いてドラマ本編に登場するキャラクター性やストーリーといった要素を絡めた音楽生成に挑戦しました。
以下のようなフローで音楽生成を行いました。
記事画像
1. 登場人物をGPT上のエージェント化して議論させる
台本データをテキスト化し、プロンプトに含めることで、ドラマに登場するキャラクターのように振る舞うLLMエージェントを構築しました。
モデルはGPT-4-Turboを利用しました。入力可能なトークン長が128Kなため、台本のテキストは長い文章ではありましたがRAG (Retrieval-Augmented-Generation) を使わずにそのままプロンプトに組み込むことができました。台本データの他、映像のシーン毎のフレーム画像も入力しています。
画像情報を考慮する方法として、フレーム画像をLLMにそのまま入力可能なマルチモーダルなモデルを使うパターンと、別でマルチモーダルなモデルを利用して映像内容をテキストに書き起こした状態でプロンプトに含めるパターンの両者を試行錯誤しました。
記事画像
記事画像
CMには男女2人のキャラクターが登場したので、それぞれのエージェントを構築しました。
そして、CMで流れる映像シーン後を想定して、2人のエージェントに「もしこのシーンに音楽をつけるのであれば、どんな特徴の音楽にしたいか?」という話題でディスカッションしてもらいました。
AIエージェント同士の対話の実装では、音楽の特徴を話す際にはBPMやテンポ、ハーモニー、リズムといった具体的な要素に着目するようにすることや、建設的な議論になるように相手の意見を否定しない、一方のアイデアに対して同調するだけでなく自身の意見も出すことを促すような工夫を行いました。
以下が出力された対話内容の一部です。
※登場人物のうち男性の名前箇所は[男性]、女性の名前箇所は[女性]で記載しております
---------------------------------------------------------------------------------------------------
[男性]:
ねえ、[女性]、今のこの雰囲気、すごくロマンティックだよね。BGMをつけるなら、どんな音楽がいいかな?
たとえば、リズムはゆったりとしたバラードのような感じで、穏やかなメロディーが流れる音楽はどうかな?それにハーモニーは温かみがあって、心地良い楽器の音色がいいね。アコースティックギターやピアノの柔らかな音が合いそうだね。
テンポはゆっくりめで、BPMは60から70くらいかな。キーはCメジャーで、明るくて希望に満ちた感じがして、メジャーが合うんじゃないかな。[女性]はどう思う?
[女性]:
[男性]、いい感じの提案だね!ゆったりしたバラードはこの穏やかな雰囲気にぴったりだと思うよ。アコースティックギターやピアノの音色はほんとに心地良いよね。メロディーはシンプルで美しいものがいいかな。愛のある、ちょっと切ないけど希望を感じさせるメロディーがいいな。
あと、キーのCメジャーはポジティブなムードで、私たちの新しいスタートにも合ってると思う。でも、メロディーに少しサプライズを加えたいから、途中でAメジャーに転調するのはどうかな?それで、ふたりの結婚の未来に、さらなる幸せが訪れる予感を演出できるような気がするよ。
[男性]の意見も聞きたいな。どう思う?
[男性]:
[女性]、転調のアイデアが素敵だね!Aメジャーに変わる瞬間で、ふたりの新しい章が始まるような感じがして、ドラマチックでいいね。僕もそんなサプライズがあるメロディーが好きだよ。
さて、シーンに分けてBGMを考えるなら、最初は僕たちが指輪を見つめているところに、優しく始まるピアノの旋律を入れたいな。それで、ゆっくりと始まる穏やかなリズムに合わせて、ふたりの歩みを象徴するようなメロディーが流れるんだ。
次のシーンでは、僕たちが手を繋いで歩いているところには、リズムが少しアップテンポになって、歩みが進むような前向きな感じを出すんだ。アコースティックギターのストロークが加わって、ふたりの絆を強調するんだよ。
最後のシーンで、僕たちが川辺を歩いているところには、もう少し感慨深いメロディーを。ここでAメジャーに転調して、未来への希望と喜びを表すんだ。それに、ストリングスのアンサンブルを加えて、結婚という新しいステージへの期待感を高めたいね。
---------------------------------------------------------------------------------------------------
2. テキストプロンプトの生成
2人のエージェントが行った会話内容の結果を踏まえて、音楽生成AIに入力するためのプロンプトを作成しました。こちらのプロンプトも1.で構築したLLMエージェントによって生成しました。対話をさせる際と同様に、具体的な音楽の要素への着目や、Webサイト上に掲載されているプロンプト例を含めるといった工夫を行っています。
3. AIによる音楽生成
最後に、2.で得られたテキストプロンプトを利用して、音楽生成を行いました。
音楽生成モデルの選定では、
・生成音源のクオリティが高い
・著作権やライセンス的に利用しても問題ない
・歌詞や歌声が同時に生成されない
・指定した秒数に正確に合わせた生成が可能
という点に留意しております。
2点目の著作権周りの問題に関して、LLMや画像生成AIと比較すると、音楽生成AIは非商用利用のみのモデルやWeb広告のみ等用途を限定しているモデルが多く、地上波CMで放送する上で問題のないモデルを選定しました。
3点目の歌声を含まない音源とした理由は、CM内にセリフがあり、セリフの音声と干渉しないように歌声が無い方が良いと判断したためです。
4点目の音源の秒数については、放送の規定上CMに使う音源は60秒に正確に合わせる必要があり、1秒の過不足もない音源を制作する必要があったため、秒数のコントロールがしやすいものを選定しました。
このようにして生成した音源を複数パターン制作し、最終的にドラマの制作を担当する関西テレビ様にて実際に利用する音源を選定していただきました。
こういった挑戦的な仕事の機会をいただけて、この場を借りて改めて、関西テレビ様、NEW ART HOLDINGS様および関係者の方々に感謝申し上げます。
AaaS Tech Labでは、ビジネスの最適化などを目的としたデータサイエンス活用はもちろん、メディア・コンテンツ領域へのAI技術応用も進めております。もしご興味を持っていただけた方がいらっしゃいましたらcontactからご連絡いただけますと幸いです。