次に、少し技術的な概要に触れます。
Text to Imageとは、その名の通り、Text(文章や単語)をInputとし、Image(画像)を生成する技術を指します。
最近では、DALL-E
[1]や DALL-E 2
[2]、Imagen
[3]などの技術が発表され、生成される画像の品質や多様性の高さから大きな注目を浴びているかと思います。
こういったText to Image系の技術が飛躍的に発展している裏には、CLIP
[4]という画像とテキストの対応関係を学習できる技術や、Diffusion Model
[5]という生成モデルが提案されてきたという流れがあります。
ここでは理論的な解説は省きますが、SonyによるYouTubeチャンネル
[6]にて、上述の技術などに関する解説動画がアップされていますので、ご興味のある方はご覧になっていただくと理解が進むかもしれません。
では、今回生成した映像ではどういったテキストをInputするなどしたのかをお話しします。
例として、Labメンバー 青山
[7]の映像について考えます
青山からは、「A music on the programmatic world echoes through the air.」という文章をもらいました。
まず私は、この文章を「音楽」「テクノロジー/SF的な都市」「空気の流れ」という形で要素分解しました。
そして、青山の元文章をそのままInputするのではなく、下記のような4つの文章としてモデルに与えました。
Music made by the breath of God.
Electrons are drifting through the world.
The music score generated by brain machine.
James Gurney, Science-Fiction, matte painting, Cyberpunk, Pablo Ruiz Picasso.
実験する中での気づきを少し書いておきます。
「空気の流れ」といったものは、Airなどで表現するよりもWindやBreathなど空気の動きを感じられる単語にした方がグラフィックに流動性が生まれる気がしました。
また、4つ目の文章では、「James Gurney, Science-Fiction, …」といった文言が含まれますが、CLIPなどを使う場合、具体的なアーティスト名やSF的な単語をInputするとガラッと生成結果の画風が変化する場合があります。今回はSF感の表現のために4つ目のようなテキストをInputしました。
こういった工夫により、ある程度はそれらしいグラフィックが生成できますが、なかなかInputするTextだけを変化させても、意図したグラフィックとはならないケースもあります。今回は少し細部にまで踏み込んで映像を生成したかったので、下記のような画像をTextと一緒に活用しました。
Diffusion Modelは、ノイズ画像のようなものから多段階的にノイズを除去するイメージで画像を生成します。このとき初期段階のノイズ画像として、何らかの画像にノイズを加えたもの与え、そこからノイズ除去を行うと元画像に似た画像の生成が可能です。また、比較的強いノイズを画像に加えた状態からノイズ除去を行っていくと、色味などの大まかな特徴は保ちつつ、細部などはまったく異なる画像を生成することも可能です。
今回は、上記のような都市の上に楽譜を載せた画像を使用し、色味や五線譜などは保ちつつ、元画像とは異なる雰囲気のグラフィックが生成されるように調整しました。楽譜を載せたのは「音楽」を表現する為であり、背景が都市になっているのは色味や複雑性がサイバー感の表現にちょうど良さそうだと思ったからです。
こういった工夫の結果、実際に生成された静止画は下記です。
Inputに使用した楽譜の五線譜が自然と溶け込み、色味も青みがかったネオンっぽさが残っています。また、「Breath」を表現したと思われる流動的な線や、「the music score generated by brain machine.」に対応するような脳が五線譜と混じり合った表現も確認できるかと思います。
こうして、青山の趣味/嗜好を表現した静止画までは生成できました。
最後に映像として動かす部分ですが、こちらも画像をInputとして活用する部分と似た処理で実現可能です。
Diffusion Modelにおいて、ある程度までノイズ除去した画像を、少し右にズラします。そして、少し右にずらした状態からノイズ除去を再開します。すると、最終的に生成される画像も、元々生成されるはずだった画像と比較して、少し右にズレます。これを繰り返し、徐々に右にズラしながら画像を生成、映像としてつなぎ合わせると、徐々に右へとスクロールする映像が得られます。こうして、青山の映像は制作されました。
ちなみにですが、こういったズラしたりする処理は、深度推定系のアプローチと組み合わせることで、3次元方向に回転させたりも可能です。なので、例えば、ある物体を中心にその周りを3次元的に一周するような映像も制作できるかもしれません。
今回は、Text to Imageを活用して、AaaS Tech Labのmemberページ エフェクトを作成したお話でした。使用したモデルがDALL-E 2などのようなものではないので、人や物体などを崩れることなく鮮明に生成するというのは断念したのですが、AIらしい(少なくとも私では描けないような)一風変わったグラフィックが生成できたのではないかと思います。
(私としては、だいぶ前にDALL-E 2のWait listに登録したので、早く使ってみたいなと待ち遠しい今日この頃です…。)
こういった形で、AaaS Tech Labでは、ビジネスの最適化などを目的としたデータサイエンス活用はもちろん、メディア・コンテンツ領域へのAI技術応用も進めております。
もしご興味を持っていただけた方がいらっしゃいましたら、worksをご覧いただいたり、contactからご連絡いただけたりしますと幸いです。
AaaS Tech Lab 小山田圭佑