定性評価では、NeRF Artと比較が行われています。NeRF Artの場合、テキスト入力が具体的な指示ではなく、モデルが何を編集すべきかについての曖昧さが存在します。例えば、「Vincent van Gogh」の例では、モデルがゴッホのスタイルで絵を描くべきか、それとも顔をゴッホのように見せるべきかが不明確です。プロンプトの明確性は非常に重要であり、編集者の好みや意図を明確に反映させる必要があるようです。
1番上がオリジナルのNeRFで、2番目は「Make it Old Delhi.」でインド風に編集したNeRF、3番目は「Make it a neon city.」でネオン風に編集したNeRFとなります。新規の視点から見た動画においても非常高く一貫性を保ちながら編集できていることがわかります。
NG例も紹介します。「Make vending machine's background look like the Namibian desert」というプロンプトを用いて、自動販売機があたかも砂漠の上にあるかのような画像生成を試みました。しかし、Image CFG weightを1.7に変更しても元画像とは大きく乖離することとなりました。
以上がInstruct-NeRF2NeRFの紹介と実際に触ってみた結果でした。
これらの実験はNVIDIA T4 x 1 (16GB)で実行し、学習時間はNeRFで約30分、Instruct-NeRF2NeRFで3,4時間でした。
今回の検証を通して、Instruct-NeRF2NeRFはまだまだ改善点はあるもののメディアコンテンツ開発において使える技術の1つであることが確認できました。一方で編集能力はInstructPix2Pixに依存している部分もあり、今後もNeRF x 編集の技術の進化に注目していきたいと思います。Apple Vision ProのようなVRゴーグルがあれば、NeRFをテキストで編集した異世界な3D空間に没入するような体験ができる日もくるかもしれません。