どーもー!AIエンジニアのまっくす(@minux302)
みなさんは、今密かにAIによるイラスト生成にちょっとした革命が起き、(個人的な感覚ですが)ブームになっているのをご存知でしょうか?
Twitter で "clip guided diffusion" と検索してください。文章とともにイラストが添付されているツイートを多く見かけます。なんとこれ、入力した文章をもとにAIによって生成された画像なのです。
どうでしょうか?文章から絵を描くAIは少し前にも OpenAI の DALL-E が流行りましたがぐっとクオリティが上がっているように感じます。
文章からイラストを描くAI が加速したきっかけとした VQGAN + CLIP の登場が有ります。これは画像生成AIであるVQGANとテキストと画像データを紐付けるAIであるCLIPを組み合わせたものになります。
VQGAN + CLIP についての経緯や大まかな仕組みはこちらの記事が参考になります。
このモデルの亜種でとして、生成モデルのGuided Diffusion と CLIP を組み合わせたものが上記の "clip guided diffusion"になります。
先程添付したような Clip Guided Diffusion と全く同じものというわけではありませんが、CLIP Guided Diffusion を下記のサイトから簡単に試すことができます。
いくつか簡単に試した例
最初に添付したもの高解像度のものが出力されてはいませんが、文章の意味は汲み取ろうとしてくれていますね!
コードを公開してくださっている方などもおり、そちらの方はもっと高解像度のものも生成できたりするようなので自分で動かしてみるのも良さそうですね!例えば説明に出てきたVQGANも Google Colabolatory を使えば簡単に試すことができます。
https://note.com/sangmin/n/n5be7e2be5446
この分野は盛り上がりをみせているので期待大ですね!また面白いものが登場すれば紹介するかもしれません。それではまたー