本記事はキミコエ アドベントカレンダーの4日目の記事です。
最初に念のため意思表明をしておきます。
AI画像生成については、私自身は肯定的に捉えています。
しかし、世間の声としては主に「イラストレーターや写真家が学習を許可していない画像を勝手に利用されているのは望ましくない」というような理由で忌避されている傾向にあるため、学習及び生成が公開するに相応しいものであるかかなり慎重に判断して掲載しております。
特に今回の実験は特に著作物との類似性が高いものを取り扱っているため、権利者様からの指摘があれば即座に対応します。
前置きはこれぐらいにして、今回の肝は「キミコエをまるっと全フレーム学習して、AIアートへの応用を試みる」というものです。
前回は、既存モデルを利用して、キミコエキャラの特徴からイラストを生成することを試みました。
機械任せでキミコエのファンアートを描いてみる ~Stable Diffusion, NovelAI~
第1段階 冒頭パート全フレーム学習
一発でなぎさを生成!
まず、すごいものをお見せします。
キミコエ本編の冒頭約10分の全フレーム (約2万フレーム) を学習させて得られたAI画像です。
AI画像 | |
---|---|
これらをキミコエの実際のコマと比較してみましょう。
引用画像 | 引用元 |
---|---|
0:03:10 (5721フレーム目) | |
0:03:45 (6771フレーム目) | |
0:09:38 (17341フレーム目) | |
0:09:46 (17601フレーム目) |
目視で「一番似てそう」というコマを並べてみましたが、全く同じようなものは生成されていません。
学習モデルからAI画像を作る際に「類似性」が気になるところではありますが、ご覧くださったように「絵柄」は相当似てきます。しかし、大量に学習した際に「ポーズ」や「構図」が似ることはかなりレアケースであるように思います。
なお、AI学習にはStable Diffusionの「LoRA」という仕組みを用いています。
この「最初の4枚」がこんなにハイクオリティーで出てくることは想定外でしたが、事前準備のために数日間デスクトップPCを稼働させ続けたので、それに見合う以上の出力が得られたのは本当に感動しました。
合成キャラを生成できた!
さらにすごいものをお見せします。
プロンプト | AI画像 |
---|---|
2023-09-20モデルのAI |
これは冒頭部ならばと試しに入れてみた、なぎさ、かえで、雫の日ノ坂高校トリオをまぜこぜにしてみた合成キャラです。なぎさの大人しい表情、かえでのショートヘアー、雫の眼鏡等々、三人の特徴が少しずつ反映されているのではないかと思います。(ちなみに三本眉はうまく再現されないことが多いです。)
このように、AI学習で画風はそのままとはいえオリジナルの絵を描くことができるところまで行くことができました。
第2段階 全フレーム学習
なぎさと紫音ではないラジオ収録現場
AI画像 | |
---|---|
2023-09-22モデルのAI |
これも合成キャラと同じような生成方法で作りました。
なんとなくなぎさと紫音っぽく見えるのですが、「キミコエっぽいけどキミコエには全く存在しない」という絵になっていますね。
強いて言えばキミコエ本編31分〜33分あたりが似ていて、たしかに構図が一緒にも見えますがそのあたりをどこまで厳しく判定するかという問題にもなってきそうです。
引用画像 | 引用元 |
---|---|
0:31:50 (57301フレーム目) | |
0:31:55 (57451フレーム目) | |
0:33:07 (59611フレーム目) |
ここで違うところは、先ほどは数日間かけて2万フレームを学習させましたが、今回は十日間以上かけて17万フレームを学習させたLoRAを用いています。
(県外に出かけている間、家でずっとPCを回していました。)
各フレームに手動タグ付けをしたものの学習を考えていましたが、まずは自動タグ付けで学習しました。
そのため、「nagisa」や「shion」などの名前は覚えず「glasses, brown eyes, green hair, shirt, …」などの推定タグを組み合わせて再現しています。
なぎさ+紫音=朱音さん!?
今度も合成キャラの路線で行ってみます。
プロンプト | AI画像 |
---|---|
2023-10-18モデルのAI |
なぎさと紫音をまぜこぜにしてみた、紫音似だけど顔立ちがちょっと違うオリジナルキャラが出てきました。
AI画像 | |
---|---|
2023-10-18モデルのAI (Steps: 25) | |
2023-10-18モデルのAI (Steps: 21) |
呪文を調整してみたら、キミコエと別作品っぽい画風になりつつも、なぎさでも紫音でもない大人っぽい女性が出てきました。
元々AIアートのモチベーションとして朱音さんを描くことが大きかったのですが、これ朱音さんでは!
第3段階 ベースモデル変更
キミコエキャラを別画風で
プロンプト | AI画像 |
---|---|
1girl, solo, brown hair, microphone, brown eyes, long hair, headphones, shirt, anime coloring, bangs, indoors, parody, blunt bangs, blush, parted lips <kimikoe-2023-10-18-1:0.7> | |
1girl, solo, brown hair, brown eyes, long hair, upper body <kimikoe-2023-10-18-1:0.7> | |
a girl in a white lab coat and tie standing in a room with a nurse in the background and a girl in a white lab coat and tie 1girl, solo, brown hair, brown eyes, long hair, upper body <kimikoe-2023-10-18-1:0.7> |
ここまでベースモデル(チェックポイント)がSD 1.5のまま使ってたので、綺麗さがキミコエLoRA頼りになっていたのですが、LoRAと相性がよくて権利的に大丈夫め(?)なAnyLoRAをベースにしてみました。
こうしたことでむしろ本家の真似になりすぎず安定した綺麗さを出せるようになった気がします。
絵柄がまんますぎると問題になりやすいですし、かなり似せられるからこそ「あえて似過ぎさせない」という選択を柔軟に取りやすくなるかと思います。
第4段階 あえて「真似」をする
さっきは真似をしすぎないことを実践してみましたが、また別の二次創作としてオマージュ的な画像を作る実践をしてみます。
いわゆる「ミーム画像」の二次創作は言ってみれば「構図のパクリ」なので、ものによっては権利上の問題が発生しうるところです。
しかしここは同人誌で二次創作を作るのと同じで、良心に基づいて使わせてもらうということにします。
404リュックサックなぎさ
これは最近だとあまり伝わらないかもしれませんが、ドメインが切れたサイトにいつも現れるリュックサックの女性として一時有名だった「404姉さん」(404ねーちゃん、ドメインガールなどとも)
元画像 | AI画像 |
---|---|
画像配布元: 魅力的なスチューデント | 2023-10-18モデルのAI |
ポーズが完全再現されていてかなりうまくいきました。(耳とか指とかが若干破綻しているのはご愛嬌。)
技術的にはStable Diffusionで一緒に使える「ControlNet」という機能を用います。
ControlNetの細部機能は一般的には「Canny」あるいは「OpenPose」あたりがよく使われるのですが、今回は「Depth」がいい感じでした。
(あるいはたまたま条件が重なっていい結果を生んだのかもしれません。)
いいですか、落ち着いて聞いてください
元画像 | AI画像 |
---|---|
画像引用: 『MGSV』のネットミーム「良いですか落ち着いて聞いてください」が急速に拡散中。小島秀夫監督もSNSで反応し有名になった冒頭シーンを解説 | プロンプト: 2023-10-18モデルのAI |
これもちょっと前に大流行したミーム画像です。この構図で数多くの二次創作イラストが作られ、さまざまなジャンルでネタ投稿がバズっていました。
さっきの「404リュックサックなぎさ」と違ってポーズよりも構図がポイントとなります。
おそらく制服に引っ張られすぎて病院ではなく学校っぽくなってしまったり、特に難しいのは2人以上の人物が逆転する(場所などで人物指定が難しい)のですが、実用としては予め部分ごとに生成すれば思い通りの出来になるのではないかと踏んでいます。
ちなみにこれも、あやめと乙葉そっくりにすることもできたかもしれませんが、条件よく似させやすくするために「キミコエ度を下げる」という手段を取りました。
キミコエ度が下がった例として、たまたまなのですが、特に「〇〇さん(イラストレーター)に似せて!」など命令せずとも画風がマイルドになったものもあります。
AI画像 | |
---|---|
2023-09-20モデルのAI | |
2023-09-20モデルのAI | |
2023-09-20モデルのAI |
ちなみに、本記事では基本的にうまくいった例を掲載していますが、AI画像生成が「ガチャ」と呼ばれるように、何十枚何百枚の画像を生成していい感じのものを選ぶので、けっこう忍耐が要るものです。
まとめ
「アニメ映画を全フレーム学習する」という試みは、意外と誰も実践したことのない盲点だったかもしれず、新規性があるのではと思っています。
画像生成に多少工夫は要るので汎用性はまだ少ないのが玉に瑕ですが、1ヶ月〜2ヶ月ほど頑張ってここまで来れたので、ここからのAI画像生成の進歩と足並みを揃えれば来年はさらにすごいものをお見せできるかと思います。
キミコエは描き下ろしイラスト等々はあるものの、映画『きみの声をとどけたい』それこそが全て、というところがあるので、この全フレーム学習が大きな礎です。
モデルは悪用されることなどを懸念して現時点では公開する意向がありませんが、ご要望が一定数あった上で問題がなさそうであれば無償配布することも検討いたします。
おまけ
学習一歩目で出したなんかいい例とちょっとひどい例です。
AI画像 | |
---|---|