Stable DiffusionやChatGPTにハマっています
このブログを更新しなくなって日が経ちました。
仕事が忙しいというのもあるのですが、こういった技術で遊ぶのが楽しすぎました。
Stable Diffusionはここ2ヶ月くらいでかなり遊び倒しました。
家にあるのがGeforce RTX 1070なので、最新のGPUに比べると性能が低いのですが、8GB VRAMなのでまあまあ遊べます。PCを買い替えようかなと思うのですが、確定申告でお金を結構取られたのでしばらく買い控えたい。
Stable Diffusionでは最初は自社キャラクターの生成を試していたのですが、女キャラクター or 女性を生成する日々になってしまいました。
どのサイトを見ても大抵かわいい女性の出力の仕方やら版権キャラの生成の仕方のノウハウばかりが更新されていくので、まあ大体みんなそんなものだと思います。
Stable Diffusion で触ったのは主に以下のツールです。
- Stable Diffusion Web UI
- マージモデル
- Lora
- Control Net
Stable Diffusion Web UIが本当に神ツールで、知識がなくても英語が苦手じゃなければ簡単に使え、とても多機能なツールです。
Stable Diffusion WebUIに色んな拡張機能やモデルをインストールしていけば大抵のことは試すことができます。
今日はWebUIをポチポチさわるのに嫌気がさしたので、Stable Diffusion Web UIが持つWebAPIを叩くツールを作っていました。
あまり自動化に関するノウハウが共有されていない気がするので、記事を書いたら需要あるんじゃないかな、と思いつつもいつ書くのやら。
せっかく画像を色々作ったので、pixivとかに投稿しようかなと思いつつも、やはり質の高いものにするには自動生成されたものをそのまま置くのではなく、一加工する必要がある気がしていて、どうしたものかなと思っています。
そもそも8GB VRAMだとそんな大きなものが作れないし、HighRes Fixで高解像度化しようとしても上手くいかないことが多いのでどうしたものかなと思っています。
良いGPUが欲しい・・・
必要な時間だけ、GCPやAWSのGPUを借りれればいいのですが、いろいろ調査した結果、クラウドサービスで短時間利用する場合、モデルやLoraをどう保存するかが悩ましいことがわかりました。ネットワークストレージに置いて実行時にそのマシンに毎回転送する必要があって、それを毎回やるのはとてもかったるい、やはり良いマシンを買う必要がありそうなのですがボーナスが・・夏のボーナスが遠い。投資資金を引き出せばいいのですが、今が底な雰囲気があるので今資金を動かしたくはないですね。
テキスト系のAIはChatGPT、BingAIを主に触っています。LangChainというフレームワークを使って便利なツールを作れないかなと試行錯誤していますが、まだそれっぽいのが作れず。
こちらでもM2 Macが家にあればAlpacaをマシン上で動かしたいのですが、それほどのマシンはないのであきらめています。まあ、こちらはChatGPT-4の出来で十分満足しているので、そんなに不満はないです。
プロンプトエンジニアリングが話題ですが、あまり複雑なことを聞くつもりがないので今のところあまり要はないですね。
https://github.com/f/awesome-chatgpt-prompts
awesome ChatGPTというレポジトリを見ても専門家のように振る舞ってもらうことは有効なようなので、PCで入力する場合は毎回AIにその専門家になってもらっています。スマホだと打つのが面倒くさいのでそのままです。
テキスト系AIは進化のスピードもさることながら人間の「意識」と呼ばれているものが、実際はそんなに大したものじゃなさそうだと思えるようになったのが興味深いです。
意識というのは科学では捉え切れない霊的な感覚のように思っていたのですが、意識というのはやはり高度ではってもパターン認識にすぎないのではないかとあらためて思えてきました。
じゃあ今いる"私"とは何なのかというのはありますが。
今週末にはMicrosoftのSemantic Kernelを試してみたいなと考えています。