メインコンテンツまでスキップ

「Z-Image」タグの記事が2件件あります

全てのタグを見る

Z-Image-TurboのLora作ったからQwen-Imageと比較するぞ

· 約4分
もみじーな
個人開発者

Z-Image-TurboのLoraを作りましたのでQwen-Imageと比較したいと思います。

今回は1920x1088の20ステップでのそれぞれの比較とします。

プロンプトはGemini 3.0 Pro生成です。

Z-Image-TurboのLoraの作成方法

一応、書いておきます。

今回,Lora作成にはQwen-Imageと同じくai-toolkitを使用しています。

https://github.com/ostris/ai-toolkit

RTX50シリーズだと以下で動きます。
RTX5090で今回もZ-Image専用で再インストールしているので問題ないです。

git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit
python -m venv venv
.\venv\Scripts\activate
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
pip install -r requirements.txt

トリガーワードとかは特に今回はなしです。

一応、全体的な設定はこんな感じです(クリック拡大できるようにしときます)

Lora作成時間は1時間ちょうどくらいでしたね。

比較するぞ

プロンプト1

プロンプト1は以下です。

見渡す限りのひまわり畑の中に佇む美少女。風になびく長い髪、背景には夏の巨大な入道雲と透き通るような青空。繊細な光の表現と鮮やかな色彩。キラキラとした瞳、ドラマチックな構図、幻想的な夏の思い出。

Qwen-Image

Z-Image

プロンプト2

プロンプト2は以下です。

幻想的な水族館。巨大なアクリルパネルの大水槽の前に佇む美少女。深い青とエメラルドグリーンの光が彼女を照らし、水槽の中ではジンベエザメやマンタ、色鮮やかな魚の群れが渦を巻いて泳いでいる。水面から差し込む光の柱(チンダル現象)と、キラキラと輝く無数の泡。少女は感動して水槽を見上げている。繊細で透明感のある背景美術、ドラマチックな構図、鮮烈な色彩。圧倒的な没入感。見渡す限りのひまわり畑の中に佇む美少女。風になびく長い髪、背景には夏の巨大な入道雲と透き通るような青空。繊細な光の表現と鮮やかな色彩。キラキラとした瞳、ドラマチックな構図、幻想的な夏の思い出。

Qwen-Image

Z-Image

プロンプト3

プロンプト3は以下です。

神聖で幻想的な夜の神社。無限に続く赤い鳥居のトンネル。宙に浮く無数の狐火(きつねび)や灯籠の温かいオレンジ色の光。豪華な着物を着た銀髪の美少女が、振り返っている。周囲には蛍が舞い、森の木々が静かに見守っている。神秘的で静寂な雰囲気、魔法のような光の演出、高精細な描写。

Qwen-Image

Z-Image

プロンプト4

プロンプト4は以下です。

春、緑に覆われた古い廃線跡(鉄道のレール)。トンネルの出口付近で、満開の桜がアーチのように咲き誇っている。制服を着た少女が枕木の上をバランスを取りながら歩いている。舞い散る花びら、木漏れ日、錆びた鉄と新緑のコントラスト。ノスタルジックで爽やかな空気感。

Qwen-Image

Z-Image

結論

Lora使えばあんまりかわらなそう?
一応、最後に生成に使った画面をそれぞれ張っておきますが速度が圧倒的にZ-Imageは速いです50秒と18秒で同じそうならZ-Image一択ですかね。
4stepにすれば速度はさらに早いです。
この流れだとZ-Image-Turbo-Editもくるのかな?

Z-ImageをRTX5090で動かしてみたが生成速度はよさげ

· 約3分
もみじーな
個人開発者

Z-Imageがでて数日たちますが一応テストしてみました。

フローはComfyUIの公式からダウンロードしてます。

ステップ数による生成速度と画像の差

解像度はデフォルトだと2048x2048ですがフルHDが私の場合は欲しいの1920x1088にしてます。

相変わらず幅は1088になるんですね。

プロンプトは日本語でシンプルにしてます。

東京タワーが見える公園

ステップ数による生成速度ですが画像を見てもらったら生成時間が一応、書いてます(左上から4step)
生成速度はいいのですがZ-Imageの実写風景がブラーがかかっているというか全体的にそもそもの画像が変じゃないですか?
気のせいなんですかね・・・

4stepでの画像と生成速度

4stepの1920x1088で4.1秒です。

8stepでの画像と生成速度

8stepの1920x1088で7.6秒です。

20stepでの画像と生成速度

20stepの1920x1088で18.7秒です。
差は正直わからないですね。

実写人物の生成テスト

なんか違和感があったのでテストです。
20ステップです(以降も20ステップとします)

男性が学校で授業の講師をしている

ふむ、まぁ少し画像が汚い感じもしますが普通ですかね。
ここでいい点ですがStableDiffusionとかでこの感じの絵を出すと机が逆になったりします。
ここはさすがですね。

一応,4stepでの画像です。 黒板が一体どうなっているのか謎ですがあまり変わらないです。

アニメスタイルの生成テスト(Loraなし)

デフォルトのアニメスタイルでのテストです。

アニメスタイル,男性が学校で授業の講師をしている

まぁQwen-Imageの時と似た感じですね

NSFWはできるのか

Z-ImageでのNSFWですがアップロードできないのであれですが出力はできます。
ただ出力は少しやっぱ不安定?
Qwen-Imageとかと同じで普通に出すと大切な部分は布で隠れますが実は以下の文字とか入れると・・・

別世界の男性

これは例で他にもたくさんありますが別世界のとか異世界のとかいれるとなぜか出ますね。
出力は不安定です。

Z-Imageの感想と結論

Qwen-Imageよりだいぶ軽量なのでどうなのかと思いましたが普通でした。
4stepも20stepもQwen-Imageと違ってあんまり差を感じない気がします。
Lora作ってみて比較してから今後、使うかは考えたいですね。
生成速度は最高ですね。