メインコンテンツまでスキップ

OpenManusはあれからどうなったのか?

· 約3分
もみじーな
個人開発者

2025年3月 ほぼAGIとしてManusが登場して話題になりその代替として公式からオープンソースとして登場したOpenManusですがこの前、久しぶりに見てみると完全に更新がとまっていました・・・

3月か4月に試して良さそうだと期待してWebUI等の更新を待ってましたしコミュニティからの要望もたくさんあったかと思います。

ですが既にOpenManus君はIsuuesが上があがれどほとんどが自動クローズされプルリクエストはほとんどが放置され(めちゃくちゃすごいWebUIを出している人もいました)

そして現在、アクティビティはほとんどがBOTの自動更新を占めています。

さらには既に公式通りにインストールしてもrequirements.txtの中身が完全にあってない為、そのままインストールすらできません。

さらにdaytonaの設定しないと10月時点で初期インストールでは使えなくっていました。

しょうがないのでフォークしてデイトナの無効化とrequirementsの要件を変更してなんとか3月,4月の段階と同じ動作するようになりましたがもうOpenManusへの期待は完全に消えてしまいました・・・

WebUIもつけてみましたがもっと機能と使いやすさを強化しないとCopilotのAgentモードに圧倒的に負けます。

たしかに既にウェブリサーチしたければディープリサーチとか使ってまとめた後にAIになげればいいので3月と状況が変わってきているのも事実なのでこれからはVS CodeのAIエージョント機能の進化に期待してます。

VSCodeのエージェントは既にOllama等のモデルが使えるのでローカルだけで完結できてかなり便利です。

フォークした分のコードとかは以下です(GradioでWebUIを作成してみてます)
OpenManus-WebUI

git clone https://github.com/momijiina/OpenManus-WebUI.git

以下でWebUIは起動です・・・

python webui.py

これ以上の編集は恐らくはもうしないです・・・

課金版ManusのほうはManus1.5になりとても進化してて良かったのですが物凄い勢いでクレジットがなくなったのとCopilotになれると別にいいかなとなりました。

HPの紙図面のトレースAIはかなりすごい

· 約2分
もみじーな
個人開発者

紙図面のトレースAIがHP Build Workspaceからでました。

正確には海外では去年くらいからあったみたいですが日本で使えなかったのでノータッチだったのですが ついに日本にやってきました。

たまたま大判プリンターのニュースで見てサイト行ったら普通にデモが使えたのでテストしてみた感じですが以下です。

画像は家庭用プリンターでスキャンした粗いやつをわざと使いました。

めちゃくちゃ切り取ってますが(昔趣味で作った何か覚えてないやつなので)

この紙図面がこうです。
正直な話をするとこの結果は期待以上です。

画像でみるとあれですが結構きれいでした。

昔、会社にある紙図面をどうするかで書き直すのはあれだからと数百万するソフト使ったことがありましたがここまで綺麗にならなかったです・・・

まだ、サービスのテスト中みたいで学習されるのでデータをアップロードする際は気をつけてください。

来年、ローカルで実行できるようになるらしいです。

そうHPのZワークステーションならですがね。

ちょっとこれは気になるので会社で購入検討ですかね。

まず、Zワークステーションの購入申請から来年頑張ります・・・

完璧な精度はもとめてないけどデジタル化したいっていうやつがあるのでカビる前に処理したいです・・・

C# WPFでQwen3を直接動かすだけ(LLamaSharp)

· 約4分
もみじーな
個人開発者

ドキュザウルス3.9へアップデートしたのでエラーがないか確認も兼ねたくそ記事です。

独立して動かせるならUnityで完全自立型のデスクトップマスコット作れそうですよね。

ヴィタちゃんデスクトップマスコットAIを作るしかないか?


LLamaSharpを使用

LLamaSharpとLLamaSharp.Backend.CpuをNugetでインストール

使用モデルと環境

C# WPF .NET8 プロジェクト名[Qwen3_Demo]
Qwen3-0.6B-GGUF
Qwen3-1.7B-GGUF
modelsフォルダを作成してダウンロードしたモデルを保存してください。(モデルは常にコピーでいいです)

ggufなのでLMStudioのモデルコピーしてきても動きました。(gemma3)

  • CPU i7-1165G7(テスト用PC)
  • メモリ 16GB
  • GPU iRISXe(ないようなもの)

特別なこともないのでソースコードは下に貼っておきます。

C# WPFでQwen3 0.6bを動かす

さすがCPUオンリーですね思考モードだとしても遅いです。
(Thinkingないモデルはそこそこ早かったですがCPUじゃたかがしれてます)

Qwen3 0.6bがいつのデータで学習されてるのかわかりませんが適当なこと書きすぎ・・・

Qwen3 1.7bの場合

やっぱり1.7bは欲しいですねこう見ると

っていうと8bそして14bほしくなるのでGPUは必須です。

おそらく14-20bがデスクトップマスコット作るなら上限ですレスポンス速度が命なので

全体的なコード

MainWindow.xaml[クリックして展開]
<Window x:Class="Qwen3_Demo.MainWindow"
xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
xmlns:d="http://schemas.microsoft.com/expression/blend/2008"
xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006"
xmlns:local="clr-namespace:Qwen3_Demo"
mc:Ignorable="d"
Title="MainWindow" Height="450" Width="800">
<Grid>
<Grid Margin="10">
<Grid.RowDefinitions>
<RowDefinition Height="*"/>
<RowDefinition Height="Auto"/>
<RowDefinition Height="*"/>
<RowDefinition Height="Auto"/>
</Grid.RowDefinitions>

<TextBox x:Name="InputTextBox"
Grid.Row="0"
TextWrapping="Wrap"
AcceptsReturn="True"
VerticalScrollBarVisibility="Auto"/>

<Button x:Name="GenerateButton"
Grid.Row="1"
Content="生成"
Margin="0,10"
Padding="20,5"
Click="GenerateButton_Click"/>

<TextBox x:Name="OutputTextBox"
Grid.Row="2"
TextWrapping="Wrap"
IsReadOnly="True"
VerticalScrollBarVisibility="Auto"/>

<TextBlock x:Name="StatusText"
Grid.Row="3"
Margin="0,10,0,0"
Text="準備中..."/>
</Grid>
</Grid>
</Window>
MainWindow.xaml.cs[クリックして展開]
using System.IO;
using System.Text;
using System.Text.RegularExpressions;
using System.Windows;
using LLama;
using LLama.Common;

namespace Qwen3_Demo
{
public partial class MainWindow : Window
{
private string _modelPath = "models/Qwen3-0.6B-Q8_0.gguf";
private CancellationTokenSource? _cts;

public MainWindow()
{
InitializeComponent();
CheckModel();
}

private void CheckModel()
{
if (File.Exists(_modelPath))
{
StatusText.Text = "準備完了";
GenerateButton.IsEnabled = true;
}
else
{
StatusText.Text = "モデルファイルが見つかりません";
MessageBox.Show($"モデルファイルが見つかりません: {_modelPath}");
}
}

private async void GenerateButton_Click(object sender, RoutedEventArgs e)
{
if (string.IsNullOrWhiteSpace(InputTextBox.Text))
{
MessageBox.Show("入力テキストを入力してください");
return;
}

_cts?.Cancel();
_cts = new CancellationTokenSource();

GenerateButton.IsEnabled = false;
StatusText.Text = "生成中...";
OutputTextBox.Text = "";

try
{
var userInput = InputTextBox.Text;
await GenerateTextAsync(userInput, _cts.Token);
StatusText.Text = "生成完了";
}
catch (OperationCanceledException)
{
StatusText.Text = "キャンセルされました";
}
catch (Exception ex)
{
MessageBox.Show($"エラー: {ex.Message}");
StatusText.Text = "エラー";
}
finally
{
GenerateButton.IsEnabled = true;
}
}

private async Task GenerateTextAsync(string userInput, CancellationToken cancellationToken)
{
var parameters = new ModelParams(_modelPath)
{
ContextSize = 4048,
GpuLayerCount = 0,
BatchSize = 512
};

using var model = LLamaWeights.LoadFromFile(parameters);
using var context = model.CreateContext(parameters);
var executor = new InteractiveExecutor(context);

var chatPrompt = BuildQwenPrompt(userInput);

var settings = new InferenceParams
{
MaxTokens = 1024,
AntiPrompts = new List<string> { "<|im_end|>", "<|im_start|>" }
};

var fullText = new StringBuilder();
int tokenNum = 0;

await foreach (string text in executor.InferAsync(chatPrompt, settings, cancellationToken))
{
if (cancellationToken.IsCancellationRequested)
break;

fullText.Append(text);
tokenNum++;

// テキストを分離
var (thinkPart, answerPart) = SeparateThinkAndAnswer(fullText.ToString());

await Dispatcher.InvokeAsync(() =>
{
// 回答部分のみを表示
OutputTextBox.Text = answerPart.Trim();

// デバッグ用:think部分をステータスに表示
if (!string.IsNullOrEmpty(thinkPart))
{
StatusText.Text = $"生成中... ({tokenNum} tokens) [思考中]";
}
else
{
StatusText.Text = $"生成中... ({tokenNum} tokens)";
}
});

if (tokenNum >= 1024)
break;
}
}

private (string thinkPart, string answerPart) SeparateThinkAndAnswer(string fullText)
{
// <think>...</think> を抽出
var thinkMatch = Regex.Match(fullText, @"<think>(.*?)</think>", RegexOptions.Singleline);
var thinkPart = thinkMatch.Success ? thinkMatch.Groups[1].Value.Trim() : "";

// <think>タグを除去した部分を回答とする
var answerPart = Regex.Replace(fullText, @"<think>.*?</think>", "", RegexOptions.Singleline);

// 未完了の<think>タグも除去
answerPart = Regex.Replace(answerPart, @"<think>.*", "", RegexOptions.Singleline);

return (thinkPart, answerPart.Trim());
}

private string BuildQwenPrompt(string userMessage)
{
//thinkタグを消すため(要調性)
return $"<|im_start|>system\nあなたは親切なAIアシスタントです。<think>タグは使わずに、直接答えてください。<|im_end|>\n<|im_start|>user\n{userMessage}<|im_end|>\n<|im_start|>assistant\n";
}
}
}

NextcloudでExmentへログインする方法(Oauth2)

· 約2分
もみじーな
個人開発者

仕事と体調不良で更新してませんでしたがまた、定期的に更新します。
AIアート系もまた暇なときLoraの調整方法などの練習を再開します。


久しぶりの更新でログインテストだけしてた分ですがExmentにNextcloudからログインする方法を開発の方に入れてますので需要があるのかは不明ですが使ってる方はぜひどうぞ。

中小企業ならNextcloudとExmentをおそらく導入すればとりあえずなんでもできますしこれでID管理がおそらく少しは楽になるはずです。

Nextcloudはおそらく一般人から大企業まで使っているのですがExmentがあまり有名でないのでまぁ、本当に使っている人だけです。

あとExmentがもうすぐVersion7になるらしいので現在、完全に待機中ですね。

AIとの統合とGithub見る感じだとLaravel-Adminとか廃止してOpen-Adminみたいなのになるみたいです。

プラグインの互換性とかどうなるのかわからないので現在、様子見中です。

年内?でるようなのでとりあえずでたらテストしてみます。

NextcloudからExmentへログイン

AIにExmentのプラグインを作らせる(Github Copilot)

· 約3分
もみじーな
個人開発者

変なもの食べたせいか体調壊してたので久しぶりの更新です。
仕事から帰ったら寝るを繰り返してました・・・
気づけばWan2.2のAnimateとかでてたのでそのうち試したいです・・・

体調が終わっている間にAIちゃんにExmentのプラグインを自動作成さたいと思いAIちゃん用にマニュアルを更新していましたが成功率がかなり高くなりました。

純度100%のAI生成プラグインです。

ダッシュボードアプリを作らせる

ConoHaWingにインストールしたExmentなので正確なのかは不明ですがきれいにできてます。
一応,Synologyの開発環境でも試して見ましたがディスク使用率以外はあってました。

少し複雑になるようにページビュープラグイン版もつくらせてみました

ダッシュボードアプリと結果が異なるため本当にあっているかの真偽は不明(システム情報はあってる)

チャートJSを使ったビューを作らせてみる

これは作れたらいいなくらいの気持ちでやってみました。

エラーを何回か貼ることで問題なくできたのでいい感じです。

この感じなら細かい調整もできそうなのでマニュアルさえ作成すればおそらくNextcloudやkintone(キントーン)などの専用プラグインをAIに自動生成させられそうです。(とんでもない欠陥がでるかもしれないけど)

キントーンは使ったことないけど気になるので無料でつかえるならAI用のマニュアルを作ってみようかな。

けどこれAIで完璧なの作れるようになったらプラグイン開発などをベースに収益を得ている企業などはだいぶきつくなる時代が来そうです。

スプレッドシート風のビュー

最後になかなか高難易度のプラグインをAIに依頼してみました。

AIに3回ほどエラーを渡して以下が完成しました。

むしろ作れるのかという結論になりました。
今回のAIマニュアルはGithubで公開しているのでExmentを使っている方は使ってみてください。

まだ、完ぺきではないです・・・(自己責任で使ってください)

Qwen-ImageのLightningに誤解があったみたい

· 約2分
もみじーな
個人開発者

Qwen-ImageのLightningに誤解があったみたいです。(申し訳・・・)

心なしか同じステップ数で変化があるように見えたのは本当にそう見えただけですねやっぱ

さっき8stepにしても4stepにしても本当にこれ変わってるのかって思って気づきました・・・

20ステップ固定にしているので私の環境だといらなそう・・

Lightningを8stepにして8stepにしても20のほうがやっぱり少し塗り方がきれいになります。

Lightningの4stepで 4stepで画像作ると微妙なのはLoraのせいなのか解像度が高すぎるのか?

4stepの4stepです(使い方が悪いんですかね)

そもそも、Lightningをつけなくても速度が変わらない気がします。
1920x1088の20ステップで48秒くらいです。

Lightningは必要性が不明の為,消してみました。

消しても生成に影響はなさそうです・・・

結局、Lightningの必要性はわからないです。
情報が増えるのを待ちます・・

Qwen-ImageのLora作成方法

· 約3分
もみじーな
個人開発者

一応,メモです。

必要なものと手順

ai-toolkitを使います。
基本的なインストールはGithubを確認してください。
一応以下で問題はないです。

git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit
python -m venv venv
.\venv\Scripts\activate
pip install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 --index-url https://download.pytorch.org/whl/cu126
pip install -r requirements.txt

RTX50シリーズの場合はtorchは以下に置き換えてください(私はRTX5090ですが問題なかったです)

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

Lora作成

初回起動

cd ui
npm run build_and_start

一回,buildしたら以下のほうが起動が早いです。

cd ui
npm run start

New Jobでだいたい以下の設定にしてもらえれば動きます(ai-toolkit公式からのおすすめです。)
Cache Text Embeddingsも囲ってないですがオンを推奨です。

おそらくここら辺は詳しいこと書いてくれている方のを見たほうがいいですが
datasetにはai-toolkit内にdatasetsというフォルダがあるのでそこに画像を入れればここに表示されます。
(途中でいれて表示されない場合はブラウザ更新ボタン)

上みたいな感じでフォルダの追加と学習させたい画像を入れておけば問題はないです。
キャプションも必要がない限りは不要です。

Cache Text Embeddingsについて

こちらは公式的にはオン推奨です。

ですがこれをつけるとTrigger Wordなどを入れるとエラーが出るので設定したい人はオフ必須です。
つけないと生成に少し追加で時間がかかります。(2倍くらいになるかも)

学習開始

上記の設定がおわればあとは右上のCreate Jobを押して開始ボタンを押すだけです。
初回は学習に必要なものを自動でダウンロードしますのでかなり時間がかかります。
20から30GBくらいダウンロードしたはず?

ダウンロード後,特に問題がなければ学習が始まります。
3000ステップとして

5090で3時間から4時間(長くても6時間)程度で終了します。

終了後にはOutputに保存されるのであとはいつものLoraファイルと同じでConfyなりにコピーしてもらえれば終了です。

エラーが出る場合

GPUメモリが24あればとりあえずは動くらしいので4090などで1回エラーで終了しても何度か再開すると動いてくれたりします。

最後に

色々学習させてみましたが今のところ問題はなさそうです。
学習できない場合は何か設定が間違っている可能性があります。
夜,寝る前に学習させれば仕事に行く前には絶対おわっています。(RTX5090なら)

Qwen-Imageにおけるステップ数とLightningのstep数の違いの差

· 約3分
もみじーな
個人開発者

求める画像を出すための検証を実施しました。
今回,自作の崩壊3rd ヴィタのLora(Kサンプラーはテスト版)を使ってます。
結論だけここに書いておきますKサンプラーは最低20Step,lightningは8 Stepがやっぱりいいです。
lightningに関しては見る人によって好みがわかれそう?

KサンプラーでのStep数の検証

プロンプト(水族館,女性がこちらに向かって両手でピースしている,白いTシャツ)
以下はまったく同じシードとプロンプトを使っています。
5 Step(生成16秒 論外です) 10 Step(生成28秒 初期10だったので最低ラインです) 20 Step(生成49秒) 30 Step(生成73秒) 40 Step(生成94秒) 50 Step(生成時間メモリ忘れました)

最低20 Stepあれば品質は問題なさそうです。
Step数で水槽が出たり消えたりは画像生成に詳しくないのでよくわからないです。


Lightning 8 Stepと4 Step

プロンプト(水着の女性がトロピカルジュースを飲んでいる,海辺,サングラスをかけている)
Loraの調整をした後にテストしたのでKサンプラーとキャラが少し変わってます。
4 Stepと8 Stepにおける生成時間の差はほぼなかったように思えますがどうなんですかね
同じシード,同じプロントでの差です。

シード1

4step 8step

シード2

4step 8step

シード3

4step 8step

8 stepのほうが個人的にはLoraに忠実にでています。
4 stepは心なしか顔が丸い?

結論

最低20stepでLightningは可能なら8 Step(4 Stepでもあまり差はなし)
私的には8stepのほうがよく感じる程度です。

最後に

ここ最近,適当に検証だけしたのを張ってたので少し改善します。
あとNano-Bananaが流行ってますが解像度1024x1024とかですよQwenのほうが高解像度で絶対いいですよ。
エ〇画像とかつく・・・なんでもないですがQwen Imageが私的にはおすすめです。

Qwen-Imageようの僕の考えた最強のスタイルLoraが完成したぽん

· 約2分
もみじーな
個人開発者

求めていた画像が出せるスタイルLoraを完成させることができたぽん(前回の続きなので)

↑プロンプト(白いワンピースの女性がひまわり畑に一人,麦わら帽子をかぶっている,る,momijiina_style,vita20250824)

若干前と違いますがこれは女性、女の子,お姉さんなどでQwen Imageではだいぶ変わるからみたいです。(loraの強度も)

プロンプトを調整すればおそらく近づけることができると思うのでこれでStable Diffusionを最悪捨ててQwen Imageへ移行することができます・・・・

この結果からアニメ特化のモデルは不要そうです。

これで次はヴィタちゃん、セナディアちゃんに続く,セルマやアカリなどのQwen Image用のLoraを作り始めることができそうです。

学習用に500枚も画像を用意した甲斐がありました。

このスタイルLoraの配布は現状,考えてないですが需要がありそうならCivitaiとかにアップロードしときます・・・

Qwen ImageのいいところはStable Diffusionでキャラが遠い場合に目や顔が崩れることでしたがこれで克服できそうです。

こんな感じのが生成できました。

水族館の表現もだいぶいい感じじゃないですか?
(服装を指定しなかったせいか防弾チョッキみたいなのきてる?なにこれ)

Qwen-Imageように目的のLoraを作ったけどなんか違う

· 約1分
もみじーな
個人開発者

Qwen-Imageように崩壊3rdのヴィタちゃんのLoraを作成しましたが求めた結果はまだ得られませんでした。

(プロンプトなど色々試していくうちに生成時間は平均50秒くらいになりました。)

上のように問題なくloraを作り生成できましたが違う・・・・

私が求めている画像はこんな感じです↓

(Stable Diffusionで作りました)

チェックポイントの関係もあると思うのでアニメ系のモデルがでるまで待つしかなさそう・・

スタイルloraをつくるしかないか独自モデルを作るしかないか・・・

私の出す解は既に収束してしまったのでもっと情報が増えたら再開します。

もうダメだぽん

Qwen-Imageで作成した画像(プロンプトはすべて若干違います)↓