背景
本記事ではSelf-Improving Agentの設計思想について解説します。これはAutonomous AgentのアーキテクチャをベースにSelf-improving(自己改善)の要素を追加したものです。
「Autonomous Agentのアーキテクチャ」:
https://strictfrog.com/ja/2026-03-07-autogpt%E5%88%86%E6%9E%90%E3%81%A8%E8%87%AA%E5%BE%8B%E7%9A%84%E6%80%9D%E8%80%83/
Self-Improving Agentの設計思想
全体アーキテクチャ:
User Task
↓
Planner
↓
Executor
↓
Result
↓
Evaluator
↓
* Reflection
↓
Policy Update
↓
Agent Memory
これは二つのループで成り立っています:
第一層ループ:タスクループ Task Loop
Goal
↓
Plan
↓
Execute
↓
Evaluate
第二層ループ:自己改善ループ Learning Loop
Performance Data
↓
Reflection
↓
Strategy Update
↓
Agent Update
Self-Improving Agentの3つの技術アプローチ
方法1:Prompt Self-Improvement
エージェントが自動でプロンプトを書き換える。
フロー:
Task
↓
Run Prompt
↓
Evaluate Result (結果を評価)
↓
Improve Prompt (プロンプトを改善)
論文:「Reflexion: Language Agents with Verbal Reinforcement Learning」
複数のLLMを設定し、評価・反省・生成をそれぞれ担当させる。
論文:「Self-Refine: Iterative Refinement with Self-Feedback」
人間のフィードバックを用いた反復学習。
方法2:Tool Strategy Learning
例:
誤った戦略:
search → summarize
改善された戦略:
search → filter → summarize
エージェントが更新するのは:
tool policy
方法3:Code Self-Improvement
エージェントが自らのコードを修正する。
フロー:
Run code
↓
Test
↓
Bug detected
↓
Rewrite code
↓
Retest
Self-Improving Agentのキーメカニズム
1 Memory
エージェントは以下を記憶する必要があります:
past failures
past successes
よく使われるMemory:
vector database
experience replay
2 Experience Dataset
エージェントは経験を蓄積します:
task
action
result
score
例:
task: research AI market
action: search → summarize
score: 0.6
そして戦略を最適化。
3 Reflection Prompt
典型的なプロンプト:
Analyze the failure.
Why did the plan fail?
What should be improved?
LLMが生成するもの:
lessons learned
限界
- 評価が非常に難しい。
- 誤った学習により性能が低下する可能性がある。
- クレジットアサインメント問題:どのステップが成功に寄与したのか判別が困難。
- コスト問題:大量の試行錯誤を必要とする。