自己改善的設計思想

自己改善

Posted by LuochuanAD on March 13, 2026 本文总阅读量

背景

本記事ではSelf-Improving Agentの設計思想について解説します。これはAutonomous AgentのアーキテクチャをベースにSelf-improving(自己改善)の要素を追加したものです。

「Autonomous Agentのアーキテクチャ」:
https://strictfrog.com/ja/2026-03-07-autogpt%E5%88%86%E6%9E%90%E3%81%A8%E8%87%AA%E5%BE%8B%E7%9A%84%E6%80%9D%E8%80%83/

Self-Improving Agentの設計思想

全体アーキテクチャ:

User Task
   ↓
Planner
   ↓
Executor
   ↓
Result
   ↓
Evaluator
   ↓
* Reflection
   ↓
Policy Update
   ↓
Agent Memory

これは二つのループで成り立っています:

第一層ループ:タスクループ Task Loop

Goal
 ↓
Plan
 ↓
Execute
 ↓
Evaluate

第二層ループ:自己改善ループ Learning Loop

Performance Data
 ↓
Reflection
 ↓
Strategy Update
 ↓
Agent Update

Self-Improving Agentの3つの技術アプローチ

方法1:Prompt Self-Improvement

エージェントが自動でプロンプトを書き換える。

フロー:

Task
 ↓
Run Prompt
 ↓
Evaluate Result (結果を評価)
 ↓
Improve Prompt (プロンプトを改善)

論文:「Reflexion: Language Agents with Verbal Reinforcement Learning」

複数のLLMを設定し、評価・反省・生成をそれぞれ担当させる。

論文:「Self-Refine: Iterative Refinement with Self-Feedback」

人間のフィードバックを用いた反復学習。

方法2:Tool Strategy Learning

例:

誤った戦略:

search → summarize

改善された戦略:

search → filter → summarize

エージェントが更新するのは:

tool policy

方法3:Code Self-Improvement

エージェントが自らのコードを修正する。

フロー:

Run code
 ↓
Test
 ↓
Bug detected
 ↓
Rewrite code
 ↓
Retest

Self-Improving Agentのキーメカニズム

1 Memory

エージェントは以下を記憶する必要があります:

past failures
past successes

よく使われるMemory:

vector database
experience replay

2 Experience Dataset

エージェントは経験を蓄積します:

task
action
result
score

例:

task: research AI market
action: search → summarize
score: 0.6

そして戦略を最適化。

3 Reflection Prompt

典型的なプロンプト:

Analyze the failure.

Why did the plan fail?
What should be improved?

LLMが生成するもの:

lessons learned

限界

  1. 評価が非常に難しい。
  2. 誤った学習により性能が低下する可能性がある。
  3. クレジットアサインメント問題:どのステップが成功に寄与したのか判別が困難。
  4. コスト問題:大量の試行錯誤を必要とする。