自己改善的設計思想 - Louis

背景

本記事ではSelf-Improving Agentの設計思想について解説します。これはAutonomous AgentのアーキテクチャをベースにSelf-improving（自己改善）の要素を追加したものです。

「Autonomous Agentのアーキテクチャ」:
https://strictfrog.com/ja/2026-03-07-autogpt%E5%88%86%E6%9E%90%E3%81%A8%E8%87%AA%E5%BE%8B%E7%9A%84%E6%80%9D%E8%80%83/

Self-Improving Agentの設計思想

全体アーキテクチャ:

User Task
   ↓
Planner
   ↓
Executor
   ↓
Result
   ↓
Evaluator
   ↓
* Reflection
   ↓
Policy Update
   ↓
Agent Memory

これは二つのループで成り立っています：

第一層ループ：タスクループ Task Loop

Goal
 ↓
Plan
 ↓
Execute
 ↓
Evaluate

第二層ループ：自己改善ループ Learning Loop

Performance Data
 ↓
Reflection
 ↓
Strategy Update
 ↓
Agent Update

Self-Improving Agentの3つの技術アプローチ

方法1：Prompt Self-Improvement

エージェントが自動でプロンプトを書き換える。

フロー：

Task
 ↓
Run Prompt
 ↓
Evaluate Result （結果を評価）
 ↓
Improve Prompt （プロンプトを改善）

論文：「Reflexion: Language Agents with Verbal Reinforcement Learning」

複数のLLMを設定し、評価・反省・生成をそれぞれ担当させる。

論文：「Self-Refine: Iterative Refinement with Self-Feedback」

人間のフィードバックを用いた反復学習。

方法2：Tool Strategy Learning

例：

誤った戦略：

search → summarize

改善された戦略：

search → filter → summarize

エージェントが更新するのは：

tool policy

方法3：Code Self-Improvement

エージェントが自らのコードを修正する。

フロー：

Run code
 ↓
Test
 ↓
Bug detected
 ↓
Rewrite code
 ↓
Retest

Self-Improving Agentのキーメカニズム

1 Memory

エージェントは以下を記憶する必要があります：

past failures
past successes

よく使われるMemory：

vector database
experience replay

2 Experience Dataset

エージェントは経験を蓄積します：

task
action
result
score

例：

task: research AI market
action: search → summarize
score: 0.6

そして戦略を最適化。

3 Reflection Prompt

典型的なプロンプト：

Analyze the failure.

Why did the plan fail?
What should be improved?

LLMが生成するもの：

lessons learned

限界

評価が非常に難しい。
誤った学習により性能が低下する可能性がある。
クレジットアサインメント問題：どのステップが成功に寄与したのか判別が困難。
コスト問題：大量の試行錯誤を必要とする。

关于作者

我是Louis,一名长期从事iOS与AI相关工程实践的工程师,也是一个正在探索产品与商业可能性的准创始人.

这里的文章,更多是我在项目中用过,踩过坑,反复验证过的东西,而不是为了流量而写的“快内容”.

☕ 打赏

如果这篇文章对你有帮助,欢迎请我喝一杯咖啡☕️

PayPal
https://www.paypal.me/luochuan188

PayPay

You can support my work via PayPay by searching my PayPay ID:

PayPay ID: luochuan

微信支付

支付宝

你的支持会让我有更多时间,把真实项目中的经验持续整理和分享出来.

不打赏也完全没关系,感谢你读到这里.

联系与合作

如果你:

· 正在做iOS App / AI / 自动化相关的项目

· 对技术选型、架构设计、产品落地有困惑

· 或希望进行技术交流、合作探讨

欢迎通过以下邮箱联系我:

luochuanad@gmail.com

背景