Strict Frog's Blog

ChatAgent之Memory Layer设计

Memory Layer

背景 在之前做过的几个ChatAgent中,我在设计Memory Layer时,遇到了很多问题, 通过这篇文章我将讲解如何设计Memory Layer. 基础概念讲解 Memory layer仿照人的思维方式,分为短期记忆和长期记忆. 比如说:”我10分钟前刚到东京的某家咖啡馆,刚刚才坐下来边喝咖啡边在写这篇文章.“ 这就是短期记忆; “我是一个纯中国人,喜欢东京这边的生...

ChatAgentのメモリレイヤー設計

メモリレイヤー

背景 以前いくつかのChatAgentを作る中で、Memory Layerの設計に多くの課題に直面しました。この記事ではMemory Layerの設計方法について解説します。 基本概念の解説 Memory layerは人間の思考に倣い、短期記憶と長期記憶に分かれます。例えば、「10分前に東京のあるカフェに到着し、コーヒーを飲みながらこの記事を書いている」というのが短期記憶...

Design of the Memory Layer in ChatAgent

Memory Layer

Background In several previous ChatAgent projects, I encountered many challenges when designing the Memory Layer. In this article, I will explain how to design the Memory Layer effectively. C...

RAG系统和MemoryLayer之Evaluation模块

Evaluation模块

背景 在之前做过的几个AIAgent中,构建了RAG系统和Memory Layer. 现在需要对这个RAG系统和Memory Layer进行评估, 我会从以下几个维度来评估: 准确率评分(accuracy_score),精确率评分(precision_score),召回率评分(recall_score),平均覆盖率(avg_coverage),平均响应延迟的时间(avg_latenc...

RAGシステムとメモリレイヤの評価モジュール

評価モジュール

背景 以前いくつかのAIAgentでRAGシステムとメモリレイヤを構築しました。今回はこのRAGシステムとメモリレイヤを評価する必要があります。評価は以下の指標で行います:正確率(accuracy_score)、適合率(precision_score)、再現率(recall_score)、平均カバレッジ(avg_coverage)、平均応答遅延時間(avg_latency)。 デ...

Evaluation Module of the RAG System and Memory Layer

Evaluation Module

Background In several previous AI Agent projects, I built RAG systems and Memory Layer. Now, I need to evaluate this RAG system and Memory Layer from the following dimensions: accuracy_score, p...

AI Infra Layer之资源调度策略?

AI Infra Layer

背景 在私有化大模型系统中,我已经将Embedding模型,Reranker模型,LLM部署本地,并且实现了高并发批处理. 配置 (config.py) 我已经本地化部署了多个服务(Embedding模型,Reranker模型,LLM等等), 那么在用户请求这些微服务时, 我该如何通过config.py来实现资源调度策略? 区分 服务 ...

AIインフラ層の資源スケジューリング戦略とは?

AIインフラ層

背景 プライベート大規模モデルシステムにおいて、Embeddingモデル、Rerankerモデル、LLMをローカルにデプロイし、高並列バッチ処理を実現しました。 設定 (config.py) 複数のサービス(Embeddingモデル、Rerankerモデル、LLMなど)をローカルにデプロイした場合、ユーザーがこれらのマイクロサービスにリクエストを送る際に、どのように confi...

Resource Scheduling Strategies in AI Infrastructure Layer?

AI Infra Layer

Background In a privatized large model system, I have deployed Embedding models, Reranker models, and LLMs locally, and implemented high-concurrency batch processing. Configuration (config.py...

如何为本地模型构建高并发模块?

AI Infra Layer

背景 在私有化大模型系统中,我已经将Embedding模型,Reranker模型,LLM部署本地, 还要实现并发支持.这里我单独构建了一个高并发的模块. 选择 队列 + 批处理 架构 请求1 \ 请求2 \ 请求3 → 队列 → 批处理 → 一次 model.encode() 请求4 / 请求5 / 项目结构 (高并发批量处理请求模块) ├── infer...

ローカルモデル向けの高並行性モジュールを構築

AIインフラ層

背景 プライベートモデルシステムでEmbeddingモデル、Rerankerモデル、LLMをローカルにデプロイ済みで、さらに並行処理対応を実現したい。ここでは高並行モジュールを単独で構築した。 選択 キュー + バッチ処理 アーキテクチャ リクエスト1 \ リクエスト2 \ リクエスト3 → キュー → バッチ処理 → 一度に model.encode() リクエス...

How to Build a High-Concurrency Module for Local Models?

AI Infra Layer

Background In a privatized large model system, I have deployed the Embedding model, Reranker model, and LLM locally, and I also need to support concurrency. Here, I have built a dedicated high-...

如何部署本地Embedding模型?

AI Infra Layer

背景 在私有化大模型系统中, 为了避免外部依赖, 降低数据泄露的风险并提升可控性, 现将Embedding模型部署本地, 还要实现标准化接口服务,支持外部系统通过HTTP服务请求调用Embedding功能, 具备容错机制, 可扩展性和并发支持. 选择 FastAPI + Uvicorn + EmbeddingModel(e5-large) 项目结构 (本地Embedd...

ローカルEmbeddingモデルのデプロイ方法は?

AIインフラ層

背景 プライベート化された大規模モデルシステムにおいて、外部依存を避け、データ漏洩リスクを低減し制御性を向上させるために、Embeddingモデルをローカルにデプロイします。また、標準化されたインターフェースサービスを実現し、外部システムがHTTP経由でEmbedding機能をリクエストできるようにし、フォールトトレランス、拡張性、並行処理の対応も備えています。 選定 F...

How to Deploy a Local Embedding Model?

AI Infra Layer

Background In a privatized large model system, to avoid external dependencies, reduce the risk of data leakage, and enhance controllability, the Embedding model is deployed locally. Additionall...