Strict Frog's Blog

Fine-tuning之SFT数据来源

数据来源分析

背景 用于微调LM的SFT数据来源有哪些? 1 开源数据集 常见: Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json Hugging Face datasets https://hu...

高品質SFTデータ構造設計のファインチューニング

高品質SFTデータ構造

背景 ファインチューニングモデルの性能 = 70% データ構造設計 + 20% データ品質 + 10% トレーニングパラメータ この記事は「データ構造設計」にのみ焦点を当てます。 高品質SFTデータの5つのレベル Level 1 基本的なQ&A Level 2 システムプロンプト Level 3 思考の連鎖 (CoT) Level 4 多段対話 ...

微調整のための簡単なデータ準備と前処理

ファインチューニング

背景 プライベートLLMで最も重要なのは、プライベートデータを使ってLLMをファインチューニングすることです。本記事ではまずデータ準備と前処理の方法を解説します。 データ準備 スタンフォードのAlpacaトレーニングで使用されているデータセットをダウンロードすると、次のような形式のJSONファイルが得られます: alpaca_data.json [ { ...

微調整におけるデータ品質の処理

データクリーニング

背景 微調モデルの性能 = 70% データ構造設計 + 20% データ品質 + 10% トレーニングパラメータ この記事はデータ品質、つまりデータクリーニングについてのみ説明します。 完全なデータクリーニングパイプライン 原データ ↓ フォーマット統一 ↓ 簡易重複除去 ↓ 意味的重複除去 ↓ ノイズフィルタリング ↓ 長さ制御 ↓ 言語フ...

ファインチューニングにおけるSFTデータの出所

データソース分析

背景 LMをファインチューニングするためのSFTデータソースは何がありますか? 1 オープンデータセット 代表例: Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json Hugging F...

Simple Data Preparation and Preprocessing for Fine-tuning

Fine-tuning

Background For private LLMs, the most important part is fine-tuning the LLM with private data. This article first explains how to prepare and preprocess the data. Data Preparation By downloa...

SFT Data Sources for Fine-tuning

Data Source Analysis

Background What are the sources of SFT data for fine-tuning LMs? 1 Open Source Datasets Common ones: Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/...

High-Quality SFT Data Structure Design for Fine-tuning

High-Quality SFT Data Structure

Background Fine-tuning model capability = 70% Data Structure Design + 20% Data Quality + 10% Training Parameters This article focuses solely on “Data Structure Design.” 5 Levels of High-Qual...

Data Quality Management in Fine-tuning

Data Cleaning

Background Fine-tuning model performance = 70% data structure design + 20% data quality + 10% training parameters This article focuses solely on data quality, specifically data cleaning. Com...

私有RAG之极限优化等待时间

私有RAG

背景 在构建RAG系统过程中,我通过设计Query Rewrite, Rerank,Structural Chunk,Structural prompt等,极大的增加了RAG检索出来的知识的准确性. 但在使用集成了此RAG的flask程序软件中发现有大量的等待时间, 所以写下此篇文章尽可能的优化等待时间. 案例: 通过调用私有API, 获取大量的PDF,将PDF文件OCR...

Self-Evolving的设计思想

Self-Evolving

背景 能够持续自我研发(Self-R&D)的 Agent 系统。能够持续研发新的工具、算法、策略、系统 Self-Improving Agent 的设计思想 整体架构: User Goal ↓ Task System ↓ Agent System ↓ Performance Monitoring ↓ Research System ↓ N...

Embedding之增量向量更新策略

避免重复embedding

背景 只对“新增或变化的内容”做 embedding,而不是每次重新处理所有文档。 一, 增量更新的三个层级 层级 粒度 推荐程度 文件级 PDF ⭐⭐⭐⭐ 页面级 page ⭐⭐⭐ ...

私有RAGの極限最適化待機時間

私有RAG

背景 RAGシステムの構築過程で、Query Rewrite、Rerank、Structural Chunk、Structural promptなどを設計することで、RAGによって検索される知識の精度を大幅に向上させました。しかし、このRAGを統合したflaskプログラムを使用しているときに大量の待ち時間が発生することに気づいたため、本記事では可能な限り待ち時間の最適化を行います。 ...

埋め込みの増分ベクトル更新戦略

埋め込みの重複を避ける方法

背景 「新規または変更されたコンテンツ」のみをembeddingし、毎回すべてのドキュメントを再処理しない。 1. 増分更新の3つのレベル レベル 粒度 推奨度 ファイルレベル PDF ⭐⭐⭐⭐ ページレベル ペー...

Self-Evolving的設計思想

自己進化

背景 自己で継続的に研究開発(Self-R&D)が可能なエージェントシステム。新しいツール、アルゴリズム、戦略、システムを継続的に開発できる。 Self-Improving Agent の設計コンセプト 全体構成: User Goal ↓ Task System ↓ Agent System ↓ Performance Monitoring ↓...