Strict Frog's Blog

Fine-tuning之高质量SFT数据结构设计

高质量SFT数据结构

背景 微调模型能力 = 70% 数据结构设计 + 20% 数据质量 + 10% 训练参数 这篇文章只讲 ”数据结构设计“. 高质量SFT数据的5个层级 Level 1 基础问答 Level 2 System Prompt Level 3 思考链 (CoT) Level 4 多轮对话 Level 5 Tool / RAG 分析 Level ...

Fine-tuning之简单的数据准备与预处理

Fine-tuning

背景 私有LLM,最重要的是用私有数据对LLM进行微调(Fine-tuning).这篇文章先讲如何进行数据准备和预处理 数据准备 通过下载“斯坦福Alpaca训练所使用的数据集”得到如下格式的json文件: alpaca_data.json [ { "instruction": "Give three tips for staying healthy....

Fine-tuning之数据质量处理

数据清洗

背景 微调模型能力 = 70% 数据结构设计 + 20% 数据质量 + 10% 训练参数 这篇文章只讲数据质量, 也就是数据清洗 完整数据清洗 Pipeline 原始数据 ↓ 格式统一 ↓ 简单去重 ↓ 语义去重 ↓ 垃圾过滤 ↓ 长度控制 ↓ 语言过滤 ↓ 语义匹配检测 ↓ 困惑度过滤 ↓ 最终SFT数据 数据清洗 ...

Fine-tuning之SFT数据来源

数据来源分析

背景 用于微调LM的SFT数据来源有哪些? 1 开源数据集 常见: Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json Hugging Face datasets https://hu...

高品質SFTデータ構造設計のファインチューニング

高品質SFTデータ構造

背景 ファインチューニングモデルの性能 = 70% データ構造設計 + 20% データ品質 + 10% トレーニングパラメータ この記事は「データ構造設計」にのみ焦点を当てます。 高品質SFTデータの5つのレベル Level 1 基本的なQ&A Level 2 システムプロンプト Level 3 思考の連鎖 (CoT) Level 4 多段対話 ...

微調整のための簡単なデータ準備と前処理

ファインチューニング

背景 プライベートLLMで最も重要なのは、プライベートデータを使ってLLMをファインチューニングすることです。本記事ではまずデータ準備と前処理の方法を解説します。 データ準備 スタンフォードのAlpacaトレーニングで使用されているデータセットをダウンロードすると、次のような形式のJSONファイルが得られます: alpaca_data.json [ { ...

微調整におけるデータ品質の処理

データクリーニング

背景 微調モデルの性能 = 70% データ構造設計 + 20% データ品質 + 10% トレーニングパラメータ この記事はデータ品質、つまりデータクリーニングについてのみ説明します。 完全なデータクリーニングパイプライン 原データ ↓ フォーマット統一 ↓ 簡易重複除去 ↓ 意味的重複除去 ↓ ノイズフィルタリング ↓ 長さ制御 ↓ 言語フ...

ファインチューニングにおけるSFTデータの出所

データソース分析

背景 LMをファインチューニングするためのSFTデータソースは何がありますか? 1 オープンデータセット 代表例: Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json Hugging F...

Simple Data Preparation and Preprocessing for Fine-tuning

Fine-tuning

Background For private LLMs, the most important part is fine-tuning the LLM with private data. This article first explains how to prepare and preprocess the data. Data Preparation By downloa...

SFT Data Sources for Fine-tuning

Data Source Analysis

Background What are the sources of SFT data for fine-tuning LMs? 1 Open Source Datasets Common ones: Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/...

High-Quality SFT Data Structure Design for Fine-tuning

High-Quality SFT Data Structure

Background Fine-tuning model capability = 70% Data Structure Design + 20% Data Quality + 10% Training Parameters This article focuses solely on “Data Structure Design.” 5 Levels of High-Qual...

Data Quality Management in Fine-tuning

Data Cleaning

Background Fine-tuning model performance = 70% data structure design + 20% data quality + 10% training parameters This article focuses solely on data quality, specifically data cleaning. Com...

私有RAG之极限优化等待时间

私有RAG

背景 在构建RAG系统过程中,我通过设计Query Rewrite, Rerank,Structural Chunk,Structural prompt等,极大的增加了RAG检索出来的知识的准确性. 但在使用集成了此RAG的flask程序软件中发现有大量的等待时间, 所以写下此篇文章尽可能的优化等待时间. 案例: 通过调用私有API, 获取大量的PDF,将PDF文件OCR...

Self-Evolving的设计思想

Self-Evolving

背景 能够持续自我研发(Self-R&D)的 Agent 系统。能够持续研发新的工具、算法、策略、系统 Self-Improving Agent 的设计思想 整体架构: User Goal ↓ Task System ↓ Agent System ↓ Performance Monitoring ↓ Research System ↓ N...

Embedding之增量向量更新策略

避免重复embedding

背景 只对“新增或变化的内容”做 embedding,而不是每次重新处理所有文档。 一, 增量更新的三个层级 层级 粒度 推荐程度 文件级 PDF ⭐⭐⭐⭐ 页面级 page ⭐⭐⭐ ...