Louis | strictfrog.com

Fine-tuning之高质量SFT数据结构设计

高质量SFT数据结构

背景微调模型能力 = 70% 数据结构设计 + 20% 数据质量 + 10% 训练参数这篇文章只讲 ”数据结构设计“. 高质量SFT数据的5个层级 Level 1 基础问答 Level 2 System Prompt Level 3 思考链 (CoT) Level 4 多轮对话 Level 5 Tool / RAG 分析 Level ...

Posted by LuochuanAD on March 15, 2026

Fine-tuning之简单的数据准备与预处理

Fine-tuning

背景私有LLM,最重要的是用私有数据对LLM进行微调(Fine-tuning).这篇文章先讲如何进行数据准备和预处理数据准备通过下载“斯坦福Alpaca训练所使用的数据集”得到如下格式的json文件: alpaca_data.json [ { "instruction": "Give three tips for staying healthy....

Posted by LuochuanAD on March 15, 2026

Fine-tuning之数据质量处理

数据清洗

背景微调模型能力 = 70% 数据结构设计 + 20% 数据质量 + 10% 训练参数这篇文章只讲数据质量, 也就是数据清洗完整数据清洗 Pipeline 原始数据 ↓ 格式统一 ↓ 简单去重 ↓ 语义去重 ↓ 垃圾过滤 ↓ 长度控制 ↓ 语言过滤 ↓ 语义匹配检测 ↓ 困惑度过滤 ↓ 最终SFT数据数据清洗 ...

Posted by LuochuanAD on March 15, 2026

Fine-tuning之SFT数据来源

数据来源分析

背景用于微调LM的SFT数据来源有哪些? 1 开源数据集常见： Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json Hugging Face datasets https://hu...

Posted by LuochuanAD on March 15, 2026

高品質SFTデータ構造設計のファインチューニング

高品質SFTデータ構造

背景ファインチューニングモデルの性能＝ 70% データ構造設計 + 20% データ品質 + 10% トレーニングパラメータこの記事は「データ構造設計」にのみ焦点を当てます。高品質SFTデータの5つのレベル Level 1 基本的なQ&A Level 2 システムプロンプト Level 3 思考の連鎖 (CoT) Level 4 多段対話 ...

Posted by LuochuanAD on March 15, 2026

微調整のための簡単なデータ準備と前処理

ファインチューニング

背景プライベートLLMで最も重要なのは、プライベートデータを使ってLLMをファインチューニングすることです。本記事ではまずデータ準備と前処理の方法を解説します。データ準備スタンフォードのAlpacaトレーニングで使用されているデータセットをダウンロードすると、次のような形式のJSONファイルが得られます: alpaca_data.json [ { ...

Posted by LuochuanAD on March 15, 2026

微調整におけるデータ品質の処理

データクリーニング

背景微調モデルの性能＝ 70% データ構造設計＋ 20% データ品質＋ 10% トレーニングパラメータこの記事はデータ品質、つまりデータクリーニングについてのみ説明します。完全なデータクリーニングパイプライン原データ ↓ フォーマット統一 ↓ 簡易重複除去 ↓ 意味的重複除去 ↓ ノイズフィルタリング ↓ 長さ制御 ↓ 言語フ...

Posted by LuochuanAD on March 15, 2026

ファインチューニングにおけるSFTデータの出所

データソース分析

背景 LMをファインチューニングするためのSFTデータソースは何がありますか？ 1 オープンデータセット代表例： Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json Hugging F...

Posted by LuochuanAD on March 15, 2026

Simple Data Preparation and Preprocessing for Fine-tuning

Fine-tuning

Background For private LLMs, the most important part is fine-tuning the LLM with private data. This article first explains how to prepare and preprocess the data. Data Preparation By downloa...

Posted by LuochuanAD on March 15, 2026

SFT Data Sources for Fine-tuning

Data Source Analysis

Background What are the sources of SFT data for fine-tuning LMs? 1 Open Source Datasets Common ones: Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/...

Posted by LuochuanAD on March 15, 2026

High-Quality SFT Data Structure Design for Fine-tuning

High-Quality SFT Data Structure

Background Fine-tuning model capability = 70% Data Structure Design + 20% Data Quality + 10% Training Parameters This article focuses solely on “Data Structure Design.” 5 Levels of High-Qual...

Posted by LuochuanAD on March 15, 2026

Data Quality Management in Fine-tuning

Data Cleaning

Background Fine-tuning model performance = 70% data structure design + 20% data quality + 10% training parameters This article focuses solely on data quality, specifically data cleaning. Com...

Posted by LuochuanAD on March 15, 2026

私有RAG之极限优化等待时间

私有RAG

背景在构建RAG系统过程中,我通过设计Query Rewrite, Rerank,Structural Chunk,Structural prompt等,极大的增加了RAG检索出来的知识的准确性. 但在使用集成了此RAG的flask程序软件中发现有大量的等待时间, 所以写下此篇文章尽可能的优化等待时间. 案例: 通过调用私有API, 获取大量的PDF,将PDF文件OCR...

Posted by LuochuanAD on March 14, 2026

Self-Evolving的设计思想

Self-Evolving

背景能够持续自我研发（Self-R&D）的 Agent 系统。能够持续研发新的工具、算法、策略、系统 Self-Improving Agent 的设计思想整体架构: User Goal ↓ Task System ↓ Agent System ↓ Performance Monitoring ↓ Research System ↓ N...

Posted by LuochuanAD on March 14, 2026

Embedding之增量向量更新策略

避免重复embedding

背景只对“新增或变化的内容”做 embedding，而不是每次重新处理所有文档。一, 增量更新的三个层级层级粒度推荐程度文件级 PDF ⭐⭐⭐⭐ 页面级 page ⭐⭐⭐ ...

Posted by LuochuanAD on March 14, 2026

Strict Frog's Blog

Fine-tuning之高质量SFT数据结构设计

高质量SFT数据结构

Fine-tuning之简单的数据准备与预处理

Fine-tuning

Fine-tuning之数据质量处理

数据清洗

Fine-tuning之SFT数据来源

数据来源分析

高品質SFTデータ構造設計のファインチューニング

高品質SFTデータ構造

微調整のための簡単なデータ準備と前処理

ファインチューニング

微調整におけるデータ品質の処理

データクリーニング

ファインチューニングにおけるSFTデータの出所

データソース分析

Simple Data Preparation and Preprocessing for Fine-tuning

Fine-tuning

SFT Data Sources for Fine-tuning

Data Source Analysis

High-Quality SFT Data Structure Design for Fine-tuning

High-Quality SFT Data Structure

Data Quality Management in Fine-tuning

Data Cleaning

私有RAG之极限优化等待时间

私有RAG

Self-Evolving的设计思想

Self-Evolving

Embedding之增量向量更新策略

避免重复embedding

FEATURED TAGS

ABOUT ME

FRIENDS