Louis | strictfrog.com

Fine-tuning之SFT数据来源

数据来源分析

背景用于微调LM的SFT数据来源有哪些? 1 开源数据集常见： Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json Hugging Face datasets https://hu...

Posted by LuochuanAD on March 15, 2026

高品質SFTデータ構造設計のファインチューニング

高品質SFTデータ構造

背景ファインチューニングモデルの性能＝ 70% データ構造設計 + 20% データ品質 + 10% トレーニングパラメータこの記事は「データ構造設計」にのみ焦点を当てます。高品質SFTデータの5つのレベル Level 1 基本的なQ&A Level 2 システムプロンプト Level 3 思考の連鎖 (CoT) Level 4 多段対話 ...

Posted by LuochuanAD on March 15, 2026

微調整のための簡単なデータ準備と前処理

ファインチューニング

背景プライベートLLMで最も重要なのは、プライベートデータを使ってLLMをファインチューニングすることです。本記事ではまずデータ準備と前処理の方法を解説します。データ準備スタンフォードのAlpacaトレーニングで使用されているデータセットをダウンロードすると、次のような形式のJSONファイルが得られます: alpaca_data.json [ { ...

Posted by LuochuanAD on March 15, 2026

微調整におけるデータ品質の処理

データクリーニング

背景微調モデルの性能＝ 70% データ構造設計＋ 20% データ品質＋ 10% トレーニングパラメータこの記事はデータ品質、つまりデータクリーニングについてのみ説明します。完全なデータクリーニングパイプライン原データ ↓ フォーマット統一 ↓ 簡易重複除去 ↓ 意味的重複除去 ↓ ノイズフィルタリング ↓ 長さ制御 ↓ 言語フ...

Posted by LuochuanAD on March 15, 2026

ファインチューニングにおけるSFTデータの出所

データソース分析

背景 LMをファインチューニングするためのSFTデータソースは何がありますか？ 1 オープンデータセット代表例： Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json Hugging F...

Posted by LuochuanAD on March 15, 2026

Simple Data Preparation and Preprocessing for Fine-tuning

Fine-tuning

Background For private LLMs, the most important part is fine-tuning the LLM with private data. This article first explains how to prepare and preprocess the data. Data Preparation By downloa...

Posted by LuochuanAD on March 15, 2026

SFT Data Sources for Fine-tuning

Data Source Analysis

Background What are the sources of SFT data for fine-tuning LMs? 1 Open Source Datasets Common ones: Stanford University Alpaca https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/...

Posted by LuochuanAD on March 15, 2026

High-Quality SFT Data Structure Design for Fine-tuning

High-Quality SFT Data Structure

Background Fine-tuning model capability = 70% Data Structure Design + 20% Data Quality + 10% Training Parameters This article focuses solely on “Data Structure Design.” 5 Levels of High-Qual...

Posted by LuochuanAD on March 15, 2026

Data Quality Management in Fine-tuning

Data Cleaning

Background Fine-tuning model performance = 70% data structure design + 20% data quality + 10% training parameters This article focuses solely on data quality, specifically data cleaning. Com...

Posted by LuochuanAD on March 15, 2026

私有RAG之极限优化等待时间

私有RAG

背景在构建RAG系统过程中,我通过设计Query Rewrite, Rerank,Structural Chunk,Structural prompt等,极大的增加了RAG检索出来的知识的准确性. 但在使用集成了此RAG的flask程序软件中发现有大量的等待时间, 所以写下此篇文章尽可能的优化等待时间. 案例: 通过调用私有API, 获取大量的PDF,将PDF文件OCR...

Posted by LuochuanAD on March 14, 2026

Self-Evolving的设计思想

Self-Evolving

背景能够持续自我研发（Self-R&D）的 Agent 系统。能够持续研发新的工具、算法、策略、系统 Self-Improving Agent 的设计思想整体架构: User Goal ↓ Task System ↓ Agent System ↓ Performance Monitoring ↓ Research System ↓ N...

Posted by LuochuanAD on March 14, 2026

Embedding之增量向量更新策略

避免重复embedding

背景只对“新增或变化的内容”做 embedding，而不是每次重新处理所有文档。一, 增量更新的三个层级层级粒度推荐程度文件级 PDF ⭐⭐⭐⭐ 页面级 page ⭐⭐⭐ ...

Posted by LuochuanAD on March 14, 2026

私有RAGの極限最適化待機時間

私有RAG

背景 RAGシステムの構築過程で、Query Rewrite、Rerank、Structural Chunk、Structural promptなどを設計することで、RAGによって検索される知識の精度を大幅に向上させました。しかし、このRAGを統合したflaskプログラムを使用しているときに大量の待ち時間が発生することに気づいたため、本記事では可能な限り待ち時間の最適化を行います。 ...

Posted by LuochuanAD on March 14, 2026

埋め込みの増分ベクトル更新戦略

埋め込みの重複を避ける方法

背景「新規または変更されたコンテンツ」のみをembeddingし、毎回すべてのドキュメントを再処理しない。 1. 増分更新の3つのレベルレベル粒度推奨度ファイルレベル PDF ⭐⭐⭐⭐ ページレベルペー...

Posted by LuochuanAD on March 14, 2026

Self-Evolving的設計思想

自己進化

背景自己で継続的に研究開発（Self-R&D）が可能なエージェントシステム。新しいツール、アルゴリズム、戦略、システムを継続的に開発できる。 Self-Improving Agent の設計コンセプト全体構成： User Goal ↓ Task System ↓ Agent System ↓ Performance Monitoring ↓...

Posted by LuochuanAD on March 14, 2026

Strict Frog's Blog

Fine-tuning之SFT数据来源

数据来源分析

高品質SFTデータ構造設計のファインチューニング

高品質SFTデータ構造

微調整のための簡単なデータ準備と前処理

ファインチューニング

微調整におけるデータ品質の処理

データクリーニング

ファインチューニングにおけるSFTデータの出所

データソース分析

Simple Data Preparation and Preprocessing for Fine-tuning

Fine-tuning

SFT Data Sources for Fine-tuning

Data Source Analysis

High-Quality SFT Data Structure Design for Fine-tuning

High-Quality SFT Data Structure

Data Quality Management in Fine-tuning

Data Cleaning

私有RAG之极限优化等待时间

私有RAG

Self-Evolving的设计思想

Self-Evolving

Embedding之增量向量更新策略

避免重复embedding

私有RAGの極限最適化待機時間

私有RAG

埋め込みの増分ベクトル更新戦略

埋め込みの重複を避ける方法

Self-Evolving的設計思想

自己進化

FEATURED TAGS

ABOUT ME

FRIENDS