ファインチューニングにおけるSFTデータの出所

データソース分析

Posted by LuochuanAD on March 15, 2026 本文总阅读量

背景

LMをファインチューニングするためのSFTデータソースは何がありますか?

1 オープンデータセット

代表例:

Stanford University Alpaca

https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json

Hugging Face datasets

https://huggingface.co/datasets

OpenAI OpenAssistant

https://github.com/LAION-AI/Open-Assistant/tree/main/oasst-data

2 LLMを用いた自動データ生成(最も一般的)

import openai
import json

prompt = "Generate 50 math reasoning QA pairs with step-by-step reasoning."

def generate_data(prompt):
	
    response = openai.chat.completions.create(
        model="gpt-4",
        messages=[{"role":"user","content":prompt}]
    )

    return response.choices[0].message.content

3 実際の対話をスクレイピング

ソース:

  • Reddit
  • StackOverflow
  • GitHub issues
  • Wikipedia

実ユーザーの質問は質が非常に高いです。

よってクローラーを作成する必要がありますが、ここでは提供しません。

4 プライベートデータベースの知識

企業のRAG知識ベース、ドキュメント、ウェブサイト

5 手動で作成した高品質データ

フォーマットは以下の記事を参照してください: 「Fine-tuningにおける高品質SFTデータ構造設計」

https://strictfrog.com/ja/2026-03-15-%E9%AB%98%E5%93%81%E8%B3%AAsft%E3%83%87%E3%83%BC%E3%82%BF%E6%A7%8B%E9%80%A0%E8%A8%AD%E8%A8%88%E3%81%AE%E3%83%95%E3%82%A1%E3%82%A4%E3%83%B3%E3%83%81%E3%83%A5%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0/