背景
LMをファインチューニングするためのSFTデータソースは何がありますか?
1 オープンデータセット
代表例:
Stanford University Alpaca
https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/refs/heads/main/alpaca_data.json
Hugging Face datasets
https://huggingface.co/datasets
OpenAI OpenAssistant
https://github.com/LAION-AI/Open-Assistant/tree/main/oasst-data
2 LLMを用いた自動データ生成(最も一般的)
import openai
import json
prompt = "Generate 50 math reasoning QA pairs with step-by-step reasoning."
def generate_data(prompt):
response = openai.chat.completions.create(
model="gpt-4",
messages=[{"role":"user","content":prompt}]
)
return response.choices[0].message.content
3 実際の対話をスクレイピング
ソース:
- StackOverflow
- GitHub issues
- Wikipedia
実ユーザーの質問は質が非常に高いです。
よってクローラーを作成する必要がありますが、ここでは提供しません。
4 プライベートデータベースの知識
企業のRAG知識ベース、ドキュメント、ウェブサイト
5 手動で作成した高品質データ
フォーマットは以下の記事を参照してください: 「Fine-tuningにおける高品質SFTデータ構造設計」