埋め込みの増分ベクトル更新戦略

背景

「新規または変更されたコンテンツ」のみをembeddingし、毎回すべてのドキュメントを再処理しない。

1. 増分更新の3つのレベル

レベル	粒度	推奨度
ファイルレベル	PDF	⭐⭐⭐⭐
ページレベル	ページ	⭐⭐⭐
チャンクレベル	段落	⭐⭐⭐⭐⭐

推奨されるワークフロー:

プライベートAPI
 ↓
ファイル取得
 ↓
PDFのハッシュ計算
 ↓
新規ファイルか判定
 ├── いいえ → スキップ
 └── はい
      ↓
テキスト抽出
 ↓
チャンク分割
 ↓
チャンクハッシュ計算
 ↓
存在確認
 ├── はい → スキップ
 └── いいえ
      ↓
embedding
 ↓
ベクターデータベース

方法1: ファイルハッシュ

import hashlib

def file_hash(file_bytes):
    return hashlib.md5(file_bytes).hexdigest()

データベース保存例:

file_hash
file_name
processed_at

方法2: ページごとのハッシュ

PDFをページごとに分割し、ページごとにハッシュを計算

データベース保存例:

file_id
page_number
page_hash

方法3: チャンクハッシュ（エンタープライズ向け）

def chunk_hash(text):
    return hashlib.sha1(text.encode()).hexdigest()

データベース保存例:

chunk_id
chunk_hash
vector
metadata

ベクターデータベースのメタデータ設計（方法1と方法3）

推奨メタデータ:

{
  file_id: "pdf123",
  file_hash: "...",
  chunk_hash: "...",
  page: 3,
  source: "Louis_pdf"
}

メリット:

ファイル削除が可能
ファイル更新が容易
ソースフィルタリングが可能

2. 重複排除戦略（重複embeddingを防ぐ）

方法1: 段落ごとの重複排除

多くのPDFに含まれる内容:

免責事項
フッター
会社紹介

方法2: セマンティック重複排除

2つのチャンクの類似度が 0.95 超え

方法3: テキスト近似重複排除

使用ツール：datasketch

適用対象：Webページ、メール、FAQ

3. Embeddingキャッシュ（非常に有効）

text_hash → embeddingをキャッシュとして構築

チャンク
 ↓
ハッシュ化
 ↓
キャッシュを検索

キャッシュが存在すれば、直接embeddingを利用

关于作者

我是Louis,一名长期从事iOS与AI相关工程实践的工程师,也是一个正在探索产品与商业可能性的准创始人.

这里的文章,更多是我在项目中用过,踩过坑,反复验证过的东西,而不是为了流量而写的“快内容”.

☕ 打赏

如果这篇文章对你有帮助,欢迎请我喝一杯咖啡☕️

PayPal
https://www.paypal.me/luochuan188

PayPay

You can support my work via PayPay by searching my PayPay ID:

PayPay ID: luochuan

微信支付

支付宝

你的支持会让我有更多时间,把真实项目中的经验持续整理和分享出来.

不打赏也完全没关系,感谢你读到这里.

联系与合作

如果你:

· 正在做iOS App / AI / 自动化相关的项目

· 对技术选型、架构设计、产品落地有困惑

· 或希望进行技术交流、合作探讨

欢迎通过以下邮箱联系我:

luochuanad@gmail.com

埋め込みの重複を避ける方法

背景

1. 増分更新の3つのレベル

方法1: ファイルハッシュ

方法2: ページごとのハッシュ

方法3: チャンクハッシュ（エンタープライズ向け）

ベクターデータベースのメタデータ設計（方法1と方法3）

2. 重複排除戦略（重複embeddingを防ぐ）

方法1: 段落ごとの重複排除

方法2: セマンティック重複排除

方法3: テキスト近似重複排除

3. Embeddingキャッシュ（非常に有効）

CATALOG

关于作者

☕ 打赏

联系与合作