情報検索とRAG¶
ハイブリッド検索¶
Spikuitは複数のシグナルを1つのスコアに統合して検索します:
- キーワード類似度: BM25スタイルのテキストマッチング
- セマンティック類似度: エンベッダー設定時はsqlite-vecのKNN検索を利用
- 検索可能性: FSRSベースの記憶の強さ — 定着している知識ほど上位に
- 中心性: グラフ上の位置的な重要度
- 圧力: 近傍の復習で蓄積するLIFベースの緊急度
- フィードバックブースト: QABotSessionの承認/不採用で蓄積される加点
検索拡張生成 (RAG)¶
従来のRAGパイプラインはドキュメントのチャンキング、メタデータ抽出、
エンベディングパイプラインの構築と、前処理の手間が大きいのが難点です。
Spikuitはこれを対話型キュレーションで置き換えます。エージェントが
/spkt-ingest の会話を通じて、チャンキング・タグ付け・接続まで面倒を見ます。
参考文献¶
- Robertson, S. & Zaragoza, H. (2009). The Probabilistic Relevance Framework: BM25 and Beyond. Foundations and Trends in Information Retrieval, 3(4), 333–389.
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.