背景

大语言模型在训练阶段通常基于大规模语料（如 Common Crawl、Wikipedia、Books、Code等）进行离线学习，因此它们的知识存在以下问题：

为此，RAG（Retrieval-Augmented Generation，检索增强生成）框架被提出，用于将外部知识库引入到生成模型推理流程中，通过“检索 → 生成”的两阶段架构，让模型“读过资料再作答”。

RAG 的优势

一个典型的 RAG 系统包含两个核心模块：

检索器（Retriever）：从外部知识库（Knowledge Base）中找出与问题最相关的文档片段。
生成器（Generator）：利用语言模型（如ChatGPT、LLaMA、Qwen等）读取检索到的内容并生成最终回答。通常会将“问题 + 检索结果”拼接作为Prompt输入模型。

模块	实现方案
文档预处理	文档切分（按段落/窗口滑动），清洗，结构化
文档向量化	`sentence-transformers`，`text2vec`，`OpenAI Embedding API`，`BGE` 等
向量索引	`FAISS`, `Milvus`, `Weaviate`
检索接口	自定义相似度搜索、Hybrid-Retrieval、LangChain Retriever API
Prompt构造	自定义模板，支持Query + Top-k文档拼接，或 chunk reranking
生成模型	`transformers` 中的 LLM，如 Qwen, ChatGLM, Mistral, llama.cpp 等
框架集成	LangChain、LlamaIndex、Haystack、RAGatouille、PrivateGPT 等