- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

RAG 技术深度解析：构建企业级智能问答系统的核心架构与实战

柠檬🍋 发表于 2026/06/22 21:29:06 2026/06/22

【摘要】 RAG 技术深度解析：构建企业级智能问答系统的核心架构与实战引言在生成式人工智能（Generative AI）爆发的浪潮中，大型语言模型（LLM）如 ChatGPT、Llama 3 等展现了惊人的文本生成和逻辑推理能力。然而，这些通用模型往往面临两个核心痛点：知识滞后性和幻觉问题。通用模型的知识截止于训练数据，无法实时获取最新资讯；同时，它们可能会“一本正经地胡说八道”，编造事实。检索增...

RAG 技术深度解析：构建企业级智能问答系统的核心架构与实战

引言

在生成式人工智能（Generative AI）爆发的浪潮中，大型语言模型（LLM）如 ChatGPT、Llama 3 等展现了惊人的文本生成和逻辑推理能力。然而，这些通用模型往往面临两个核心痛点：知识滞后性和幻觉问题。通用模型的知识截止于训练数据，无法实时获取最新资讯；同时，它们可能会“一本正经地胡说八道”，编造事实。

检索增强生成（Retrieval-Augmented Generation, RAG）技术的出现，恰好解决了这两个痛点。RAG 并非一种单一的算法，而是一种架构范式，它将“检索”与“生成”有机结合。通过先从外部知识库中检索相关信息，再将这些信息作为上下文提供给 LLM 进行回答，RAG 显著提升了回答的准确性、时效性和可解释性。

本文将深入探讨 RAG 的工作原理、核心组件，并通过 Python 代码示例展示如何构建一个基础且可运行的 RAG 系统。

一、 RAG 的核心架构与工作流程

RAG 的基本流程可以概括为三个步骤：索引（Indexing）、检索（Retrieval）和生成（Generation）。

数据预处理与索引：
首先，需要将非结构化数据（如 PDF、Word、网页 HTML、数据库记录等）清洗、分割成适合模型处理的片段（Chunks）。接着，使用嵌入模型（Embedding Model）将这些文本片段转换为高维向量，并存储向量数据库中。这一步建立了文本与语义空间之间的映射。
用户查询与检索：
当用户提出问题时，系统同样使用嵌入模型将问题转换为向量。随后，在向量数据库中执行相似度搜索（Similarity Search），找出与问题语义最相关的 Top-K 个文本片段。
上下文增强与生成：
系统将检索到的相关文本片段与原始用户问题组合成一个提示词（Prompt），输入给 LLM。LLM 基于提供的证据生成最终答案。

二、关键技术组件详解

1. 文本分割（Text Splitting）

文本分割的质量直接决定检索效果。常见的策略包括：

固定长度分割：按字符数或令牌数切分，简单但可能切断语义。
基于段落/句子分割：保留自然语义边界，更利于理解。
递归字符分割：优先在标点符号处切断，失败时再按字符数切分，是 LangChain 等框架的默认策略。

2. 嵌入模型（Embedding Model）

嵌入模型将文本转化为向量，是 RAG 的“翻译官”。向量之间的距离（如余弦相似度）反映了语义的相近程度。常用的开源模型包括 OpenAI 的 text-embedding-ada-002、BGE（Baidu General Embedding）以及 Cohere Embeddings。

3. 向量数据库（Vector Database）

传统数据库无法高效处理高维向量检索。向量数据库如 Pinecone、Milvus、Faiss 或 Chroma 专门优化了近似最近邻（ANN）搜索算法，能在海量数据中快速找到相似向量。

4. 重排序（Reranking）

初检索（Retrieval）通常使用嵌入相似度，速度极快但精度有限。引入重排序模型（如 BGE Reranker）对初步检索出的 Top-K 结果进行精细化打分和排序，剔除噪声，能显著提升最终答案的质量。

三、实战：使用 LangChain 构建 RAG 系统

为了直观展示 RAG 的实现，我们将使用 Python 中最流行的 LLM 应用开发框架 LangChain，结合 Chroma 向量数据库和 OpenAI 的模型 API 来构建一个简易的知识库问答系统。

环境准备

首先，安装必要的依赖库：

pip install langchain langchain-openai langchain-community chromadb pypdf

代码实现

以下是完整的代码示例，包含数据加载、处理、索引、检索和生成全过程。

import os
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

# 设置 OpenAI API Key (请确保已配置环境变量 OPENAI_API_KEY)
# os.environ["OPENAI_API_KEY"] = "your_api_key_here"

class RAGSystem:
    def __init__(self, pdf_path):
        self.pdf_path = pdf_path
        self.llm = OpenAI(temperature=0, model_name="gpt-3.5-turbo-instruct")
        self.embeddings = OpenAIEmbeddings()
        
    def load_and_split_document(self):
        """加载 PDF 并进行文本分割"""
        loader = PyPDFLoader(self.pdf_path)
        documents = loader.load()
        
        # 使用递归字符分割器，设置合理的 chunk size 和 overlap
        text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=500,      # 每个片段的大小
            chunk_overlap=100,   # 片段之间的重叠，以保持上下文连贯性
            length_function=len
        )
        texts = text_splitter.split_documents(documents)
        print(f"成功加载文档，分割成 {len(texts)} 个文本片段。")
        return texts
    
    def create_vector_store(self, texts):
        """创建向量存储并嵌入文本"""
        # 使用 Chroma 作为持久化向量数据库
        self.vectorstore = Chroma.from_documents(
            documents=texts,
            embedding=self.embeddings,
            persist_directory="./chroma_db"  # 本地存储路径
        )
        print("向量数据库创建成功。")
        
    def setup_retriever(self):
        """设置检索器"""
        self.retriever = self.vectorstore.as_retriever(
            search_type="similarity",  # 相似度搜索
            search_kwargs={"k": 3}     # 返回最相关的 3 个片段
        )
        
    def build_chain(self):
        """构建 RAG 链"""
        # 定义自定义 Prompt 模板
        template = """使用以下上下文来回答最后的问题。如果你不知道答案，就说你不知道，不要编造事实。
        上下文: {context}
        问题: {question}
        答案:"""
        
        QA_CHAIN_PROMPT = PromptTemplate.from_template(template)
        
        # 创建检索增强生成链
        qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            chain_type="stuff",      # 将所有检索到的内容塞进 Prompt
            retriever=self.retriever,
            chain_type_kwargs={"prompt": QA_CHAIN_PROMPT}
        )
        return qa_chain
        
    def query(self, question):
        """执行查询"""
        result = self.chain.invoke({"query": question})
        return result['result']

# --- 执行流程 ---

if __name__ == "__main__":
    # 假设你有一个名为 report.pdf 的文件
    # 请替换为你实际的文件路径
    pdf_file = "sample_report.pdf" 
    
    # 1. 初始化系统
    rag = RAGSystem(pdf_file)
    
    # 2. 加载并分割文档
    texts = rag.load_and_split_document()
    
    # 3. 创建向量存储
    rag.create_vector_store(texts)
    
    # 4. 设置检索器并构建链
    rag.setup_retriever()
    rag.chain = rag.build_chain()
    
    # 5. 测试查询
    questions = [
        "这份报告主要讨论了哪些主题？",
        "根据文档，未来三年的市场预测是多少？"
    ]
    
    for q in questions:
        print(f"问题: {q}")
        answer = rag.query(q)
        print(f"回答: {answer}\n")

代码解析

load_and_split_document：利用 PyPDFLoader 读取 PDF，并通过 RecursiveCharacterTextSplitter 将长文档切分为小片段。chunk_overlap 的设置至关重要，它能防止因切分导致的关键信息丢失。
create_vector_store：使用 Chroma 将分割后的文本通过 OpenAI Embedding 模型向量化，并持久化到本地磁盘。Chroma 是一款轻量级、易于部署的向量数据库，非常适合原型开发。
setup_retriever：配置检索器。这里使用了“相似度搜索”，并限制返回前 3 个最相关的片段。
build_chain：这是 RAG 的灵魂。我们定义了一个提示词模板，强制 LLM 仅依据提供的 context 回答问题，从而抑制幻觉。RetrievalQA 链自动完成了“检索 -> 组装 Prompt -> 调用 LLM”的过程。
query：用户输入问题，链式结构返回最终答案。

四、 RAG 的进阶优化策略

上述代码是一个基础版的 RAG。在生产环境中，为了获得更好的效果，通常需要引入以下进阶技术：

1. 元数据过滤（Metadata Filtering）

在向量检索前，先通过元数据（如文档类型、创建日期、部门等）进行预过滤。例如，如果用户询问“2023年的销售数据”，系统应先过滤掉2022年及以前的文档，再在剩余文档中进行向量相似度搜索。这既提高了效率，也提升了准确性。

2. 多路检索（Hybrid Search）

结合关键词搜索（BM25）和向量语义搜索。BM25 擅长匹配精确术语，而向量搜索擅长理解语义。将两者的得分加权融合（如 RRFRank），能显著提升检索的召回率和准确率。LangChain 中的 EnsembleRetriever 可以轻松实现这一策略。

3. 文档聚合与摘要（Agentic RAG）

对于复杂问题，单次检索往往不足以获取完整信息。Agent RAG 技术让 LLM 自行决定是否需要多次检索、甚至调用外部工具。例如，LLM 可以先检索“公司Q1财报”，发现信息不足，再主动检索“公司Q2财报”，最后综合两者生成答案。

4. 错误评估与持续迭代

RAG 系统的效果难以量化。可以使用 RAGAS（Retrieval-Augmented Generation Assessment）等框架，从检索相关性、回答忠实度和答案相关性三个维度对系统进行自动化评估，从而指导模型选择和参数调优。

五、挑战与未来展望

尽管 RAG 技术优势明显，但仍面临挑战：

延迟问题：检索+生成流程增加了响应时间，尤其在长文档检索时。
上下文窗口限制：随着检索到的片段增多，可能超出 LLM 的最大上下文窗口，需要高效的压缩或摘要机制。
维护成本：知识库的实时更新、去重、清洗需要完善的工程化 pipeline。

未来，RAG 将与 Agent（智能体）技术更深度融合，从“被动回答问题”转向“主动完成任务”。同时，小模型（SLM）配合 RAG 架构，有望在降低成本的同时提供接近大模型的性能，推动企业级 AI 应用的普及。

结语

RAG 是连接通用大语言模型与私有企业知识的桥梁。它不仅仅是一项技术，更是一种思维模式：让 AI 基于事实说话，让创造力建立在知识之上。通过本文的代码示例和架构解析，希望能为读者构建属于自己的智能问答系统提供清晰的路线图。在实际应用中，根据具体场景不断迭代优化检索策略和提示工程，将是解锁 RAG 最大潜力的关键。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

RAG 技术深度解析：构建企业级智能问答系统的核心架构与实战

RAG 技术深度解析：构建企业级智能问答系统的核心架构与实战

引言

一、 RAG 的核心架构与工作流程

二、关键技术组件详解

1. 文本分割（Text Splitting）

2. 嵌入模型（Embedding Model）

3. 向量数据库（Vector Database）

4. 重排序（Reranking）

三、实战：使用 LangChain 构建 RAG 系统

环境准备

代码实现

代码解析

四、 RAG 的进阶优化策略

1. 元数据过滤（Metadata Filtering）

2. 多路检索（Hybrid Search）

3. 文档聚合与摘要（Agentic RAG）

4. 错误评估与持续迭代

五、挑战与未来展望

结语

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

RAG 技术深度解析：构建企业级智能问答系统的核心架构与实战

RAG 技术深度解析：构建企业级智能问答系统的核心架构与实战

引言

一、 RAG 的核心架构与工作流程

二、 关键技术组件详解

1. 文本分割（Text Splitting）

2. 嵌入模型（Embedding Model）

3. 向量数据库（Vector Database）

4. 重排序（Reranking）

三、 实战：使用 LangChain 构建 RAG 系统

环境准备

代码实现

代码解析

四、 RAG 的进阶优化策略

1. 元数据过滤（Metadata Filtering）

2. 多路检索（Hybrid Search）

3. 文档聚合与摘要（Agentic RAG）

4. 错误评估与持续迭代

五、 挑战与未来展望

结语

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

二、关键技术组件详解

三、实战：使用 LangChain 构建 RAG 系统

五、挑战与未来展望