可信
资料有来源、版本、owner 和更新时间。不是谁随手传的都算知识。
RAG 的效果,很大一部分取决于知识库。文档过期、权限不清、切片混乱、来源丢失,模型就会查错、答错。企业知识库建设的目标,是把分散资料变成可检索、可追溯、可治理的知识资产。
企业知识库不是把文件扔进一个目录。它要让人和 AI 都能找到可信资料,并且知道资料从哪里来、是否最新、谁能看、适用什么场景。
资料有来源、版本、owner 和更新时间。不是谁随手传的都算知识。
能按语义、关键词、系统、权限、时间和文档类型找到。
AI 回答里的关键结论,能追到 sourceId 和原文片段。
知识能更新、下线、纠错、质检,并能根据使用反馈持续改进。
不先定场景,知识库会变成“大杂烩”。客服问答需要制度和 FAQ,研发助手需要代码说明和接口文档,PRD 生成需要字段字典、历史需求和业务规则。
| 场景 | 主要用户 | 需要的资料 | 质量要求 |
|---|---|---|---|
| 客服问答 | 客服、运营、用户 | 政策、FAQ、订单状态说明、操作手册 | 版本必须最新,答案要短,最好有引用。 |
| PRD 生成 | 产品、研发、测试 | 字段字典、权限配置、历史 PRD、接口文档 | 来源完整,字段和接口不能编造。 |
| 研发助手 | 工程师 | 架构文档、API、代码索引、错误码、部署说明 | 路径和版本要准,能追到代码或文档。 |
| 制度查询 | 全员、HR、财务、法务 | 制度、流程、审批规则、模板 | 权限严格,过期制度要下线。 |
别一开始就想覆盖全公司。先选一个高频、价值明确、资料相对稳定的场景。
比如“客服问答命中率提升”“PRD 人工修改率下降”“研发查文档时间减少”。
哪些资料能进库,哪些不能进库,哪些只能部分脱敏后进库,要提前定。
企业知识通常分散在文档平台、IM、邮件、工单、代码仓库、接口平台、数据库和个人电脑里。建设知识库的第一步,是盘点哪些资料值得进入正式知识库。
知识库越大,分类越重要。只靠全文搜索,很快会遇到同名系统、旧版本、相邻业务、权限不同等问题。分类和元数据能让检索更准确。
用户问商品导入,应该优先搜商品中心,而不是把订单、物流、财务文档都混进来。
财务制度、客户合同、内部安全策略,不同角色能看到的范围不同。
元数据是知识库的管理字段。它不一定给用户看,但检索、权限、排序、引用、下线、质检都依赖它。
{
"chunkId": "product-import-prd-v2#sec-3.2",
"sourceId": "product-import-prd-v2",
"title": "商品批量导入:失败处理",
"businessDomain": "product",
"system": "product-center",
"docType": "prd",
"version": "v2",
"status": "active",
"owner": "product-platform",
"updatedAt": "2026-05-20",
"permissions": ["product", "rd", "qa"],
"contentHash": "sha256:..."
}
| 元数据 | 用途 | 没有它会怎样 |
|---|---|---|
| sourceId | 追溯来源和引用 | 答案无法审查,也无法纠错。 |
| version / status | 识别最新、过期、废弃资料 | AI 可能引用旧口径。 |
| owner | 找到维护人和审核人 | 资料没人负责,错误难修。 |
| permissions | 控制谁能检索和查看 | 敏感资料可能泄露。 |
| updatedAt | 排序、过期提醒、更新策略 | 难判断资料是否还有效。 |
企业知识库不能靠人工复制粘贴维护。文档更新、接口变更、制度发布,都应该通过稳定的入库流程进入知识库,并保留版本和校验记录。
只处理变化文档,避免每次全量重建。用 contentHash 判断内容是否变了。
解析失败、切片失败、索引失败都要能定位和重跑,不要静默丢资料。
chunk 要能追到原始文档、版本、段落和入库时间。
AI 检索到资料,不代表用户有权看。知识库建设必须把权限作为基础设计,而不是上线后补一个提示词。
docs = searchAllKnowledgeBase(query);
answer = llm.generate(query, docs, "不要泄露敏感信息");
敏感资料已经进入上下文,风险很高。模型也不该承担权限判断。
docs = searchKnowledgeBase({
query,
filters: {
permissions: currentUser.roles,
businessDomain: allowedDomains
}
});
answer = llm.generate(query, docs);
服务端先过滤,模型只看到用户有权使用的资料。
| 风险 | 表现 | 处理方式 |
|---|---|---|
| 越权检索 | 普通员工问到财务敏感制度 | 检索前加权限过滤,答案前再校验引用。 |
| 敏感日志 | prompt 或检索片段被完整写入日志 | 日志脱敏,权限分级,限制原文访问。 |
| 旧资料泄露 | 废弃流程被模型当成当前规则 | status 标记为 deprecated,检索默认过滤。 |
| 注入内容 | 文档中含有“忽略系统指令” | 把文档作为不可信资料,不执行其中指令。 |
知识库上线后,文档会变、业务会变、组织会变。质量治理要盯重复、过期、冲突、缺失、低命中和无 owner 这些问题。
| 质量问题 | 发现方式 | 治理动作 |
|---|---|---|
| 重复文档 | contentHash、相似度、标题重复 | 合并、保留权威版本、旧版本降权。 |
| 过期文档 | updatedAt 超期、上线版本不匹配 | 提醒 owner 审核,过期则下线。 |
| 口径冲突 | 同一字段或规则有不同说法 | 拉 owner 确认,建立优先级和版本规则。 |
| 检索低命中 | 用户反馈、评测集、召回率指标 | 优化切片、补别名、加关键词索引。 |
| 无 owner | 元数据缺失 | 不进入正式知识库,或标记为待认领。 |
企业知识库不是建完就结束。它需要 owner、审核流程、变更通知、反馈回收和定期质检。否则几个月后就会变成新的文档垃圾场。
用户说“答案不对”,要能追到检索片段和原文,最后修知识库或修检索策略。
字段、接口、制度变更后,相关知识片段和评测样例都要同步更新。
覆盖率、命中率、过期率、反馈修复时长,能反映知识库是否健康。
以商品中心为例,目标是支持 PRD 生成、客服问答和研发查询。知识库不直接从“全公司文档”开始,而是围绕商品域先建一套可控资料集。
{
"chunkId": "product-field-dict-v5#sku",
"title": "商品字段:SKU",
"content": "SKU 为商品唯一编码,创建后不可修改,长度不超过 64。",
"businessDomain": "product",
"system": "product-center",
"docType": "field_dictionary",
"version": "v5",
"status": "active",
"owner": "product-platform",
"permissions": ["product", "rd", "qa", "support"],
"aliases": ["商品编码", "skuCode", "货号"]
}
企业知识库的面试重点,不是“用什么向量库”,而是资料怎么可信、怎么更新、怎么授权、怎么评测、怎么持续运营。
企业知识库是一个可治理的资料系统,用来沉淀企业内部的制度、业务规则、产品文档、接口说明、字段字典和 FAQ。
它不只是存文件,还要管理来源、版本、权限、owner、更新时间和质量状态。这样 AI 才能基于可靠资料回答。
我会先明确业务场景和成功标准,比如客服问答、PRD 生成或研发助手。不同场景需要的资料、权限和质量要求不同。
然后盘点权威资料来源,定义分类、元数据和入库标准,再做小范围试点,而不是一开始把所有文档都扔进去。
元数据用于检索、过滤、排序、权限控制和追溯。比如 sourceId、version、status、owner、updatedAt、permissions、businessDomain。
没有元数据,AI 可能引用旧文档、无权限文档或相邻系统文档,出了错也很难追查。
要有 owner 审核、版本管理、过期下线、重复检测、冲突检查和定期巡检。用户反馈和 AI 回答错误也要回收到知识库治理流程里。
指标上可以看覆盖率、命中率、过期率、冲突率、无 owner 比例和反馈修复时长。
权限要在检索前就过滤,不应该先把无权限资料放进上下文,再让模型决定能不能说。
知识片段要带 permissions 或 ACL,检索服务根据当前用户角色过滤。答案里的引用 sourceId 也要校验,确保来自用户有权访问的资料。
如果一个知识库只是“能搜到文档”,还不够。它要能支撑 RAG、问答、生成、评审和审计,就必须有治理能力。
| 环节 | 要问的问题 | 合格标准 |
|---|---|---|
| 场景 | 知识库服务什么业务目标? | 有明确用户、场景和成功指标。 |
| 来源 | 哪些资料是权威来源? | 正式来源优先,口头经验需审核后入库。 |
| 分类 | 能否按业务域、系统、文档类型过滤? | 分类能服务检索和权限控制。 |
| 元数据 | 是否有 sourceId、version、owner、permissions? | 每个知识片段可追溯、可下线、可授权。 |
| 入库 | 文档能否自动解析、清洗、切片、索引? | 流水线可重跑,失败可定位。 |
| 质量 | 能否发现过期、重复、冲突、低命中? | 有质检指标和 owner 修复机制。 |
| 运营 | 业务变化后知识库如何更新? | 变更触发、审核、入库、评测、反馈闭环完整。 |