打造高质量 AI 知识库(过期)

打造高质量 AI 知识库(过期)

利用 FastGPT 打造高质量 AI 知识库

前言

自从去年 12 月 ChatGPT 发布后，带动了新的一轮应用交互革命。尤其是 GPT-3.5 接口全面放开后，LLM 应用雨后春笋般快速涌现，但因为 GPT 的可控性、随机性和合规性等问题，很多应用场景都没法落地。

3 月时候，在 Twitter 上刷到一个老哥使用 GPT 训练自己的博客记录，并且成本非常低（比起 FT）。他给出了一个完整的流程图：

看到这个推文后，我灵机一动，应用场景就十分清晰了。直接上手开干，在经过不到 1 个月时间，FastGPT 在原来多助手管理基础上，加入了向量搜索。于是便有了最早的一期视频：

3 个月过去了，FastGPT 延续着早期的思路去完善和扩展，目前在向量搜索 + LLM 线性问答方面的功能基本上完成了。不过我们始终没有出一期关于如何构建知识库的教程，趁着 V4 在开发中，我们计划介绍一期《如何在 FastGPT 上构建高质量知识库》，以便大家更好的使用。

FastGPT 知识库完整逻辑

在正式构建知识库前，我们先来了解下 FastGPT 是如何进行知识库检索的。首先了解几个基本概念：

向量：将人类直观的语言（文字、图片、视频等）转成计算机可识别的语言（数组）。
向量相似度：两个向量之间可以进行计算，得到一个相似度，即代表：两个语言相似的程度。
语言大模型的一些特点：上下文理解、总结和推理。

结合上述 3 个概念，便有了 “向量搜索 + 大模型 = 知识库问答” 的公式。下图是 FastGPT V3 中知识库问答功能的完整逻辑：

与大部分其他知识库问答产品不一样的是， FastGPT 采用了 QA 问答对进行存储，而不是仅进行 chunk（文本分块）处理。目的是为了减少向量化内容的长度，让向量能更好的表达文本的含义，从而提高搜索精准度。此外 FastGPT 还提供了搜索测试和对话测试两种途径对数据进行调整，从而方便用户调整自己的数据。根据上述流程和方式，我们以构建一个 FastGPT 常见问题机器人为例，展示如何构建一个高质量的 AI 知识库。

构建知识库应用

首先，先创建一个 FastGPT 常见问题知识库

通过 QA 拆分，获取基础知识

我们先直接把 FastGPT Git 上一些已有文档，进行 QA 拆分，从而获取一些 FastGPT 基础的知识。下面是 README 例子。

修正 QA

通过 README 我们一共得到了 11 组数据，整体的质量还是不错的，图片和链接都提取出来了。不过最后一个知识点出现了一些截断，我们需要手动的修正一下。

此外，我们观察到第一列第三个知识点。这个知识点是介绍了 FastGPT 一些资源链接，但是 QA 拆分将答案放置在了 A 中，但通常来说用户的提问并不会直接问“有哪些链接”，通常会问：“部署教程”，“问题文档”之类的。因此，我们需要将这个知识点进行简单的一个处理，如下图：

我们先来创建一个应用，看看效果如何。首先需要去创建一个应用，并且在知识库中关联相关的知识库。另外还需要在配置页的提示词中，告诉 GPT：“知识库的范围”。

整体的效果还是不错的，链接和对应的图片都可以顺利的展示。

录入社区常见问题

接着，我们再把 FastGPT 常见问题的文档导入，由于平时整理不当，我们只能手动的录入对应的问答。

导入结果如上图。可以看到，我们均采用的是问答对的格式，而不是粗略的直接导入。目的就是为了模拟用户问题，进一步的提高向量搜索的匹配效果。可以为同一个问题设置多种问法，效果更佳。 FastGPT 还提供了 openapi 功能，你可以在本地对特殊格式的文件进行处理后，再上传到 FastGPT，具体可以参考：FastGPT Api Docs