数据集

FastGPT服务来源:FastGPT 浏览 326 扫码分享 2024-05-26 22:12:24

数据集
- 文件与数据的关系
- 文件导入流程

数据集

FastGPT 数据集中文件与数据的设计方案

文件与数据的关系

在 FastGPT 中，文件会通过 MongoDB 的 FS 存储，而具体的数据会通过 PostgreSQL 存储，PG 中的数据会有一列 file_id，关联对应的文件。考虑到旧版本的兼容，以及手动输入、标注数据等，我们给 file_id 增加了一些特殊的值，如下：

manual: 手动输入
mark: 手动标注的数据

注意，file_id 仅在插入数据时会写入，变更时无法修改。

文件导入流程

上传文件到 MongoDB 的 FS 中，获取 file_id，此时文件标记为 unused 状态
浏览器解析文件，获取对应的文本和 chunk
给每个 chunk 打上 file_id
点击上传数据：将文件的状态改为 used，并将数据推送到 mongo training 表中等待训练
由训练线程从 mongo 中取数据，并在获取向量后插入到 pg。

当前内容版权归 FastGPT 或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问 FastGPT .

本文档使用 BookStack 构建

展开/收起文章目录