数据集概述

1 功能概述

点击【数据集】,进入数据集设计模块,为下一步数据分析或报表制作进行相关的数据准备;
目前支持创建的数据集类型有数据库数据集、SQL 数据集、Excel 数据集、关联数据集、API 数据集五种:

  • 数据库数据集指直接选择数据库中某一表作为数据集;
  • SQL 数据集可通过编写 SQL 语句后将其查询结果作为数据集;
  • Excel 数据集指通过导入本地 Excel 数据文件生成数据集;
  • 关联数据集可灵活关联多个数据集并按需求选择数据集中的字段;
  • API 数据集是 API 数据源里的接口数据形成的数据集。

2 连接方式

DataEase 数据链接方式支持直连与定时同步,定时同步模式需要 Doris 与 Kettle 组件的支持,由于默认安装的系统均为精简模式,系统不会额外安装 Doris 与 Kettle 组件,故定时同步的按钮为灰色不可点击状态,若需配置定时同步模式,可参考安装模式,切换部署模式为本地模式或集群模式使用。

需注意两种连接方式的差异:

  1. 【直连】:直接访问数据源配置的数据库,数据实时性高,数据压力在所对接的数据库上;
  2. 【定时同步】:DataEase 通过 Kettle 将数据抽取转换并存储在 Doris 中,数据实时性稍差,数据压力在 Doris 中,性能更好。
    提示:定时同步模式下有两个概念,立即更新和稍后同步,立即更新即此次操作会即时更新数据,稍后同步需要设置定时任务或手动去更新数据。
数据源直连定时同步
MySQL支持支持
Oracle支持支持
SQL Server支持支持
PostgreSQL支持支持
Elasticsearch支持不支持
ClickHouse支持不支持
MongoDB支持不支持
AWS RedShift支持支持
MariaDB支持支持
Apache Doris支持支持
Apache Hive支持不支持
Db2支持支持
API不支持支持
TiDB支持支持
Apache Impala支持不支持
StarRocks支持支持
MaxCompute支持不支持
Presto支持不支持
达梦数据库支持不支持
Apache Kylin支持不支持