1. Step3 数据准备

智能钛机器学习平台提供两种数据源途径:本地数据COS 数据集。您可在左侧导航栏的【输入】>【数据源】下,选择需要的数据源。

https://main.qcloudimg.com/raw/e11ec428957bb4d312220345ddc26afe.png

1.1. 本地数据

您可以将轻量本地文件(不超过256MB)上传到目标 COS 路径,为下游算法提供输入数据。

  • 您需要有上传目标目录的写权限。
  • 目标 COS 路径自动生成,如需自定义可修改输入指定路径。

1.2. COS 数据集

为下游算法提供输入数据,指定COS数据路径即可通过数据流自动传递。

注意:

使用COS数据集的前提是必须要开通COS服务,相关详细入门指引请参考 COS 入门

COS 服务提供一定的免费额度,超出额度部分将按服务价目表进行收费。详情请参见 COS 免费额度COS 定价

1. 通过COS数据集上传文件的方式:

方式一:通过控制台上传数据文件(适合轻量文件上传)

  • 登录 COS 控制台
  • 在左侧导航栏处,单击【存储桶列表】。
  • 在存储桶列表页,单击左上角【创建存储桶】。详情请参见 创建存储桶
  • 上传文件或文件夹。详情请参见 上传对象方式二:通过客户端上传数据文件(适合大文件上传,支持批量上传下载)

  • 前往 COSBrowser 工具 下载 COS 客户端。

  • 使用云 API 密钥 SecretId 和 SecretKey 登录 COS 客户端。云 API 密钥可在 访问管理控制台 获取,登录后会保留登录信息。
  • 创建存储桶,并上传文件。1.1.3. Step3 数据准备 - 图2 方式三:其他上传方式COS 提供更多开发者上传工具,支持将数据从其他分布式存储迁移至 COS。您可以在 COS 工具概览 中选择合适的上传工具,并按照对应的说明文档进行操作。

2. COS 路径命名规则

  • 工作流画布节点路径(如本地上传COS 数据源和其他算法的 IO 路径中)不需要填写存储桶名称,示例:${cos}/data/train.txt
  • 通过代码访问 COS 数据文件(如 PySpark 等组件中)当用户通过代码访问 COS 上的文件时,需要加前缀/cos_person/ ,与 Spark 相关路径需加前缀file:///cos_person/。例如,在 Python 中读取上例中的 train.txt 文件:
  1. with open("/cos_person/data/forrest/demo/in/train.txt") as f:
  2. for line in f:
  3. print(line)
  1. PySpark 代码中访问 train.txt 文件:
  1. train_data = sc.textFile("file:///cos_person/data/forrest/demo/in/train.txt")

3. 数据格式

数据格式总体分为 DenseLibsvm 两种,您需将数据文件转化为对应的 txt 格式。

Dense

Dense 数据格式每行对应一个样本,每列对应一个特征,在 COS 中每行样本的各列以空格连接,如下:

  1. 10.2 12.8 3.67 ...
  2. 25.9 55.9 29.0 ...
  3. 7.89 0.89 14.5 ...

Libsvm

Libsvm 数据格式是数据的一种稀疏表达方式,仅支持标准的 Libsvm 数据格式。Libsvm 数据格式作为输入数据时无需刻意指明,系统通过模式匹配自动识别数据是 Dense 还是 Libsvm 格式。每行中的元素以空格连接,如下:

  1. 1 1:0.5 3:3.1 7:1.0
  2. 0 2:0.1 3:2.3 5:2.0
  3. 2 4:0.2 7:1.1 9:0.0
  • 标准 Libsvm 数据格式要求:数据中的 index 必须是从1开始计数,且以升序排列。
  • 特征数目:稀疏表达的数据需要指定特征数,特征列参数中指定"1-featureSize"。如“1-19”表示特征数有19维。若不确定参数数目,可以参数选择列为空。