1. Step3 数据准备
智能钛机器学习平台提供两种数据源途径:本地数据和 COS 数据集。您可在左侧导航栏的【输入】>【数据源】下,选择需要的数据源。
1.1. 本地数据
您可以将轻量本地文件(不超过256MB)上传到目标 COS 路径,为下游算法提供输入数据。
- 您需要有上传目标目录的写权限。
- 目标 COS 路径自动生成,如需自定义可修改输入指定路径。
1.2. COS 数据集
为下游算法提供输入数据,指定COS数据路径即可通过数据流自动传递。
注意:
使用COS数据集的前提是必须要开通COS服务,相关详细入门指引请参考 COS 入门。
1. 通过COS数据集上传文件的方式:
方式一:通过控制台上传数据文件(适合轻量文件上传)
- 登录 COS 控制台。
- 在左侧导航栏处,单击【存储桶列表】。
- 在存储桶列表页,单击左上角【创建存储桶】。详情请参见 创建存储桶 。
上传文件或文件夹。详情请参见 上传对象 。 方式二:通过客户端上传数据文件(适合大文件上传,支持批量上传下载)
前往 COSBrowser 工具 下载 COS 客户端。
- 使用云 API 密钥 SecretId 和 SecretKey 登录 COS 客户端。云 API 密钥可在 访问管理控制台 获取,登录后会保留登录信息。
- 创建存储桶,并上传文件。 方式三:其他上传方式COS 提供更多开发者上传工具,支持将数据从其他分布式存储迁移至 COS。您可以在 COS 工具概览 中选择合适的上传工具,并按照对应的说明文档进行操作。
2. COS 路径命名规则
- 工作流画布节点路径(如本地上传、COS 数据源和其他算法的 IO 路径中)不需要填写存储桶名称,示例:${cos}/data/train.txt
- 通过代码访问 COS 数据文件(如 PySpark 等组件中)当用户通过代码访问 COS 上的文件时,需要加前缀
/cos_person/
,与 Spark 相关路径需加前缀file:///cos_person/
。例如,在 Python 中读取上例中的 train.txt 文件:
with open("/cos_person/data/forrest/demo/in/train.txt") as f:
for line in f:
print(line)
在 PySpark 代码中访问 train.txt 文件:
train_data = sc.textFile("file:///cos_person/data/forrest/demo/in/train.txt")
3. 数据格式
数据格式总体分为 Dense 和 Libsvm 两种,您需将数据文件转化为对应的 txt 格式。
Dense
Dense 数据格式每行对应一个样本,每列对应一个特征,在 COS 中每行样本的各列以空格连接,如下:
10.2 12.8 3.67 ...
25.9 55.9 29.0 ...
7.89 0.89 14.5 ...
Libsvm
Libsvm 数据格式是数据的一种稀疏表达方式,仅支持标准的 Libsvm 数据格式。Libsvm 数据格式作为输入数据时无需刻意指明,系统通过模式匹配自动识别数据是 Dense 还是 Libsvm 格式。每行中的元素以空格连接,如下:
1 1:0.5 3:3.1 7:1.0
0 2:0.1 3:2.3 5:2.0
2 4:0.2 7:1.1 9:0.0
- 标准 Libsvm 数据格式要求:数据中的 index 必须是从1开始计数,且以升序排列。
- 特征数目:稀疏表达的数据需要指定特征数,特征列参数中指定"1-featureSize"。如“1-19”表示特征数有19维。若不确定参数数目,可以参数选择列为空。