数据类型
Spark、MLeap、Scikit-Learn 和 TensorFlow 自身都支持了相当多的数据类型。庆幸的是,由于这些平台框架都是基于已被广泛认可的数学数据结构来设计,因为他们能够在一定程度上相互兼容。
Data Frame 在一个 Schema 对象中存储它的数据列的数据类型。这个 Schema 对象可被用来决定什么操作能够被应用在某一列上,以及转换操作应该如何去执行。
支持的数据类型
数据类型 | 说明 |
---|---|
Byte | 8 位整型值,所有平台都支持,但 MLeap 和 Spark 只支持带符号整型。 |
Short | 16 位整型值,所有平台都支持,但 MLeap 和 Spark 只支持带符号整型。 |
Integer | 32 位整型值,所有平台都支持,但 MLeap 和 Spark 只支持带符号整型。 |
Long | 64 位整型值,所有平台都支持,但 MLeap 和 Spark 只支持带符号整型。 |
Float | 32 位浮点值,所有平台都支持。 |
Double | 32 位浮点值,所有平台都支持。 |
Boolean | 8 位值,用于表示 true 和 false,在需要的情况下能够被表示成 1 位值。 |
String | 字符集合,根据平台的不同,可能是 null 结尾的变长值,或者是长度放在数据前面的固长值。 |
Array | 以上基础类型的数据的集合。 |
Tensor | 被 MLeap 和 TensorFlow 支持,提供以上基础类型数据集合的多维存储支持。 |