数据处理

数据处理包含五个部分:数据导入、数据形状变换、数据集划分、数据归一化处理和封装load data函数。数据预处理后,才能被模型调用。


说明:

  • 本教程中的代码都可以在AIStudio上直接运行,Print结果都是基于程序真实运行的结果。
  • 由于是真实案例,代码之前存在依赖关系,因此需要读者逐条、全部运行,否则会导致Print时报错。

读入数据

通过如下代码读入数据,了解下波士顿房价的数据集结构,数据存放在本地目录下housing.data文件中。

  1. # 导入需要用到的package
  2. import numpy as np
  3. import json
  4. # 读入训练数据
  5. datafile = './work/housing.data'
  6. data = np.fromfile(datafile, sep=' ')
  7. data
  1. array([6.320e-03, 1.800e+01, 2.310e+00, ..., 3.969e+02, 7.880e+00,
  2. 1.190e+01])

数据形状变换

由于读入的原始数据是1维的,所有数据都连在一起。因此需要我们将数据的形状进行变换,形成一个2维的矩阵,每行为一个数据样本(14个值),每个数据样本包含13个X(影响房价的特征)和一个Y(该类型房屋的均价)。

  1. # 读入之后的数据被转化成1维array,其中array的第0-13项是第一条数据,第14-27项是第二条数据,以此类推....
  2. # 这里对原始数据做reshape,变成N x 14的形式
  3. feature_names = [ 'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE','DIS',
  4. 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV' ]
  5. feature_num = len(feature_names)
  6. data = data.reshape([data.shape[0] // feature_num, feature_num])
  1. # 查看数据
  2. x = data[0]
  3. print(x.shape)
  4. print(x)
  1. ()
  2. 0.00632

数据集划分

将数据集划分成训练集和测试集,其中训练集用于确定模型的参数,测试集用于评判模型的效果。为什么要对数据集进行拆分,而不能直接应用于模型训练呢?这与学生时代的授课和考试关系比较类似,如 图4 所示。

数据处理 - 图1

图4:训练集和测试集拆分的意义

上学时总有一些自作聪明的同学,平时不认真学习,考试前临阵抱佛脚,将习题死记硬背下来,但是成绩往往并不好。因为学校期望学生掌握的是知识,而不仅仅是习题本身。另出新的考题,才能鼓励学生努力去掌握习题背后的原理。同样我们期望模型学习的是任务的本质规律,而不是训练数据本身,模型训练未使用的数据,才能更真实的评估模型的效果。

在本案例中,我们将80%的数据用作训练集,20%用作测试集,实现代码如下。通过打印训练集的形状,可以发现共有404个样本,每个样本含有13个特征和1个预测值。

  1. ratio = 0.8
  2. offset = int(data.shape[0] * ratio)
  3. training_data = data[:offset]
  4. training_data.shape
  1. (404, 14)

数据归一化处理

对每个特征进行归一化处理,使得每个特征的取值缩放到0~1之间。这样做有两个好处:一是模型训练更高效;二是特征前的权重大小可以代表该变量对预测结果的贡献度(因为每个特征值本身的范围相同)。

  1. # 计算train数据集的最大值,最小值,平均值
  2. maximums, minimums, avgs = \
  3. training_data.max(axis=0), \
  4. training_data.min(axis=0), \
  5. training_data.sum(axis=0) / training_data.shape[0]
  6. # 对数据进行归一化处理
  7. for i in range(feature_num):
  8. #print(maximums[i], minimums[i], avgs[i])
  9. data[:, i] = (data[:, i] - avgs[i]) / (maximums[i] - minimums[i])

封装成load data函数

将上述几个数据处理操作封装成load data函数,以便下一步模型的调用,代码如下。

  1. def load_data():
  2. # 从文件导入数据
  3. datafile = './work/housing.data'
  4. data = np.fromfile(datafile, sep=' ')
  5. # 每条数据包括14项,其中前面13项是影响因素,第14项是相应的房屋价格中位数
  6. feature_names = [ 'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', \
  7. 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV' ]
  8. feature_num = len(feature_names)
  9. # 将原始数据进行Reshape,变成[N, 14]这样的形状
  10. data = data.reshape([data.shape[0] // feature_num, feature_num])
  11. # 将原数据集拆分成训练集和测试集
  12. # 这里使用80%的数据做训练,20%的数据做测试
  13. # 测试集和训练集必须是没有交集的
  14. ratio = 0.8
  15. offset = int(data.shape[0] * ratio)
  16. training_data = data[:offset]
  17. # 计算train数据集的最大值,最小值,平均值
  18. maximums, minimums, avgs = training_data.max(axis=0), training_data.min(axis=0), \
  19. training_data.sum(axis=0) / training_data.shape[0]
  20. # 对数据进行归一化处理
  21. for i in range(feature_num):
  22. #print(maximums[i], minimums[i], avgs[i])
  23. data[:, i] = (data[:, i] - avgs[i]) / (maximums[i] - minimums[i])
  24. # 训练集和测试集的划分比例
  25. training_data = data[:offset]
  26. test_data = data[offset:]
  27. return training_data, test_data
  1. # 获取数据
  2. training_data, test_data = load_data()
  3. x = training_data[:, :-1]
  4. y = training_data[:, -1:]
  1. # 查看数据
  2. print(x[0])
  3. print(y[0])
  1. [-0.02146321 0.03767327 -0.28552309 -0.08663366 0.01289726 0.04634817
  2. 0.00795597 -0.00765794 -0.25172191 -0.11881188 -0.29002528 0.0519112
  3. -0.17590923]
  4. [-0.00390539]