结构化数组

假设我们要保存这样的数据:

name age wgt
0 dan 1 23.1
1 ann 0 25.1
2 sam 2 8.3

希望定义一个一维数组,每个元素有三个属性 name, age, wgt,此时我们需要使用结构化数组。

In [1]:

  1. import numpy as np

定义数组 a

0 1 2 3
1.0 2.0 3.0 4.0

In [2]:

  1. a = np.array([1.0,2.0,3.0,4.0], np.float32)

使用 view 方法,将 a 对应的内存按照复数来解释:

In [3]:

  1. a.view(np.complex64)

Out[3]:

  1. array([ 1.+2.j, 3.+4.j], dtype=complex64)
0 1 2 3
1.0 2.0 3.0 4.0
real imag real imag

事实上,我们可以把复数看成一个结构体,第一部分是实部,第二部分是虚部,这样这个数组便可以看成是一个结构化数组。

换句话说,我们只需要换种方式解释这段内存,便可以得到结构化数组的效果!

0 1 2 3
1.0 2.0 3.0 4.0
mass vol mass vol

例如,我们可以将第一个浮点数解释为质量,第二个浮点数解释为速度,则这段内存还可以看成是包含两个域(质量和速度)的结构体。

In [4]:

  1. my_dtype = np.dtype([('mass', 'float32'), ('vol', 'float32')])

In [5]:

  1. a.view(my_dtype)

Out[5]:

  1. array([(1.0, 2.0), (3.0, 4.0)],
  2. dtype=[('mass', '<f4'), ('vol', '<f4')])

这里,我们使用 dtype 创造了自定义的结构类型,然后用自定义的结构来解释数组 a 所占的内存。

这里 f4 表示四字节浮点数,< 表示小字节序。

利用这个自定义的结构类型,我们可以这样初始化结构化数组:

In [6]:

  1. my_data = np.array([(1,1), (1,2), (2,1), (1,3)], my_dtype)
  2.  
  3. print my_data
  1. [(1.0, 1.0) (1.0, 2.0) (2.0, 1.0) (1.0, 3.0)]

第一个元素:

In [7]:

  1. my_data[0]

Out[7]:

  1. (1.0, 1.0)

得到第一个元素的速度信息,可以使用域的名称来索引:

In [8]:

  1. my_data[0]['vol']

Out[8]:

  1. 1.0

得到所有的质量信息:

In [9]:

  1. my_data['mass']

Out[9]:

  1. array([ 1., 1., 2., 1.], dtype=float32)

自定义排序规则,先按速度,再按质量:

In [10]:

  1. my_data.sort(order=('vol', 'mass'))
  2.  
  3. print my_data
  1. [(1.0, 1.0) (2.0, 1.0) (1.0, 2.0) (1.0, 3.0)]

回到最初的例子,定义一个人的结构类型:

In [11]:

  1. person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])

查看类型所占字节数:

In [12]:

  1. person_dtype.itemsize

Out[12]:

  1. 22

产生一个 3 x 4 共12人的空结构体数组:

In [13]:

  1. people = np.empty((3,4), person_dtype)

分别赋值:

In [14]:

  1. people['name'] = [['Brad', 'Jane', 'John', 'Fred'],
  2. ['Henry', 'George', 'Brain', 'Amy'],
  3. ['Ron', 'Susan', 'Jennife', 'Jill']]

In [15]:

  1. people['age'] = [[33, 25, 47, 54],
  2. [29, 61, 32, 27],
  3. [19, 33, 18, 54]]

In [16]:

  1. people['weight'] = [[135., 105., 255., 140.],
  2. [154., 202., 137., 187.],
  3. [188., 135., 88., 145.]]

In [17]:

  1. print people
  1. [[('Brad', 33, 135.0) ('Jane', 25, 105.0) ('John', 47, 255.0)
  2. ('Fred', 54, 140.0)]
  3. [('Henry', 29, 154.0) ('George', 61, 202.0) ('Brain', 32, 137.0)
  4. ('Amy', 27, 187.0)]
  5. [('Ron', 19, 188.0) ('Susan', 33, 135.0) ('Jennife', 18, 88.0)
  6. ('Jill', 54, 145.0)]]

In [18]:

  1. people[-1,-1]

Out[18]:

  1. ('Jill', 54, 145.0)

从文本中读取结构化数组

我们有这样一个文件:

In [19]:

  1. %%writefile people.txt
  2. name age weight
  3. amy 11 38.2
  4. john 10 40.3
  5. bill 12 21.2
  1. Writing people.txt

利用 loadtxt 指定数据类型,从这个文件中读取结构化数组:

In [20]:

  1. person_dtype = np.dtype([('name', 'S10'), ('age', 'int'), ('weight', 'float')])
  2.  
  3. people = np.loadtxt('people.txt',
  4. skiprows=1,
  5. dtype=person_dtype)
  6.  
  7. people

Out[20]:

  1. array([('amy', 11, 38.2), ('john', 10, 40.3), ('bill', 12, 21.2)],
  2. dtype=[('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

查看 name 域:

In [21]:

  1. people['name']

Out[21]:

  1. array(['amy', 'john', 'bill'],
  2. dtype='|S10')

删除文件:

In [22]:

  1. import os
  2. os.remove('people.txt')

对于下面的文件:

In [23]:

  1. %%writefile wood.csv
  2. item,material,number
  3. 100,oak,33
  4. 110,maple,14
  5. 120,oak,7
  6. 145,birch,3
  1. Writing wood.csv

定义转换函数处理材料属性,使之对应一个整数:

In [24]:

  1. tree_to_int = dict(oak = 1,
  2. maple=2,
  3. birch=3)
  4.  
  5. def convert(s):
  6. return tree_to_int.get(s, 0)

使用 genfromtxt 载入数据,可以自动从第一行读入属性名称:

In [25]:

  1. data = np.genfromtxt('wood.csv',
  2. delimiter=',', # 逗号分隔
  3. dtype=np.int, # 数据类型
  4. names=True, # 从第一行读入域名
  5. converters={1:convert}
  6. )

In [26]:

  1. data

Out[26]:

  1. array([(100, 1, 33), (110, 2, 14), (120, 1, 7), (145, 3, 3)],
  2. dtype=[('item', '<i4'), ('material', '<i4'), ('number', '<i4')])

查看域:

In [27]:

  1. data['material']

Out[27]:

  1. array([1, 2, 1, 3])

删除文件:

In [28]:

  1. os.remove('wood.csv')

嵌套类型

有时候,结构数组中的域可能包含嵌套的结构,例如,在我们希望在二维平面上纪录一个质点的位置和质量:

position mass
x y
——-

那么它的类型可以这样嵌套定义:

In [29]:

  1. particle_dtype = np.dtype([('position', [('x', 'float'),
  2. ('y', 'float')]),
  3. ('mass', 'float')
  4. ])

假设数据文件如下:

In [30]:

  1. %%writefile data.txt
  2. 2.0 3.0 42.0
  3. 2.1 4.3 32.5
  4. 1.2 4.6 32.3
  5. 4.5 -6.4 23.3
  1. Overwriting data.txt

读取数据:

In [31]:

  1. data = np.loadtxt('data.txt', dtype=particle_dtype)

In [32]:

  1. data

Out[32]:

  1. array([((2.0, 3.0), 42.0), ((2.1, 4.3), 32.5), ((1.2, 4.6), 32.3),
  2. ((4.5, -6.4), 23.3)],
  3. dtype=[('position', [('x', '<f8'), ('y', '<f8')]), ('mass', '<f8')])

查看位置的 x 轴:

In [33]:

  1. data['position']['x']

Out[33]:

  1. array([ 2. , 2.1, 1.2, 4.5])

删除生成的文件:

In [34]:

  1. os.remove('data.txt')

原文: https://nbviewer.jupyter.org/github/lijin-THU/notes-python/blob/master/03-numpy/03.20-structured-arrays.ipynb