数组排序
In [1]:
- %pylab
- Using matplotlib backend: Qt4Agg
- Populating the interactive namespace from numpy and matplotlib
sort 函数
先看这个例子:
In [2]:
- names = array(['bob', 'sue', 'jan', 'ad'])
- weights = array([20.8, 93.2, 53.4, 61.8])
- sort(weights)
Out[2]:
- array([ 20.8, 53.4, 61.8, 93.2])
sort
返回的结果是从小到大排列的。
argsort 函数
argsort
返回从小到大的排列在数组中的索引位置:
In [3]:
- ordered_indices = argsort(weights)
- ordered_indices
Out[3]:
- array([0, 2, 3, 1], dtype=int64)
可以用它来进行索引:
In [4]:
- weights[ordered_indices]
Out[4]:
- array([ 20.8, 53.4, 61.8, 93.2])
In [5]:
- names[ordered_indices]
Out[5]:
- array(['bob', 'jan', 'ad', 'sue'],
- dtype='|S3')
使用函数并不会改变原来数组的值:
In [6]:
- weights
Out[6]:
- array([ 20.8, 93.2, 53.4, 61.8])
sort 和 argsort 方法
数组也支持方法操作:
In [7]:
- data = array([20.8, 93.2, 53.4, 61.8])
- data.argsort()
Out[7]:
- array([0, 2, 3, 1], dtype=int64)
argsort
方法与 argsort
函数的使用没什么区别,也不会改变数组的值。
In [8]:
- data
Out[8]:
- array([ 20.8, 93.2, 53.4, 61.8])
但是 sort
方法会改变数组的值:
In [9]:
- data.sort()
In [10]:
- data
Out[10]:
- array([ 20.8, 53.4, 61.8, 93.2])
二维数组排序
对于多维数组,sort方法默认沿着最后一维开始排序:
In [11]:
- a = array([
- [.2, .1, .5],
- [.4, .8, .3],
- [.9, .6, .7]
- ])
- a
Out[11]:
- array([[ 0.2, 0.1, 0.5],
- [ 0.4, 0.8, 0.3],
- [ 0.9, 0.6, 0.7]])
对于二维数组,默认相当于对每一行进行排序:
In [12]:
- sort(a)
Out[12]:
- array([[ 0.1, 0.2, 0.5],
- [ 0.3, 0.4, 0.8],
- [ 0.6, 0.7, 0.9]])
改变轴,对每一列进行排序:
In [13]:
- sort(a, axis = 0)
Out[13]:
- array([[ 0.2, 0.1, 0.3],
- [ 0.4, 0.6, 0.5],
- [ 0.9, 0.8, 0.7]])
searchsorted 函数
searchsorted(sorted_array, values)
searchsorted
接受两个参数,其中,第一个必需是已排序的数组。
In [14]:
- sorted_array = linspace(0,1,5)
- values = array([.1,.8,.3,.12,.5,.25])
In [15]:
- searchsorted(sorted_array, values)
Out[15]:
- array([1, 4, 2, 1, 2, 1], dtype=int64)
排序数组:
0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|
0.0 | 0.25 | 0.5 | 0.75 | 1.0 |
数值:
值 | 0.1 | 0.8 | 0.3 | 0.12 | 0.5 | 0.25 |
---|---|---|---|---|---|---|
插入位置 | 1 | 4 | 2 | 1 | 2 | 1 |
searchsorted
返回的值相当于保持第一个数组的排序性质不变,将第二个数组中的值插入第一个数组中的位置:
例如 0.1
在 [0.0, 0.25) 之间,所以插入时应当放在第一个数组的索引 1
处,故第一个返回值为 1
。
In [16]:
- from numpy.random import rand
- data = rand(100)
- data.sort()
不加括号,默认是元组:
In [17]:
- bounds = .4, .6
- bounds
Out[17]:
- (0.4, 0.6)
返回这两个值对应的插入位置:
In [18]:
- low_idx, high_idx = searchsorted(data, bounds)
利用插入位置,将数组中所有在这两个值之间的值提取出来:
In [19]:
- data[low_idx:high_idx]
Out[19]:
- array([ 0.41122674, 0.4395727 , 0.45609773, 0.45707137, 0.45772076,
- 0.46029997, 0.46757401, 0.47525517, 0.4969198 , 0.53068779,
- 0.55764166, 0.56288568, 0.56506548, 0.57003042, 0.58035233,
- 0.59279233, 0.59548555])