itertools —- 为高效循环而创建迭代器的函数


本模块实现一系列 iterator ,这些迭代器受到APL,Haskell和SML的启发。为了适用于Python,它们都被重新写过。

本模块标准化了一个快速、高效利用内存的核心工具集,这些工具本身或组合都很有用。它们一起形成了“迭代器代数”,这使得在纯Python中有可能创建简洁又高效的专用工具。

例如,SML有一个制表工具: tabulate(f),它可产生一个序列 f(0), f(1), ...。在Python中可以组合 map()count() 实现: map(f, count())

这些工具及其内置对应物也能很好地配合 operator 模块中的快速函数来使用。 例如,乘法运算符可以被映射到两个向量之间执行高效的点积: sum(starmap(operator.mul, zip(vec1, vec2, strict=True)))

无穷迭代器:

迭代器

实参

结果

示例

count()

start, [step]

start, start+step, start+2*step, …

count(10) —> 10 11 12 13 14 …

cycle()

p

p0, p1, … plast, p0, p1, …

cycle(‘ABCD’) —> A B C D A B C D …

repeat()

elem [,n]

elem, elem, elem, … 重复无限次或n次

repeat(10, 3) —> 10 10 10

根据最短输入序列长度停止的迭代器:

迭代器

实参

结果

示例

accumulate()

p [,func]

p0, p0+p1, p0+p1+p2, …

accumulate([1,2,3,4,5]) —> 1 3 6 10 15

batched()

p, n

(p0, p1, …, p_n-1), …

batched(‘ABCDEFG’, n=3) —> ABC DEF G

chain()

p, q, …

p0, p1, … plast, q0, q1, …

chain(‘ABC’, ‘DEF’) —> A B C D E F

chain.from_iterable()

iterable — 可迭代对象

p0, p1, … plast, q0, q1, …

chain.from_iterable([‘ABC’, ‘DEF’]) —> A B C D E F

compress()

data, selectors

(d[0] if s[0]), (d[1] if s[1]), …

compress(‘ABCDEF’, [1,0,1,0,1,1]) —> A C E F

dropwhile()

pred, seq

seq[n], seq[n+1], … 从pred首次真值测试失败开始

dropwhile(lambda x: x<5, [1,4,6,4,1]) —> 6 4 1

filterfalse()

pred, seq

seq中pred(x)为假值的元素,x是seq中的元素。

filterfalse(lambda x: x%2, range(10)) —> 0 2 4 6 8

groupby()

iterable[, key]

根据key(v)值分组的迭代器

islice()

seq, [start,] stop [, step]

seq[start:stop:step]中的元素

islice(‘ABCDEFG’, 2, None) —> C D E F G

pairwise()

iterable — 可迭代对象

(p[0], p[1]), (p[1], p[2])

pairwise(‘ABCDEFG’) —> AB BC CD DE EF FG

starmap()

func, seq

func(seq[0]), func(seq[1]), …

starmap(pow, [(2,5), (3,2), (10,3)]) —> 32 9 1000

takewhile()

pred, seq

seq[0], seq[1], …, 直到pred真值测试失败

takewhile(lambda x: x<5, [1,4,6,4,1]) —> 1 4

tee()

it, n

it1, it2, … itn 将一个迭代器拆分为n个迭代器

zip_longest()

p, q, …

(p[0], q[0]), (p[1], q[1]), …

zip_longest(‘ABCD’, ‘xy’, fillvalue=’-‘) —> Ax By C- D-

排列组合迭代器:

迭代器

实参

结果

product()

p, q, … [repeat=1]

笛卡尔积,相当于嵌套的for循环

permutations()

p[, r]

长度r元组,所有可能的排列,无重复元素

combinations()

p, r

长度r元组,有序,无重复元素

combinations_with_replacement()

p, r

长度r元组,有序,元素可重复

例子

结果

product(‘ABCD’, repeat=2)

AA AB AC AD BA BB BC BD CA CB CC CD DA DB DC DD

permutations(‘ABCD’, 2)

AB AC AD BA BC BD CA CB CD DA DB DC

combinations(‘ABCD’, 2)

AB AC AD BC BD CD

combinations_with_replacement(‘ABCD’, 2)

AA AB AC AD BB BC BD CC CD DD

Itertool函数

下列模块函数均创建并返回迭代器。有些迭代器不限制输出流长度,所以它们只应在能截断输出流的函数或循环中使用。

itertools.accumulate(iterable[, func, *, initial=None])

创建一个迭代器,返回累积汇总值或其他双目运算函数的累积结果值(通过可选的 func 参数指定)。

如果提供了 func,它应当为带有两个参数的函数。 输入 iterable 的元素可以是能被 func 接受为参数的任意类型。 (例如,对于默认的加法运算,元素可以是任何可相加的类型包括 DecimalFraction。)

通常,输出的元素数量与输入的可迭代对象是一致的。 但是,如果提供了关键字参数 initial,则累加会以 initial 值开始,这样输出就比输入的可迭代对象多一个元素。

大致相当于:

  1. def accumulate(iterable, func=operator.add, *, initial=None):
  2. 'Return running totals'
  3. # accumulate([1,2,3,4,5]) --> 1 3 6 10 15
  4. # accumulate([1,2,3,4,5], initial=100) --> 100 101 103 106 110 115
  5. # accumulate([1,2,3,4,5], operator.mul) --> 1 2 6 24 120
  6. it = iter(iterable)
  7. total = initial
  8. if initial is None:
  9. try:
  10. total = next(it)
  11. except StopIteration:
  12. return
  13. yield total
  14. for element in it:
  15. total = func(total, element)
  16. yield total

func 参数有多种用法。 它可设为 min() 表示运行中的最小值,max() 表示运行中的最大值,或者 operator.mul() 表示运行中的积。 可以通过累积利息并应用付款额来构建摊销表:

  1. >>> data = [3, 4, 6, 2, 1, 9, 0, 7, 5, 8]
  2. >>> list(accumulate(data, operator.mul)) # running product
  3. [3, 12, 72, 144, 144, 1296, 0, 0, 0, 0]
  4. >>> list(accumulate(data, max)) # running maximum
  5. [3, 4, 6, 6, 6, 9, 9, 9, 9, 9]
  6. # Amortize a 5% loan of 1000 with 10 annual payments of 90
  7. >>> account_update = lambda bal, pmt: round(bal * 1.05) + pmt
  8. >>> list(accumulate(repeat(-90, 10), account_update, initial=1_000))
  9. [1000, 960, 918, 874, 828, 779, 728, 674, 618, 559, 497]

参考一个类似函数 functools.reduce() ,它只返回一个最终累积值。

3.2 新版功能.

在 3.3 版更改: 增加可选参数 func

在 3.8 版更改: 添加了可选的 initial 形参。

itertools.batched(iterable, n)

来自 iterable 的长度为 n 元组形式的批次数据。 最后一个批次可能短于 n

循环处理输入可迭代对象并将数据积累为长度至多为 n 的元组。 输入将被惰性地消耗,能填满一个批次即可。 结果将在批次填满或输入可迭代对象被耗尽时产生:

  1. >>> flattened_data = ['roses', 'red', 'violets', 'blue', 'sugar', 'sweet']
  2. >>> unflattened = list(batched(flattened_data, 2))
  3. >>> unflattened
  4. [('roses', 'red'), ('violets', 'blue'), ('sugar', 'sweet')]
  5. >>> for batch in batched('ABCDEFG', 3):
  6. ... print(batch)
  7. ...
  8. ('A', 'B', 'C')
  9. ('D', 'E', 'F')
  10. ('G',)

大致相当于:

  1. def batched(iterable, n):
  2. # batched('ABCDEFG', 3) --> ABC DEF G
  3. if n < 1:
  4. raise ValueError('n must be at least one')
  5. it = iter(iterable)
  6. while batch := tuple(islice(it, n)):
  7. yield batch

3.12 新版功能.

itertools.chain(*iterables)

创建一个迭代器,它首先返回第一个可迭代对象中所有元素,接着返回下一个可迭代对象中所有元素,直到耗尽所有可迭代对象中的元素。可将多个序列处理为单个序列。大致相当于:

  1. def chain(*iterables):
  2. # chain('ABC', 'DEF') --> A B C D E F
  3. for it in iterables:
  4. for element in it:
  5. yield element

classmethod chain.from_iterable(iterable)

构建类似 chain() 迭代器的另一个选择。从一个单独的可迭代参数中得到链式输入,该参数是延迟计算的。大致相当于:

  1. def from_iterable(iterables):
  2. # chain.from_iterable(['ABC', 'DEF']) --> A B C D E F
  3. for it in iterables:
  4. for element in it:
  5. yield element

itertools.combinations(iterable, r)

返回由输入 iterable 中元素组成长度为 r 的子序列。

组合元组是根据输入的 iterable 顺序以词典排序的方式发出的。 因此,如果输入的 iterable 是已排序的,则输出的元组将按排序后的顺序产生。

元素的唯一性是基于它们的位置,而不是它们的值。 因此如果输入的元素都是唯一的,则在每个组合中将不会有重复的值。

大致相当于:

  1. def combinations(iterable, r):
  2. # combinations('ABCD', 2) --> AB AC AD BC BD CD
  3. # combinations(range(4), 3) --> 012 013 023 123
  4. pool = tuple(iterable)
  5. n = len(pool)
  6. if r > n:
  7. return
  8. indices = list(range(r))
  9. yield tuple(pool[i] for i in indices)
  10. while True:
  11. for i in reversed(range(r)):
  12. if indices[i] != i + n - r:
  13. break
  14. else:
  15. return
  16. indices[i] += 1
  17. for j in range(i+1, r):
  18. indices[j] = indices[j-1] + 1
  19. yield tuple(pool[i] for i in indices)

combinations() 的代码可被改写为 permutations() 过滤后的子序列,(相对于元素在输入中的位置)元素不是有序的。

  1. def combinations(iterable, r):
  2. pool = tuple(iterable)
  3. n = len(pool)
  4. for indices in permutations(range(n), r):
  5. if sorted(indices) == list(indices):
  6. yield tuple(pool[i] for i in indices)

0 <= r <= n 时,返回项的个数是 n! / r! / (n-r)!;当 r > n 时,返回项个数为0。

itertools.combinations_with_replacement(iterable, r)

返回由输入 iterable 中元素组成的长度为 r 的子序列,允许每个元素可重复出现。

组合元组是根据输入的 iterable 顺序以词典排序的方式发出的。 因此,如果输入的 iterable 是已排序的,则输出的元组将按排序后的顺序产生。

不同位置的元素是不同的,即使它们的值相同。因此如果输入中的元素都是不同的话,返回的组合中元素也都会不同。

大致相当于:

  1. def combinations_with_replacement(iterable, r):
  2. # combinations_with_replacement('ABC', 2) --> AA AB AC BB BC CC
  3. pool = tuple(iterable)
  4. n = len(pool)
  5. if not n and r:
  6. return
  7. indices = [0] * r
  8. yield tuple(pool[i] for i in indices)
  9. while True:
  10. for i in reversed(range(r)):
  11. if indices[i] != n - 1:
  12. break
  13. else:
  14. return
  15. indices[i:] = [indices[i] + 1] * (r - i)
  16. yield tuple(pool[i] for i in indices)

combinations_with_replacement() 的代码可被改写为 production() 过滤后的子序列,(相对于元素在输入中的位置)元素不是有序的。

  1. def combinations_with_replacement(iterable, r):
  2. pool = tuple(iterable)
  3. n = len(pool)
  4. for indices in product(range(n), repeat=r):
  5. if sorted(indices) == list(indices):
  6. yield tuple(pool[i] for i in indices)

n > 0 时,返回项个数为 (n+r-1)! / r! / (n-1)!.

3.1 新版功能.

itertools.compress(data, selectors)

创建一个迭代器,它返回 data 中经 selectors 真值测试为 True 的元素。迭代器在两者较短的长度处停止。大致相当于:

  1. def compress(data, selectors):
  2. # compress('ABCDEF', [1,0,1,0,1,1]) --> A C E F
  3. return (d for d, s in zip(data, selectors) if s)

3.1 新版功能.

itertools.count(start=0, step=1)

创建一个迭代器,它从 start 值开始,返回均匀间隔的值。常用于 map() 中的实参来生成连续的数据点。此外,还用于 zip() 来添加序列号。大致相当于:

  1. def count(start=0, step=1):
  2. # count(10) --> 10 11 12 13 14 ...
  3. # count(2.5, 0.5) --> 2.5 3.0 3.5 ...
  4. n = start
  5. while True:
  6. yield n
  7. n += step

当对浮点数计数时,替换为乘法代码有时精度会更好,例如: (start + step * i for i in count())

在 3.1 版更改: 增加参数 step ,允许非整型。

itertools.cycle(iterable)

创建一个迭代器,返回 iterable 中所有元素并保存一个副本。当取完 iterable 中所有元素,返回副本中的所有元素。无限重复。大致相当于:

  1. def cycle(iterable):
  2. # cycle('ABCD') --> A B C D A B C D A B C D ...
  3. saved = []
  4. for element in iterable:
  5. yield element
  6. saved.append(element)
  7. while saved:
  8. for element in saved:
  9. yield element

注意,该函数可能需要相当大的辅助空间(取决于 iterable 的长度)。

itertools.dropwhile(predicate, iterable)

创建一个迭代器,如果 predicate 为true,迭代器丢弃这些元素,然后返回其他元素。注意,迭代器在 predicate 首次为false之前不会产生任何输出,所以可能需要一定长度的启动时间。大致相当于:

  1. def dropwhile(predicate, iterable):
  2. # dropwhile(lambda x: x<5, [1,4,6,4,1]) --> 6 4 1
  3. iterable = iter(iterable)
  4. for x in iterable:
  5. if not predicate(x):
  6. yield x
  7. break
  8. for x in iterable:
  9. yield x

itertools.filterfalse(predicate, iterable)

创建一个过滤来自 iterable 中元素从而只返回其中 predicate 为假值的元素的迭代器。 如果 predicateNone,则返回为假值的项。 大致等价于:

  1. def filterfalse(predicate, iterable):
  2. # filterfalse(lambda x: x%2, range(10)) --> 0 2 4 6 8
  3. if predicate is None:
  4. predicate = bool
  5. for x in iterable:
  6. if not predicate(x):
  7. yield x

itertools.groupby(iterable, key=None)

创建一个迭代器,返回 iterable 中连续的键和组。key 是一个计算元素键值函数。如果未指定或为 Nonekey 缺省为恒等函数(identity function),返回元素不变。一般来说,iterable 需用同一个键值函数预先排序。

groupby() 操作类似于Unix中的 uniq。当每次 key 函数产生的键值改变时,迭代器会分组或生成一个新组(这就是为什么通常需要使用同一个键值函数先对数据进行排序)。这种行为与SQL的GROUP BY操作不同,SQL的操作会忽略输入的顺序将相同键值的元素分在同组中。

返回的组本身也是一个迭代器,它与 groupby() 共享底层的可迭代对象。因为源是共享的,当 groupby() 对象向后迭代时,前一个组将消失。因此如果稍后还需要返回结果,可保存为列表:

  1. groups = []
  2. uniquekeys = []
  3. data = sorted(data, key=keyfunc)
  4. for k, g in groupby(data, keyfunc):
  5. groups.append(list(g)) # Store group iterator as a list
  6. uniquekeys.append(k)

groupby() 大致相当于:

  1. class groupby:
  2. # [k for k, g in groupby('AAAABBBCCDAABBB')] --> A B C D A B
  3. # [list(g) for k, g in groupby('AAAABBBCCD')] --> AAAA BBB CC D
  4. def __init__(self, iterable, key=None):
  5. if key is None:
  6. key = lambda x: x
  7. self.keyfunc = key
  8. self.it = iter(iterable)
  9. self.tgtkey = self.currkey = self.currvalue = object()
  10. def __iter__(self):
  11. return self
  12. def __next__(self):
  13. self.id = object()
  14. while self.currkey == self.tgtkey:
  15. self.currvalue = next(self.it) # Exit on StopIteration
  16. self.currkey = self.keyfunc(self.currvalue)
  17. self.tgtkey = self.currkey
  18. return (self.currkey, self._grouper(self.tgtkey, self.id))
  19. def _grouper(self, tgtkey, id):
  20. while self.id is id and self.currkey == tgtkey:
  21. yield self.currvalue
  22. try:
  23. self.currvalue = next(self.it)
  24. except StopIteration:
  25. return
  26. self.currkey = self.keyfunc(self.currvalue)

itertools.islice(iterable, stop)

itertools.islice(iterable, start, stop[, step])

制作一个从可迭代对象返回选定元素的迭代器。 如果 start 为非零值,则会跳过可迭代对象中的部分元素直至到达 start 位置。 在此之后,将连续返回元素除非 step 被设为大于 1 的值而会间隔跳过部分结果。 如果 stopNone,则迭代将持续进行直至迭代器中的元素耗尽;在其他情况下,它将在指定的位置上停止。

如果 startNone,迭代从0开始。如果 stepNone ,步长缺省为1。

与常规的切片不同,islice() 不支持 start, stopstep 为负值。 可被用来从内部结构已被展平的数据中提取相关字段(例如,一个多行报告可以每三行列出一个名称字段)。

大致相当于:

  1. def islice(iterable, *args):
  2. # islice('ABCDEFG', 2) --> A B
  3. # islice('ABCDEFG', 2, 4) --> C D
  4. # islice('ABCDEFG', 2, None) --> C D E F G
  5. # islice('ABCDEFG', 0, None, 2) --> A C E G
  6. s = slice(*args)
  7. start, stop, step = s.start or 0, s.stop or sys.maxsize, s.step or 1
  8. it = iter(range(start, stop, step))
  9. try:
  10. nexti = next(it)
  11. except StopIteration:
  12. # Consume *iterable* up to the *start* position.
  13. for i, element in zip(range(start), iterable):
  14. pass
  15. return
  16. try:
  17. for i, element in enumerate(iterable):
  18. if i == nexti:
  19. yield element
  20. nexti = next(it)
  21. except StopIteration:
  22. # Consume to *stop*.
  23. for i, element in zip(range(i + 1, stop), iterable):
  24. pass

itertools.pairwise(iterable)

返回从输入 iterable 中获取的连续重叠对。

输出迭代器中 2 元组的数量将比输入的数量少一个。 如果输入可迭代对象中少于两个值则它将为空。

大致相当于:

  1. def pairwise(iterable):
  2. # pairwise('ABCDEFG') --> AB BC CD DE EF FG
  3. a, b = tee(iterable)
  4. next(b, None)
  5. return zip(a, b)

3.10 新版功能.

itertools.permutations(iterable, r=None)

连续返回由 iterable 元素生成长度为 r 的排列。

如果 r 未指定或为 Noner 默认设置为 iterable 的长度,这种情况下,生成所有全长排列。

组合元组是根据输入的 iterable 顺序以词典排序的形式发出的。 因此,如果输入的 iterable 是已排序的,则输出的元组将按排序后的顺序产生。

元素是基于其位置,而非其值来认定唯一性的。 因此如果输入的元素都是唯一的,则在组合中就不会有重复的值。

大致相当于:

  1. def permutations(iterable, r=None):
  2. # permutations('ABCD', 2) --> AB AC AD BA BC BD CA CB CD DA DB DC
  3. # permutations(range(3)) --> 012 021 102 120 201 210
  4. pool = tuple(iterable)
  5. n = len(pool)
  6. r = n if r is None else r
  7. if r > n:
  8. return
  9. indices = list(range(n))
  10. cycles = list(range(n, n-r, -1))
  11. yield tuple(pool[i] for i in indices[:r])
  12. while n:
  13. for i in reversed(range(r)):
  14. cycles[i] -= 1
  15. if cycles[i] == 0:
  16. indices[i:] = indices[i+1:] + indices[i:i+1]
  17. cycles[i] = n - i
  18. else:
  19. j = cycles[i]
  20. indices[i], indices[-j] = indices[-j], indices[i]
  21. yield tuple(pool[i] for i in indices[:r])
  22. break
  23. else:
  24. return

permutations() 的代码也可被改写为 product() 的子序列,只要将含有重复元素(来自输入中同一位置的)的项排除。

  1. def permutations(iterable, r=None):
  2. pool = tuple(iterable)
  3. n = len(pool)
  4. r = n if r is None else r
  5. for indices in product(range(n), repeat=r):
  6. if len(set(indices)) == r:
  7. yield tuple(pool[i] for i in indices)

0 <= r <= n ,返回项个数为 n! / (n-r)! ;当 r > n ,返回项个数为0。

itertools.product(*iterables, repeat=1)

可迭代对象输入的笛卡儿积。

大致相当于生成器表达式中的嵌套循环。例如, product(A, B)((x,y) for x in A for y in B) 返回结果一样。

嵌套循环像里程表那样循环变动,每次迭代时将最右侧的元素向后迭代。这种模式形成了一种字典序,因此如果输入的可迭代对象是已排序的,笛卡尔积元组依次序发出。

要计算可迭代对象自身的笛卡尔积,将可选参数 repeat 设定为要重复的次数。例如,product(A, repeat=4)product(A, A, A, A) 是一样的。

该函数大致相当于下面的代码,只不过实际实现方案不会在内存中创建中间结果。

  1. def product(*args, repeat=1):
  2. # product('ABCD', 'xy') --> Ax Ay Bx By Cx Cy Dx Dy
  3. # product(range(2), repeat=3) --> 000 001 010 011 100 101 110 111
  4. pools = [tuple(pool) for pool in args] * repeat
  5. result = [[]]
  6. for pool in pools:
  7. result = [x+[y] for x in result for y in pool]
  8. for prod in result:
  9. yield tuple(prod)

product() 运行之前,它会完全耗尽输入的可迭代对象,在内存中保留值的临时池以生成结果积。 相应地,它只适用于有限的输入。

itertools.repeat(object[, times])

创建一个持续地返回 object 的迭代器。 将会无限期地运行除非指定了 times 参数。

大致相当于:

  1. def repeat(object, times=None):
  2. # repeat(10, 3) --> 10 10 10
  3. if times is None:
  4. while True:
  5. yield object
  6. else:
  7. for i in range(times):
  8. yield object

repeat 的一个常见用途是向 mapzip 提供一个常量值的流:

  1. >>> list(map(pow, range(10), repeat(2)))
  2. [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

itertools.starmap(function, iterable)

创建一个使用从 iterable 获取的参数来运算 function 的迭代器。 当参数形参已经从单个可迭代对象分组为多个元组时(当数据已被 “预 zip” 时)代替 map() 使用。

map()starmap() 之间的区别类似于 function(a,b)function(*c) 之间的差异。 大致相当于:

  1. def starmap(function, iterable):
  2. # starmap(pow, [(2,5), (3,2), (10,3)]) --> 32 9 1000
  3. for args in iterable:
  4. yield function(*args)

itertools.takewhile(predicate, iterable)

创建一个迭代器,只要 predicate 为真就从可迭代对象中返回元素。大致相当于:

  1. def takewhile(predicate, iterable):
  2. # takewhile(lambda x: x<5, [1,4,6,4,1]) --> 1 4
  3. for x in iterable:
  4. if predicate(x):
  5. yield x
  6. else:
  7. break

itertools.tee(iterable, n=2)

从一个可迭代对象中返回 n 个独立的迭代器。

下面的 Python 代码能帮助解释 tee 做了什么(尽管实际的实现更复杂并且仅使用了一个底层的 FIFO 队列):

  1. def tee(iterable, n=2):
  2. it = iter(iterable)
  3. deques = [collections.deque() for i in range(n)]
  4. def gen(mydeque):
  5. while True:
  6. if not mydeque: # when the local deque is empty
  7. try:
  8. newval = next(it) # fetch a new value and
  9. except StopIteration:
  10. return
  11. for d in deques: # load it to all the deques
  12. d.append(newval)
  13. yield mydeque.popleft()
  14. return tuple(gen(d) for d in deques)

一旦 tee() 已被创建,原有的 iterable 就不应在任何其他地方使用;否则,iterable 可能会被向下执行而不通知 tee 对象。

tee 迭代器不是线程安全的。 当同时使用由同一个 tee() 调用所返回的迭代器时可能引发 RuntimeError,即使原本的 iterable 是线程安全的。is threadsafe.

该迭代工具可能需要相当大的辅助存储空间(这取决于要保存多少临时数据)。通常,如果一个迭代器在另一个迭代器开始之前就要使用大部份或全部数据,使用 list() 会比 tee() 更快。

itertools.zip_longest(*iterables, fillvalue=None)

创建一个迭代器,从每个可迭代对象中收集元素。如果可迭代对象的长度未对齐,将根据 fillvalue 填充缺失值。迭代持续到耗光最长的可迭代对象。大致相当于:

  1. def zip_longest(*args, fillvalue=None):
  2. # zip_longest('ABCD', 'xy', fillvalue='-') --> Ax By C- D-
  3. iterators = [iter(it) for it in args]
  4. num_active = len(iterators)
  5. if not num_active:
  6. return
  7. while True:
  8. values = []
  9. for i, it in enumerate(iterators):
  10. try:
  11. value = next(it)
  12. except StopIteration:
  13. num_active -= 1
  14. if not num_active:
  15. return
  16. iterators[i] = repeat(fillvalue)
  17. value = fillvalue
  18. values.append(value)
  19. yield tuple(values)

如果其中一个可迭代对象有无限长度,zip_longest() 函数应封装在限制调用次数的场景中(例如 islice()takewhile())。除非指定, fillvalue 默认为 None

itertools 配方

本节将展示如何使用现有的 itertools 作为基础构件来创建扩展的工具集。

这些 itertools 例程的主要目的是教学。 各个例程显示了对单个工具的各种思维方式 — 例如,chain.from_iterable 被关联到展平的概念。 这些例程还给出了有关这些工具的组合方式的想法 — 例如,compress()range() 应当如何一起工作。 这些例程还显示了 itertools 与 operatorcollections 模块以及内置迭代工具如 map(), filter(), reversed()enumerate() 相互配合的使用模式。

这些例程的次要目的是作为一个孵化器使用。 accumulate(), compress()pairwise() 迭代工具最初就是作为例程引入的。 目前,sliding_window()iter_index() 例程正在进行测试以看它们是否能其价值。recipes are being tested to see whether they prove their worth.

基本上所有这些西方和许许多多其他的配方都可以通过 Python Package Index 上的 more-itertools 项目 来安装:

  1. python -m pip install more-itertools

许多配方提供了与底层工具集相当的高性能。 通过每次只处理一个元素而不是将整个可迭代对象放入内存保持了更好的内存效率。 通过以有助于消除临时变量的函数式风格将这些工作链接在一起来保持代码量的精简。 通过倾向于使用 “矢量化” 构件取代会造成较大解释器开销的 for 循环和 generator 来保持高速度。

  1. import collections
  2. import functools
  3. import math
  4. import operator
  5. import random
  6. def take(n, iterable):
  7. "Return first n items of the iterable as a list"
  8. return list(islice(iterable, n))
  9. def prepend(value, iterator):
  10. "Prepend a single value in front of an iterator"
  11. # prepend(1, [2, 3, 4]) --> 1 2 3 4
  12. return chain([value], iterator)
  13. def tabulate(function, start=0):
  14. "Return function(0), function(1), ..."
  15. return map(function, count(start))
  16. def repeatfunc(func, times=None, *args):
  17. """Repeat calls to func with specified arguments.
  18. Example: repeatfunc(random.random)
  19. """
  20. if times is None:
  21. return starmap(func, repeat(args))
  22. return starmap(func, repeat(args, times))
  23. def flatten(list_of_lists):
  24. "Flatten one level of nesting"
  25. return chain.from_iterable(list_of_lists)
  26. def ncycles(iterable, n):
  27. "Returns the sequence elements n times"
  28. return chain.from_iterable(repeat(tuple(iterable), n))
  29. def tail(n, iterable):
  30. "Return an iterator over the last n items"
  31. # tail(3, 'ABCDEFG') --> E F G
  32. return iter(collections.deque(iterable, maxlen=n))
  33. def consume(iterator, n=None):
  34. "Advance the iterator n-steps ahead. If n is None, consume entirely."
  35. # Use functions that consume iterators at C speed.
  36. if n is None:
  37. # feed the entire iterator into a zero-length deque
  38. collections.deque(iterator, maxlen=0)
  39. else:
  40. # advance to the empty slice starting at position n
  41. next(islice(iterator, n, n), None)
  42. def nth(iterable, n, default=None):
  43. "Returns the nth item or a default value"
  44. return next(islice(iterable, n, None), default)
  45. def quantify(iterable, pred=bool):
  46. "Given a predicate that returns True or False, count the True results."
  47. return sum(map(pred, iterable))
  48. def all_equal(iterable):
  49. "Returns True if all the elements are equal to each other"
  50. g = groupby(iterable)
  51. return next(g, True) and not next(g, False)
  52. def first_true(iterable, default=False, pred=None):
  53. """Returns the first true value in the iterable.
  54. If no true value is found, returns *default*
  55. If *pred* is not None, returns the first item
  56. for which pred(item) is true.
  57. """
  58. # first_true([a,b,c], x) --> a or b or c or x
  59. # first_true([a,b], x, f) --> a if f(a) else b if f(b) else x
  60. return next(filter(pred, iterable), default)
  61. def iter_index(iterable, value, start=0, stop=None):
  62. "Return indices where a value occurs in a sequence or iterable."
  63. # iter_index('AABCADEAF', 'A') --> 0 1 4 7
  64. seq_index = getattr(iterable, 'index', None)
  65. if seq_index is None:
  66. # Slow path for general iterables
  67. it = islice(iterable, start, stop)
  68. for i, element in enumerate(it, start):
  69. if element is value or element == value:
  70. yield i
  71. else:
  72. # Fast path for sequences
  73. stop = len(iterable) if stop is None else stop
  74. i = start - 1
  75. try:
  76. while True:
  77. yield (i := seq_index(value, i+1, stop))
  78. except ValueError:
  79. pass
  80. def iter_except(func, exception, first=None):
  81. """ Call a function repeatedly until an exception is raised.
  82. Converts a call-until-exception interface to an iterator interface.
  83. Like builtins.iter(func, sentinel) but uses an exception instead
  84. of a sentinel to end the loop.
  85. Examples:
  86. iter_except(functools.partial(heappop, h), IndexError) # priority queue iterator
  87. iter_except(d.popitem, KeyError) # non-blocking dict iterator
  88. iter_except(d.popleft, IndexError) # non-blocking deque iterator
  89. iter_except(q.get_nowait, Queue.Empty) # loop over a producer Queue
  90. iter_except(s.pop, KeyError) # non-blocking set iterator
  91. """
  92. try:
  93. if first is not None:
  94. yield first() # For database APIs needing an initial cast to db.first()
  95. while True:
  96. yield func()
  97. except exception:
  98. pass
  99. def grouper(iterable, n, *, incomplete='fill', fillvalue=None):
  100. "Collect data into non-overlapping fixed-length chunks or blocks"
  101. # grouper('ABCDEFG', 3, fillvalue='x') --> ABC DEF Gxx
  102. # grouper('ABCDEFG', 3, incomplete='strict') --> ABC DEF ValueError
  103. # grouper('ABCDEFG', 3, incomplete='ignore') --> ABC DEF
  104. args = [iter(iterable)] * n
  105. if incomplete == 'fill':
  106. return zip_longest(*args, fillvalue=fillvalue)
  107. if incomplete == 'strict':
  108. return zip(*args, strict=True)
  109. if incomplete == 'ignore':
  110. return zip(*args)
  111. else:
  112. raise ValueError('Expected fill, strict, or ignore')
  113. def sliding_window(iterable, n):
  114. # sliding_window('ABCDEFG', 4) --> ABCD BCDE CDEF DEFG
  115. it = iter(iterable)
  116. window = collections.deque(islice(it, n-1), maxlen=n)
  117. for x in it:
  118. window.append(x)
  119. yield tuple(window)
  120. def roundrobin(*iterables):
  121. "roundrobin('ABC', 'D', 'EF') --> A D E B F C"
  122. # Recipe credited to George Sakkis
  123. num_active = len(iterables)
  124. nexts = cycle(iter(it).__next__ for it in iterables)
  125. while num_active:
  126. try:
  127. for next in nexts:
  128. yield next()
  129. except StopIteration:
  130. # Remove the iterator we just exhausted from the cycle.
  131. num_active -= 1
  132. nexts = cycle(islice(nexts, num_active))
  133. def partition(pred, iterable):
  134. """Partition entries into false entries and true entries.
  135. If *pred* is slow, consider wrapping it with functools.lru_cache().
  136. """
  137. # partition(is_odd, range(10)) --> 0 2 4 6 8 and 1 3 5 7 9
  138. t1, t2 = tee(iterable)
  139. return filterfalse(pred, t1), filter(pred, t2)
  140. def subslices(seq):
  141. "Return all contiguous non-empty subslices of a sequence"
  142. # subslices('ABCD') --> A AB ABC ABCD B BC BCD C CD D
  143. slices = starmap(slice, combinations(range(len(seq) + 1), 2))
  144. return map(operator.getitem, repeat(seq), slices)
  145. def before_and_after(predicate, it):
  146. """ Variant of takewhile() that allows complete
  147. access to the remainder of the iterator.
  148. >>> it = iter('ABCdEfGhI')
  149. >>> all_upper, remainder = before_and_after(str.isupper, it)
  150. >>> ''.join(all_upper)
  151. 'ABC'
  152. >>> ''.join(remainder) # takewhile() would lose the 'd'
  153. 'dEfGhI'
  154. Note that the first iterator must be fully
  155. consumed before the second iterator can
  156. generate valid results.
  157. """
  158. it = iter(it)
  159. transition = []
  160. def true_iterator():
  161. for elem in it:
  162. if predicate(elem):
  163. yield elem
  164. else:
  165. transition.append(elem)
  166. return
  167. def remainder_iterator():
  168. yield from transition
  169. yield from it
  170. return true_iterator(), remainder_iterator()
  171. def unique_everseen(iterable, key=None):
  172. "List unique elements, preserving order. Remember all elements ever seen."
  173. # unique_everseen('AAAABBBCCDAABBB') --> A B C D
  174. # unique_everseen('ABBcCAD', str.lower) --> A B c D
  175. seen = set()
  176. if key is None:
  177. for element in filterfalse(seen.__contains__, iterable):
  178. seen.add(element)
  179. yield element
  180. # For order preserving deduplication,
  181. # a faster but non-lazy solution is:
  182. # yield from dict.fromkeys(iterable)
  183. else:
  184. for element in iterable:
  185. k = key(element)
  186. if k not in seen:
  187. seen.add(k)
  188. yield element
  189. # For use cases that allow the last matching element to be returned,
  190. # a faster but non-lazy solution is:
  191. # t1, t2 = tee(iterable)
  192. # yield from dict(zip(map(key, t1), t2)).values()
  193. def unique_justseen(iterable, key=None):
  194. "List unique elements, preserving order. Remember only the element just seen."
  195. # unique_justseen('AAAABBBCCDAABBB') --> A B C D A B
  196. # unique_justseen('ABBcCAD', str.lower) --> A B c A D
  197. return map(next, map(operator.itemgetter(1), groupby(iterable, key)))

下面的例程具有更数学化的风格:

  1. def powerset(iterable):
  2. "powerset([1,2,3]) --> () (1,) (2,) (3,) (1,2) (1,3) (2,3) (1,2,3)"
  3. s = list(iterable)
  4. return chain.from_iterable(combinations(s, r) for r in range(len(s)+1))
  5. def sum_of_squares(it):
  6. "Add up the squares of the input values."
  7. # sum_of_squares([10, 20, 30]) -> 1400
  8. return math.sumprod(*tee(it))
  9. def transpose(it):
  10. "Swap the rows and columns of the input."
  11. # transpose([(1, 2, 3), (11, 22, 33)]) --> (1, 11) (2, 22) (3, 33)
  12. return zip(*it, strict=True)
  13. def matmul(m1, m2):
  14. "Multiply two matrices."
  15. # matmul([(7, 5), (3, 5)], [(2, 5), (7, 9)]) --> (49, 80), (41, 60)
  16. n = len(m2[0])
  17. return batched(starmap(math.sumprod, product(m1, transpose(m2))), n)
  18. def convolve(signal, kernel):
  19. """Discrete linear convolution of two iterables.
  20. The kernel is fully consumed before the calculations begin.
  21. The signal is consumed lazily and can be infinite.
  22. Convolutions are mathematically commutative.
  23. If the signal and kernel are swapped,
  24. the output will be the same.
  25. Article: https://betterexplained.com/articles/intuitive-convolution/
  26. Video: https://www.youtube.com/watch?v=KuXjwB4LzSA
  27. """
  28. # convolve(data, [0.25, 0.25, 0.25, 0.25]) --> Moving average (blur)
  29. # convolve(data, [1/2, 0, -1/2]) --> 1st derivative estimate
  30. # convolve(data, [1, -2, 1]) --> 2nd derivative estimate
  31. kernel = tuple(kernel)[::-1]
  32. n = len(kernel)
  33. padded_signal = chain(repeat(0, n-1), signal, repeat(0, n-1))
  34. windowed_signal = sliding_window(padded_signal, n)
  35. return map(math.sumprod, repeat(kernel), windowed_signal)
  36. def polynomial_from_roots(roots):
  37. """Compute a polynomial's coefficients from its roots.
  38. (x - 5) (x + 4) (x - 3) expands to: x³ -4x² -17x + 60
  39. """
  40. # polynomial_from_roots([5, -4, 3]) --> [1, -4, -17, 60]
  41. factors = zip(repeat(1), map(operator.neg, roots))
  42. return list(functools.reduce(convolve, factors, [1]))
  43. def polynomial_eval(coefficients, x):
  44. """Evaluate a polynomial at a specific value.
  45. Computes with better numeric stability than Horner's method.
  46. """
  47. # Evaluate x³ -4x² -17x + 60 at x = 2.5
  48. # polynomial_eval([1, -4, -17, 60], x=2.5) --> 8.125
  49. n = len(coefficients)
  50. if not n:
  51. return type(x)(0)
  52. powers = map(pow, repeat(x), reversed(range(n)))
  53. return math.sumprod(coefficients, powers)
  54. def polynomial_derivative(coefficients):
  55. """Compute the first derivative of a polynomial.
  56. f(x) = x³ -4x² -17x + 60
  57. f'(x) = 3x² -8x -17
  58. """
  59. # polynomial_derivative([1, -4, -17, 60]) -> [3, -8, -17]
  60. n = len(coefficients)
  61. powers = reversed(range(1, n))
  62. return list(map(operator.mul, coefficients, powers))
  63. def sieve(n):
  64. "Primes less than n."
  65. # sieve(30) --> 2 3 5 7 11 13 17 19 23 29
  66. if n > 2:
  67. yield 2
  68. start = 3
  69. data = bytearray((0, 1)) * (n // 2)
  70. limit = math.isqrt(n) + 1
  71. for p in iter_index(data, 1, start, limit):
  72. yield from iter_index(data, 1, start, p*p)
  73. data[p*p : n : p+p] = bytes(len(range(p*p, n, p+p)))
  74. start = p*p
  75. yield from iter_index(data, 1, start)
  76. def factor(n):
  77. "Prime factors of n."
  78. # factor(99) --> 3 3 11
  79. # factor(1_000_000_000_000_007) --> 47 59 360620266859
  80. # factor(1_000_000_000_000_403) --> 1000000000000403
  81. for prime in sieve(math.isqrt(n) + 1):
  82. while not n % prime:
  83. yield prime
  84. n //= prime
  85. if n == 1:
  86. return
  87. if n > 1:
  88. yield n
  89. def nth_combination(iterable, r, index):
  90. "Equivalent to list(combinations(iterable, r))[index]"
  91. pool = tuple(iterable)
  92. n = len(pool)
  93. c = math.comb(n, r)
  94. if index < 0:
  95. index += c
  96. if index < 0 or index >= c:
  97. raise IndexError
  98. result = []
  99. while r:
  100. c, n, r = c*r//n, n-1, r-1
  101. while index >= c:
  102. index -= c
  103. c, n = c*(n-r)//n, n-1
  104. result.append(pool[-1-n])
  105. return tuple(result)