1. 移除重复数据

来源:华校专浏览 731 扫码分享 2020-06-07 18:30:06

1. 移除重复数据

1. 移除重复数据

Series/DataFrame.duplicated(*args, **kwargs)：返回一个布尔Series，指示调用者中，哪些行是重复的（重复行标记为True）。
- keep：一个字符串或者False，指示如何标记。它代替了废弃的参数take_last
  - 'first'：对于重复数据，第一次出现时标记为False，后面出现时标记为True
  - 'last'：对于重复数据，最后一次出现时标记为False，前面出现时标记为True
  - False：对于重复数据，所有出现的地方都标记为True
而Series/DataFrame.drop_duplicates(*args, **kwargs)：返回重复行被移除之后的Series/DataFrame。
- keep：一个字符串或者False，指示如何删除。它代替了废弃的参数take_last
  - 'first'：对于重复数据，保留第一次出现，后面出现时删除
  - 'last'：对于重复数据，最后一次出现时保留，前面出现时删除
  - False：对于重复数据，删除所有出现的位置
- inplace：一个布尔值。如果为True，则原地修改。否则返回新建的对象。
对于DataFrame，还有个 subset参数。它是column label或者其列表，给出了考虑哪些列的重复值。默认考虑所有列。（即一行中哪些字段需要被考虑）

当前内容版权归华校专或其关联方所有，如需对内容或内容相关联开源项目进行关注与资助，请访问华校专 .

本文档使用 BookStack 构建

展开/收起文章目录