1. 移除重复数据

  1. Series/DataFrame.duplicated(*args, **kwargs):返回一个布尔Series,指示调用者中,哪些行是重复的(重复行标记为True)。

    • keep:一个字符串或者False,指示如何标记。它代替了废弃的参数take_last

      • 'first':对于重复数据,第一次出现时标记为False,后面出现时标记为True
      • 'last':对于重复数据,最后一次出现时标记为False,前面出现时标记为True
      • False:对于重复数据,所有出现的地方都标记为True

    Series/DataFrame.drop_duplicates(*args, **kwargs):返回重复行被移除之后的Series/DataFrame

    • keep:一个字符串或者False,指示如何删除。 它代替了废弃的参数take_last

      • 'first':对于重复数据,保留第一次出现,后面出现时删除
      • 'last':对于重复数据,最后一次出现时保留,前面出现时删除
      • False:对于重复数据,删除所有出现的位置
    • inplace:一个布尔值。如果为True,则原地修改。否则返回新建的对象。

    对于DataFrame,还有个 subset参数。它是column label或者其列表,给出了考虑哪些列的重复值。默认考虑所有列。(即一行中哪些字段需要被考虑)

    duplicates0 duplicates1 duplicates2