1. 移除重复数据
Series/DataFrame.duplicated(*args, **kwargs)
:返回一个布尔Series
,指示调用者中,哪些行是重复的(重复行标记为True
)。keep
:一个字符串或者False
,指示如何标记。它代替了废弃的参数take_last
'first'
:对于重复数据,第一次出现时标记为False
,后面出现时标记为True
'last'
:对于重复数据,最后一次出现时标记为False
,前面出现时标记为True
False
:对于重复数据,所有出现的地方都标记为True
而
Series/DataFrame.drop_duplicates(*args, **kwargs)
:返回重复行被移除之后的Series/DataFrame
。keep
:一个字符串或者False
,指示如何删除。 它代替了废弃的参数take_last
'first'
:对于重复数据,保留第一次出现,后面出现时删除'last'
:对于重复数据,最后一次出现时保留,前面出现时删除False
:对于重复数据,删除所有出现的位置
inplace
:一个布尔值。如果为True
,则原地修改。否则返回新建的对象。
对于
DataFrame
,还有个subset
参数。它是column label
或者其列表,给出了考虑哪些列的重复值。默认考虑所有列。(即一行中哪些字段需要被考虑)