pandas数据处理_云创网络

一、查找重复值

既然我们这个系列是对比Excel，那么在Excel里是怎么查找重复值的呢？有很多种方法，这里就简单说一种：条件格式。在【开始】——【条件格式】里选择突出显示重复值，就将重复的值突出显示出来了：

Pandas里如何查找重复值呢？

1、查找所有列

继之前用的短租数据集（后台回复：短租数据，即可获得），duplicated方法查找重复值，和isnull一样，得到的结果是布尔值，如果重复被标记为True，否则为False

# 查看所有列都重复的数据
df_list.duplicated()

结果如下，得到的是一个序列，通过True/False来查看哪些行完全重复。

也可以把它具体的位置找出来：

# 定位出所有列都重复的行
df_list[df_list.duplicated()]

结果是一个空行，说明这个数据集里没有所有列都重复的行

2、查找单独列

对重复值的判断有时不需要判断所有列，只需要对某一列进行判断，还是用duplicated方法查找，如查找id列是否重复

# 查找id列是否重复
df_list[df_list.duplicated([\"id\"])]

结果为空，说明id列是唯一标识。

二、重复值的处理

对重复值的处理，就是删除

在Excel里专门有一个删除重复值的功能，用这个功能就可以将某一列的重复值删除，只保留不重复的值：

在Panda里用到drop_duplicates方法来删除重复值。

1、所有列去重

对所有列都重复的行去重

# 所有列去重
df_list = df_list.drop_duplicates()
df_list.head()

2、某一列去重

对某一列重复的行去重，添加subset参数

# 某一列去重
df_list.drop_duplicates(subset = \"id\")

3、某几列去重

对要去重的几列的列名用列表框起来，subset参数名可以不写

# 某几列去重
df_list.drop_duplicates([\"id\",\"name\"])

4、去重后保留最后一个值

以上去重时默认都是保留第一个重复的值，但如果想要保留最后一个重复的值呢，添加keep参数，让keep = \”last\”

# 保留最后一个值
df_list.drop_duplicates([\"id\",\"name\"],keep = \"last\")

5、查找后定位的方法去重

前面介绍了查找重复值用到的duplicated方法，那么也可以用这个方法直接去重。df_list[df_list.duplicated([\”id\”,\”name\”])]是定位出重复值，加个取反的符号df_list[~df_list.duplicated([\”id\”,\”name\”])]就将不重复的值取出来了，也就是去重了。

# 查找后定位去重
df_list[~df_list.duplicated([\"id\",\"name\"])]

三、类型转换

这个案例里last_review字段应该是日期时间的类型，但在这里是字符型展示，因此要把字符型转换成日期时间类型的数据，使用to_datetime方法，它有两个参数，第一个参数是要转换的列，第二个参数是设置日期时间格式。

# 字符转时间
df_list[\"last_review\"] = pd.to_datetime(df_list[\"last_review\"],
                                 format = \"%Y/%m/%d\")
df_list.info()

结果如下，可以看到这一列已经由原先的字符型转化为了时间型。

类型转换还可以将字符转数值，数值转字符，用到astype(dtype)方法，dtype参数表示要转换的数据类型，整型为int，小数型位float，字符型为str

# 数值转字符
df_list[\"id\"].astype(str).dtype

如把id列的整型转为字符型，可以看到转换话数据类型为Object。

四、字段拆分

发现这里nei**ourhood字段是“朝阳区 / Chaoyang ”形式，只想要保留“/”符号前的字段，因此需要对这个字段进行拆分，在Excel里拆分很简单，就用【数据】选项卡中的【分列】功能即可，分割符号选择“/”。

在pandas里我们用split方法来拆分

# 字段拆分
new_nei**or = df_list[\"nei**ourhood\"].str.split(\"/\",1,True)
df_list[[\"nei**orhood_new\",\"nei**or2\"]] = new_nei**or
df_list

第一个参数是指定分隔符，第二个参数填的是1，表示分割成1+1=2列，第三个参数填True，表示展开为数据框，默认是False，所以一般填True，结果如图

同样地把room_type这个字段也拆分一下

new_room_type = df_list[\"room_type\"].str.split(\"/\",1,True)
df_list[[\"room_type_new\",\"room_type2\"]] = new_room_type
df_list

结果如图：

猜你喜欢：
Python数据分析实战：缺失值处理

《吊打分析师》实战—我要租个好房

为什么要学统计学：**的统计学

Python数据结构大结局：DataFrame

成为数据分析师的第三年，我写了10W字（原创文章吐血整理）

@ 作者：可乐
@ 公众号/知乎专栏/头条/简书：可乐的数据分析之路
@ 加微信（data_cola）备注：进群，拉你进可乐的数据分析交流群，数据分析知识总结，不定期行业经验分享

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

pandas数据处理

一、查找重复值

1、查找所有列

2、查找单独列

二、重复值的处理

1、所有列去重

2、某一列去重

3、某几列去重

4、去重后保留最后一个值

5、查找后定位的方法去重

三、类型转换

四、字段拆分

评论(0)

提示：请文明发言取消回复

学习交流

关注公众号学习交流

近期文章

pandas数据处理

一、查找重复值

1、查找所有列

2、查找单独列

二、重复值的处理

1、所有列去重

2、某一列去重

3、某几列去重

4、去重后保留最后一个值

5、查找后定位的方法去重

三、类型转换

四、字段拆分

评论(0)

提示：请文明发言 取消回复

相关文章

留存曲线分析：用户新增与留存增长的必备技

增长黑客方法论：如何让你更有可能找到增长点

思考：数据分析的价值是什么

运营必备技能——谁说菜鸟不会数据分析（入门篇）读书笔记

学习交流

关注公众号学习交流

标签

近期文章

提示：请文明发言取消回复