数据清洗的常用工具--Pandas

数据清洗的意义

  1. 现实中,数据并非完美的,需要进行清洗才能进行后面的数据分析
  2. 数据清洗是整个数据分析项目中最消耗时间的一步
  3. 数据的质量最终决定了数据分析的准确性
  4. 数据清洗是唯一可以提高数据质量的方法,使得数据分析结果也变得更可靠

数据清洗的常用工具

  1. 目前在Python中,numpy和pandas是最主流的工具
  2. Numpy中的向量化运算使得数据处理变得高效
  3. Pandas提供了大量数据清洗的高效方法
  4. 在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率

Pandas常用数据结构series和方法

  1. 通过pandas.Series来创建Series数据结构
  2. pandas.Series(data,index,dtype,name)
  • 上述参数:data可以为列表,array/dict
  • 上述参数:index表示索引,必须与数据同长度,name表示对象名称
import pandas as pd
import numpy as np

series1 = pd.Series([2.8, 3.01, 8.99, 8.59, 5.18])
series2 = pd.Series([2.8, 3.01, 8.99, 8.59, 5.18], index=['a', 'b', 'c', 'd', 'e'], name='这是一个series')
series3 = pd.Series(np.array((2.8, 3.10, 8.99, 8.59, 5.18)), index=['a', 'b', 'c', 'd', 'e'])
series4 = pd.Series({'北京': 2.8, '上海': 3.01, '广东': 8.99, '江苏': 8.59, '浙江': 5.18})

print(series1)
"""
0    2.80
1    3.01
2    8.99
3    8.59
4    5.18
dtype: float64
"""

print(series2)
"""
a    2.80
b    3.01
c    8.99
d    8.59
e    5.18
Name: 这是一个series, dtype: float64
"""
print(series3)
"""
a    2.80
b    3.10
c    8.99
d    8.59
e    5.18
dtype: float64
"""

print(series4)
"""
北京    2.80
上海    3.01
广东    8.99
江苏    8.59
浙江    5.18
dtype: float64
"""

Pandas常用数据结构dataframe和方法

  • 通过pandas.DataFrame来创建DataFrame数据结构
  • Pandas.DataFrame(data,index,dtype,columns)
  • 上述参数:data可以作为 array/dict
  • 上述参数:index为 行 索引,columns代表列名或者列标签
import pandas as pd
import numpy as np

list1 = [['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']]  # 使用嵌套列表
df1 = pd.DataFrame(list1, columns=['姓名', '年龄', '性别'])
df2 = pd.DataFrame({'姓名': ['张三', '李四', '王二'], '年龄': [23, 27, 26], '性别': ['男', '女', '女']})
array1 = np.array([['张三', 23, '男'], ['李四', 27, '女'], ['王二', 26, '女']])  # 使用numpy
df3 = pd.DataFrame(array1, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])

print(df1)
"""
   姓名  年龄 性别
0  张三  23  男
1  李四  27  女
2  王二  26  女
"""

print(df2)
"""
   姓名  年龄 性别
0  张三  23  男
1  李四  27  女
2  王二  26  女
"""

print(array1)
"""
[['张三' '23' '男']
 ['李四' '27' '女']
 ['王二' '26' '女']]
"""

print(df3)
"""
   姓名  年龄 性别
a  张三  23  男
b  李四  27  女
c  王二  26  女
"""

常用方法

  • series和dataframe常用方法
方法名称 说明
values 返回对象所有元素的值
index 返回行索引
dtypes 返回索引
shape 返回对象数据形状
ndim 返回对象的维度
size 返回对象的个数
columns 返回列标签(只对dataframe数据结构)
扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄