1、pandas对缺失数据的处理

我们的数据缺失通常有两种情况:
    1、一种就是空,None等,在pandas是NaN(和np.nan一样)
    解决方法:

        判断数据是否为NaN:pd.isnull(df),pd.notnull(df)

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

        处理方式1:删除NaN所在的行列dropna (axis=0, how='any', inplace=False)

        处理方式2:填充数据,t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

  2、另一种是我们让其为0,蓝色框中
    解决方法:

        step1、处理为0的数据:t[t==0]=np.nan 当然并不是每次为0的数据都需要处理 计算平均值等情况,nan是不参与计算的,但是0会

        step2、然后在对nan进行操作

  注意:fiillna(t.mean())填充只针对该nan的列的平均值进行填充

2、常用的统计方法

    df["name"].unique()#获取不重复的列表数据
    df["name"].mean()#取平均值
    df["name"].max()#取最大值
    df["name"].min()#取最小值
    df["name"].argmin()#取最小值位置 
    df["name"].argman()#取最大值位置
    df["name"].median()#取中位数

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄