pandas之数据处理操作

佚名 7年前 (2019-05-09) 随笔 1734人围观抢沙发百度已收录

1、pandas对缺失数据的处理

我们的数据缺失通常有两种情况：
    1、一种就是空，None等，在pandas是NaN(和np.nan一样)
　　　　解决方法：

　　　　　　　　判断数据是否为NaN：pd.isnull(df),pd.notnull(df)

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

　　　　　　　　处理方式1：删除NaN所在的行列dropna (axis=0, how='any', inplace=False)

　　　　　　　　处理方式2：填充数据，t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)

　　2、另一种是我们让其为0，蓝色框中
　　　　解决方法：

　　　　　　　　step1、处理为0的数据：t[t==0]=np.nan 当然并不是每次为0的数据都需要处理计算平均值等情况，nan是不参与计算的，但是0会

　　　　　　　　step2、然后在对nan进行操作

　　注意：fiillna(t.mean())填充只针对该nan的列的平均值进行填充

2、常用的统计方法

    df["name"].unique()#获取不重复的列表数据
    df["name"].mean()#取平均值
    df["name"].max()#取最大值
    df["name"].min()#取最小值
    df["name"].argmin()#取最小值位置 
    df["name"].argman()#取最大值位置
    df["name"].median()#取中位数