数据挖掘流程

数据挖掘流程：

我在天池做过一些比赛，比如新人赛里面的o2o，但对于建模前的一些准备（特征工程或者说叫数据挖掘）并没有什么概念，网上也并没有找到相应的资料。刚好今天在网上的课程（京东购买预测）中找到了详细的步骤，故做记录保存分享。

数据是否存在残缺

缺失数据是很常见的。python中的pandas的部分函数是可以用来处理缺失值的。

pandas使用浮点值Nan（Not a Number）表示浮点和非浮点数组中的缺失数据。当然它只是一个标记而已，后续可以用isnull函数来判断是否存在缺失值以及进行统计了。python内置的None也会被当作Nan处理，虽然同样是缺失值，但还是存在一点不同的，这里不再赘述。

Nan的处理方法：

dropna – 根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍度。

fillna – 用指定或插值方法（ffill或bfill）填充缺失数据

isnull – 返回一个含有布尔值的对象，这些布尔值表示哪些是缺失值Nan，哪些不是（True or False）

统计好缺失值之后可以滤除缺失数据（丢弃某些行或列）、填充缺失数据（fillna）

fillna函数的参数

value– 用于填充缺失值的标量值或字典对象

method – 插值方式。默认为ffill

axis – 待填充的轴，默认为axis=0

inplace – 修改调用者对象而不产生副本（inplace=True）

limit – （对于前向和向后填充）可以连续填充的最大数量

连续值离散化（区间）

数据一定要理解，每一列表示什么特征，可以根据经验或者重要性进行过滤

特征提取或统计

去除无价值的信息

线型图、柱形图、直方图、密度图、散布图和饼图