任务描述
本关任务:通过学习下面几种常见的特征选择过滤方法,学会如何对数据进行去除无关冗余属性的处理。
相关知识
为了完成本关任务,你需要熟练掌握以下几种基于统计值方法的特征选择:
基于统计值的方法,
基于泊松相关性的方法,
基于卡方检验方法,
基于方差分析方法,
几种常见函数使用。
基于统计值的方法
特征在训练数据中所有取值的方差 σ:
σ 小,意味着特征在所有实例的取值差别不大,特征的区分能力不强。
σ 小于给定阈值,该特征被过滤。
import numpy as np # 导入numpy科学计算库
from scipy.stats import pearsonr # 调用计算相关性系数库 size= 30 # 数据集规模
np.random.seed(20) # 随机数种子
x
下一篇:列表的嵌套--Python