博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
特征选择--->卡方选择器
阅读量:5148 次
发布时间:2019-06-13

本文共 1818 字,大约阅读时间需要 6 分钟。

特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习器的性能。

特征选择方法和分类方法一样,也主要分为有监督(Supervised)和无监督(Unsupervised)两种,卡方选择则是统计学上常用的一种有监督特征选择方法,它通过对特征和真实标签之间进行卡方检验,来判断该特征和真实标签的关联程度,进而确定是否对其进行选择。

package Spark_MLlibimport org.apache.spark.ml.feature.ChiSqSelectorimport org.apache.spark.ml.linalg.Vectorsimport org.apache.spark.sql.SparkSessionobject 特征选择_卡方选择器 {     val spark= SparkSession.builder().master("local").appName("卡方特征选择").getOrCreate()     import spark.implicits._  def main(args: Array[String]): Unit = {    val df=spark.createDataFrame(Seq(      (1,Vectors.dense(0,0,30,1),1),      (2,Vectors.dense(0,1,20,0),0),      (3,Vectors.dense(1,0,15,2),0),      (4,Vectors.dense(0,1,28,0),1),  //这里第一个0变为1,选2个特征输出时会不同      (5,Vectors.dense(1,0,27,0),0)    )).toDF("id","features","label")     df.show()    val selector=new ChiSqSelector().setNumTopFeatures(2).setFeaturesCol("features").setLabelCol("label").setOutputCol("selectedFeatures")//setNumTopFeatures(1):设置只选择和标签关联性最强的2个特征    val selector_model=selector.fit(df)    val result=selector_model.transform(df)    result.show(false)  }}

结果:

+---+------------------+-----+

| id|          features|label|
+---+------------------+-----+
|  1|[0.0,0.0,30.0,1.0]|    1|
|  2|[0.0,1.0,20.0,0.0]|    0|
|  3|[1.0,0.0,15.0,2.0]|    0|
|  4|[0.0,1.0,28.0,0.0]|    1|
|  5|[1.0,0.0,27.0,0.0]|    0|
+---+------------------+-----+
+---+------------------+-----+----------------+
|id |features          |label|selectedFeatures|
+---+------------------+-----+----------------+
|1  |[0.0,0.0,30.0,1.0]|1    |[0.0,30.0]      |
|2  |[0.0,1.0,20.0,0.0]|0    |[0.0,20.0]      |
|3  |[1.0,0.0,15.0,2.0]|0    |[1.0,15.0]      |
|4  |[0.0,1.0,28.0,0.0]|1    |[0.0,28.0]      |
|5  |[1.0,0.0,27.0,0.0]|0    |[1.0,27.0]      |
+---+------------------+-----+----------------+

转载于:https://www.cnblogs.com/soyo/p/7766197.html

你可能感兴趣的文章
Failed to load the JNI shared library “E:/2000/Java/JDK6/bin/..jre/bin/client/jvm.dll
查看>>
〖Python〗-- IO多路复用
查看>>
栈(括号匹配)
查看>>
Java学习 · 初识 面向对象深入一
查看>>
源代码如何管理
查看>>
vue怎么将一个组件引入另一个组件?
查看>>
bzoj1040: [ZJOI2008]骑士
查看>>
LeetCode 74. Search a 2D Matrix(搜索二维矩阵)
查看>>
利用SignalR来同步更新Winfrom
查看>>
反射机制
查看>>
CocoaPod
查看>>
css3实现漂亮的按钮链接
查看>>
BZOJ 1251: 序列终结者 [splay]
查看>>
5G边缘网络虚拟化的利器:vCPE和SD-WAN
查看>>
MATLAB基础入门笔记
查看>>
【UVA】434-Matty's Blocks
查看>>
运行一个窗体直接最大化并把窗体右上角的最大化最小化置灰
查看>>
Android开发技术周报 Issue#80
查看>>
hadoop2.2.0+hive-0.10.0完全分布式安装方法
查看>>
WebForm——IIS服务器、开发方式和简单基础
查看>>