社区
数据仓库
帖子详情
谁做过网页分类中对一个类的特征提取?X2(CHI)
lian2002
2003-08-21 11:23:52
总体分布集设公式X(CHI)的出的结果是什么样的?具体怎么用?
CHI代表什么?
能详细介绍吗?
谢谢
...全文
69
2
打赏
收藏
谁做过网页分类中对一个类的特征提取?X2(CHI)
总体分布集设公式X(CHI)的出的结果是什么样的?具体怎么用? CHI代表什么? 能详细介绍吗? 谢谢
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
truestorm
2003-08-27
打赏
举报
回复
兄弟你说得也太笼统了吧。
我估计你是在做客户聚类或者Logistic回归。这两种都有可能,但是你要说具体点哦
klbt
2003-08-23
打赏
举报
回复
学习。
特征提取
与特征选择
在数据预处理环节里,数据清洗后,往往需要
特征提取
和特征选择,从而在低维度数据里进行
分
类
。这里主要介绍特征工程里
特征提取
常用的方法和特征选择常用的方法。
机器学习系列(5)_特征工程02
特征提取
文章目录 #数据预处理,特征选择的目的是改善数据质量,体现数据的本质特征,降低计算成本,提升模型的表现。 特征选择–主要分为三个模块:
特征提取
(Features Extraction):如从文本型数据提取日期型数据;从非结构化数据(文本,视频,音频等)提取数据。如:Web爬取等; 特征创建(Features Creation):通过组合,计算等方法,得到原本不存在的特征(必须是合理的); 特征选择(Features Selection):从所有特征
中
,选择对当前模型有价值的特征,必须要经过验证。 &l
分
类
算法之二——
特征提取
与特征选择
文本的表示及其特征项的选取是文本挖掘、信息检索的
一个
基本问题,它把从文本
中
抽取出的特征词进行量化来表示文本信息。将它们从
一个
无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本
中
挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。
文本特征词提取算法
在文本
分
类
中
,需要先对文本分词,原始的文本
中
可能由几十万个
中
文词条组成,维度非常高。另外,为了提高文本
分
类
的准确性和效率,一般先剔除决策意义不大的词语,这就是特征词提取的目的。本文将简单介绍几种文本特征词提取算法。 信息增益(IG) 对于
一个
系统,其信息熵为H(S)=−∑iCPilog2(Pi).C表示
类
别个数,Pi表示第i的
类
别的概率。某个特征F,有该特征和没有该特征,信息量的变化,就是信息
数据挖掘:特征工程——
特征提取
与选择
数据挖掘:特征工程——特征降维与选择 特征的处理和构建已经在上一篇特征处理和构建文章
中
有所总结。接来下对特征降维和选择进行说明。 一、什么是特征降维与特征选择? 一般经过特征处理和生成后,会产生大量的特征,而这些特征
中
有的特征是很重要的,但不是每一项特征都对模型有用,因此,要将这
类
没用的特征剔除掉。所以,特征降维与特征选择的主要目的就是为了剔除无用的特征。 之前一直有个疑惑,既然特征降维与特征选择...
数据仓库
7,388
社区成员
6,742
社区内容
发帖
与我相关
我的任务
数据仓库
其他数据库开发 数据仓库
复制链接
扫一扫
分享
社区描述
其他数据库开发 数据仓库
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章