spark特征值如何处理

菜园小火车 2016-01-20 10:14:40
要导入一个教授的信息来进行计算他是否课讲得好?
假设我导入:教授的年龄、性别、职称等?
问题:
1,用spark的决策树模型和朴素贝叶斯模型来计算分类
LablePoint [1, 40(年龄) 1(性别:男) 2(职称 :教授 )]
[0, 40(年龄) 0(性别:女) 1(职称 : 副教授 )]
[1, 40(年龄) 1(性别:男) 3(职称 :讲师)]
对于这部分类别特征我是应该像上面这样处理?还是下面这样来处理
LablePoint [1, 40(年龄) 1(性别:男) 0(性别:女) 0(职称 : 副教授 ) 1(职称 :教授 ) 0(职称 :讲师)]
[0, 40(年龄) 0(性别:男) 1(性别:女) 1(职称 : 副教授 ) 0(职称 :教授 ) 0(职称 :讲师)]
[1, 40(年龄) 1(性别:男) 0(性别:女) 0(职称 : 副教授 ) 0(职称 :教授 )1(职称 :讲师)]
怎么处理类别特征和文本特征(目前我认为是转换成向量计算,如何转换成向量)?
2,如何确定一个特征和结果的关系(有这个特征时候计算的结构更为的精确或者有这个特征和没这个特诊计算出的结果没有变化)?
3,如何确定2个特征间的关系?
...全文
193 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,270

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧