spark特征值如何处理

菜园小火车 2016-01-20 10:14:40

要导入一个教授的信息来进行计算他是否课讲得好？
假设我导入：教授的年龄、性别、职称等？
问题:
1，用spark的决策树模型和朴素贝叶斯模型来计算分类
LablePoint [1, 40(年龄) 1(性别：男) 2(职称：教授 )]
[0, 40(年龄) 0(性别：女) 1(职称：副教授 )]
[1, 40(年龄) 1(性别：男) 3(职称：讲师)]
对于这部分类别特征我是应该像上面这样处理？还是下面这样来处理
LablePoint [1, 40(年龄) 1(性别：男) 0(性别：女) 0(职称：副教授 ) 1(职称：教授 ) 0(职称：讲师)]
[0, 40(年龄) 0(性别：男) 1(性别：女) 1(职称：副教授 ) 0(职称：教授 ) 0(职称：讲师)]
[1, 40(年龄) 1(性别：男) 0(性别：女) 0(职称：副教授 ) 0(职称：教授 )1(职称：讲师)]
怎么处理类别特征和文本特征（目前我认为是转换成向量计算，如何转换成向量）？
2，如何确定一个特征和结果的关系（有这个特征时候计算的结构更为的精确或者有这个特征和没这个特诊计算出的结果没有变化）？
3，如何确定2个特征间的关系？

...全文