如何对分类数据进行序数编码?
顺序编码涉及将每个唯一标签映射到整数值。类型的编码实际上仅在类别之间存在已知关系时才适用。数据集中的某些变量确实存在这种关系,理想情况下,在准备数据时应利用此关系。在这种情况下,我们将忽略任何可能存在的序数关系,并假定所有变量都是类别变量。至少将序数编码用作其他编码方案的参考点仍然会有所帮助。我们可以使用scikit-learn的scikit-learn将每个变量编码为整数。这是一个灵活的类,并且允许将类别的顺序指定为参数(如果已知这样的顺序)
2,851
社区成员
5,758
社区内容
加载中
试试用AI创作助手写篇文章吧