# 1. 数据说明
本次手写数字识别数据取自美国邮政信封上的手写邮政(ZIP)编码,每幅图是对一个五位数字邮政编码进行字符分割后,仅包含单个数字的图像。图像是 16 * 16 的8 位灰度图。数据集中的 V1 是手写的数字,可以是 2 或 3,为标记。数据集中的 V2-V257 是灰度值,为属性或特征。
本次作业只考虑“2”与“3”的二分类问题,训练集(train23.csv)与测试集(test23.csv)中只包含了手写的数字为“2”和“3”的数据。
训练集中,“2”的数量为731,“3”的数量为658。总共有1389个样本。
测试集中,“2”的数量为198,“3”的数量为166 。总共有364个样本。
# 2. 变量说明
训练集与测试集共有257个变量,其中第一个变量为标记,取值为2或3,后面256个变量为图像中256个像素点的灰度
# 3. 数据处理
读入训练集和测试集,并去除第一个变量,即标记变量
```{r}
train <- read.csv("train23.csv")
train <- train[-1]
test <- read.csv(
, 相关下载链接:
https://download.csdn.net/download/Mrrunsen/88295956?utm_source=bbsseo