k均值算法及其优缺点

她呀 2019-04-23 11:17:36
算法: 第一步:选K个初始聚类中心,z1(1), z2(1), .. zK(1), 其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定,例如可选开始的K个模式样本的向量值作为初始聚类中心。 第二步:逐个将需分类的模式样本{x}按最小距离准则分配给K个聚类中心中的某一个zj(1)。 假设i=j时,,则,其中k为迭代运算的次序号,第一次迭代k=1, Sj表示第j个聚类,其聚类中心为zj。 第三步:计算各个聚类中心的新的向量值, zj(k+1), j1,...K. . 求各聚类域中所包含样本的均值向量: 其中Nj为第j个聚类域Sj中所包含的样本个数。以均值向量作为新的聚类中心,可使如下聚类准则函数最小: 在这一步中要分别计算K个聚类中的样本均值向量,所以称之为K-均值算法。 第四步:若,j=1,..,K,则返回第二步,将模式样本逐个重新分类,重复迭代运算;若,j=1,2...K, 则算法收敛,计算结束。 K-Means的主要优点: 1) 原理简单,容易实现 2)可解释度较强 K-Means的主要缺点: 1) K值很难确定 2)局部最优 3)对噪音和异常点敏感 4)需样本存在均值(限定数据种类) 5)聚类效果依赖于聚类中心的初始化 6)对于非凸数据集或类别规模差异太大的数据效果不好
...全文
1690 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
楼主在给大家讲算法吗?

33,008

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧