数学不及格,请教简单的统计/抽样算法?

qq_24530407 2014-12-15 03:29:04
粗糙集属性约简(大意描述:有一张普通的二维表T,表的最后一列D的内容是前面几列或前面全部列计算出来的,这种表应该叫决策表。有时,并不是所有的列都对决策有用,可能存在很多列是无用的,不影响最终结果D的。这时需要将这些不重要的列去掉,或者选择出重要的列。)时,针对海量数据,网上有一种算法,通过随机抽取表中的子集,对子集进行约简(这时由于数据量小,可以采用普通的现有的约简算法),计算子集中列的权重。多次执行上述过程后,根据各列的权重排序,找出重要的列。1、这种方法算不算蒙特卡罗算法?2、另外,上述对列的抽样,每次抽样都是独立的,效率不高,能否改进一下?我是这么想的,下一次抽样时利用本次或前一次或前多次的抽样结论,争取本次能更多地随机抽到权重较高的列?3、重要性抽象或马尔科夫蒙特卡罗(MCMC)算法是否能解决这个问题?
多谢各位高手了。
...全文
278 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
cnmhx 2014-12-18
  • 打赏
  • 举报
回复
2、另外,上述对列的抽样,每次抽样都是独立的,效率不高,能否改进一下?我是这么想的,下一次抽样时利用本次或前一次或前多次的抽样结论,争取本次能更多地随机抽到权重较高的列? 你的目的就是每次在一个小的子集里使用计算量小的约减算法。但这就意味着总的列数远远大于子集列数。所以你的担心是多余的。 反过来,如果你非要“很满意地”更多地随机抽到权重较高的列,就必须进行非常多数目的子集计算。这样的大计算量又是你原本要回避的前提。 鱼与熊掌不可兼得也!
qq_24530407 2014-12-18
  • 打赏
  • 举报
回复
引用 2 楼 cnmhx 的回复:
1、这种方法算不算蒙特卡罗算法? yes. 2、另外,上述对列的抽样,每次抽样都是独立的,效率不高,能否改进一下?我是这么想的,下一次抽样时利用本次或前一次或前多次的抽样结论,争取本次能更多地随机抽到权重较高的列? no.
哥,您回复也太简单了吧。好歹给点启发啊。
cnmhx 2014-12-17
  • 打赏
  • 举报
回复
1、这种方法算不算蒙特卡罗算法? yes. 2、另外,上述对列的抽样,每次抽样都是独立的,效率不高,能否改进一下?我是这么想的,下一次抽样时利用本次或前一次或前多次的抽样结论,争取本次能更多地随机抽到权重较高的列? no.
熊熊大叔 2014-12-16
  • 打赏
  • 举报
回复
答复第二个问题,这个思路属于启发式搜索,难点就是找到一个好的启发式函数来进行样本的选择。如果你能找到一个好的启发式函数,当然很好,甚至去发表论文。 但在假设没有好的启发式函数的条件下,用蒙特卡洛方法,基于概率论里的大数定理,也可以获得一个较优的解。

33,008

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧