如何用java实现web的数据挖掘,请大家进来给点意见。

sunkehong 2008-04-02 12:03:05
现在我做一个网站,想从其他网站上获取一些信息。但是我以前没做过这方面的东西。现在需要,但是不知道从何下手,请做过web数据挖掘的朋友给我提点意见,一些参考书籍之类的。或者有做过的留下你们的QQ,给点源码之类的。

谢谢了,我会很感激大家的。急用啊。只要能重一个网站上拿到想要的书籍的实例就行。谢谢。
...全文
197 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
shili150 2008-04-02
  • 打赏
  • 举报
回复
标记
kanebluba 2008-04-02
  • 打赏
  • 举报
回复
呵呵,服了2楼了.
nihuajie05 2008-04-02
  • 打赏
  • 举报
回复
第一。。。不怎么懂数据挖掘的东西。。。好像很难哦
第二。。。LZ的头像是本人。。。。。。。好一个怪阿姨哦~~~^_^
chen09 2008-04-02
  • 打赏
  • 举报
回复
在我的空间里面有一个tbs新闻下载工具。
当时我学日语时,每天去 news.tbs.co.jp 看新闻,所以就写了这么个工具,希望对你有些启发。
该工具的功能是:
1,下载news.tbs.co.jp主页。
2,分析改主页,把各个新闻链接加到list里面,同时和下载过的新闻的id进行比较。下载过的id存放在文件里面,下载不会重复下载。
3,进入各个新闻链接,分析网页,取出链接,把rstp协议转成http,再下载rm文件,存放在本地(按日期分目录)。
要满足我个人需要,上面的功能就够了。

不足的地方:
1,10线程固定,没有容错,如果出错,没有retry功能。
2,html的parse没有用jarkata的包,就是简单的String检索(用不用正则表达式,我忘记了)。

你如果只是想从固定的网站上,下载一点书籍,应该稍微改动一下就可以用了。

62,623

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧