21,886
社区成员
发帖
与我相关
我的任务
分享
1. 学习wordpress或drupal,先学会如何用php搭博客网站.
2. 研究wordpress或drupal的数据库格式,分析发表一篇文章会写那些表.
3. 尝试写这样一段php代码,知道文章和标题和发表日期就能插入到数据库,在博客里显示出来.
4. 继续加强那段php代码,能做到导入文章时,可以打个tag或者按类别存放等功能.
5. 学习网页抓取技术,写几个小代码,能抓取baidu,sina等首页.
6. 继续加强网页抓取,做到能填写referer,能处理cookie,能填写user-agent等字段.
7. 学习页面元素抽取技术,做到能把抓下来的小说页面中的文章文本部分抽取出来.
8. 写个程序抓目标网站的小说,用第4步写的代码,把小说按类别和名字导入博客.
9. 研究验证码识别,js模拟器,富文本抓取和转化存储等更深层次的技术.