怎么编写网络爬虫程序 抓取百度知道问答?

zd96998 2014-08-19 03:19:41
打算抓取知道里面的一些数据,但是百度防复制,好多文字由图片代替,无法从html页面中获取其中的文本数据,请大神给个解决方案啊?
感谢涕零!!!
...全文
837 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
学无止境-zy 2016-08-01
  • 打赏
  • 举报
回复
楼主能告诉我您是怎么样全网抓取百度知道的数据的嘛?我只能爬到一点点,你们爬虫的入口地址是多少?谢谢
I_ambition 2015-03-31
  • 打赏
  • 举报
回复
请问你解决了吗,我也遇到了相同的问题
The_Third_Wave 2014-08-21
  • 打赏
  • 举报
回复
我看了下,有的问题是直接静态显示的,你把是图片的链接发出来大家一起看看
zd96998 2014-08-21
  • 打赏
  • 举报
回复
引用 6 楼 u013171165 的回复:
我看了下,有的问题是直接静态显示的,你把是图片的链接发出来大家一起看看
工程武器厂造投石车<img class="word-replace" src="http://zhidao.baidu.com/api/getdecpic?picenc=fd3f6475695f317f2c">付冲车<img class="word-replace" src="http://zhidao.baidu.com/api/getdecpic?picenc=fd3f68655f317f2c"><img class="word-replace" src="http://zhidao.baidu.com/api/getdecpic?picenc=fd3f64615f317f2c">队<img class="word-replace" src="http://zhidao.baidu.com/api/getdecpic?picenc=fd3f64657f2c">步兵 上面是网页源代码 下面是百度知道直接看到的文字: 工程武器厂造投石车付冲车和大步兵 红色用图片替换
zd96998 2014-08-21
  • 打赏
  • 举报
回复
引用 6 楼 u013171165 的回复:
我看了下,有的问题是直接静态显示的,你把是图片的链接发出来大家一起看看
<img class="word-replace" src="http://zhidao.baidu.com/api/getdecpic?picenc=4b137175657374696f6e8622">
zd96998 2014-08-21
  • 打赏
  • 举报
回复
引用 6 楼 u013171165 的回复:
我看了下,有的问题是直接静态显示的,你把是图片的链接发出来大家一起看看
<img class="word-replace" src="http://zhidao.baidu.com/api/getdecpic?picenc=4b1364616f8622">µ ˭
The_Third_Wave 2014-08-20
  • 打赏
  • 举报
回复
…图片是很难处理的,需要专业级的才能保证识别率,自己写是可以放弃了,看看开源图片提取文字的库有没有,效果好不,要不就只想想其他办法。
zd96998 2014-08-20
  • 打赏
  • 举报
回复
引用 1 楼 u013171165 的回复:
老老实实处理图片,好像有这样的库了,百度下。
着实没找到,还请大神明示,十分感谢啊
zd96998 2014-08-20
  • 打赏
  • 举报
回复
引用 2 楼 u010211892 的回复:
那就用图片好了
我需要的是文字啊,html读出的图片是一个链接,根本不是文字,没法用的,你可以看一下页面源代码
lsjfdjoijvtghu 2014-08-19
  • 打赏
  • 举报
回复
那就用图片好了
The_Third_Wave 2014-08-19
  • 打赏
  • 举报
回复
老老实实处理图片,好像有这样的库了,百度下。
ask2问答系统是以php+MySQL进行开发的php问答系统源码。 ask2问答系统于2016年3月28发布开源,第一个版本V3.0,内置三套PC模板, default默认是百度问答模板 sowenda是高仿360问答的。 soso模板是仿腾讯soso问答界面。 一套wap模板,仿天涯问答的手机版。 pc和wap模板后台设置里自由切换,还可以绑定手机独立二级域名。 强大的搜索功能,支持xunsearch全文检索,seo友好,强大的标签自动识别功能,内置标签库,还有seo相关的优化,无需小白操心。 内置超强采集,好几十个问答网站规则内置,无需编写,支持防采集网站采集,2天采集30万数据不成问题。 ask2问答系统 更新日志: 1、采用全新的ZUI框架开发前端模板,zui基于bootstrap开发,完美兼容bt,并且扩展了更丰富的UI组件. 2、完善细节,从站内检索功能到seo站内聚合,一一做到。 3、支持积分充值,后台可配置支付宝设置,用户中心右侧导航选择积分充值即可。 4、强化编辑器功能,采用百度最新的UEditor编辑器,支持各种图片上传,还可以直接复制图片本地化保存,太完美了。 5、增加用户专栏,文章聚合,专栏展示用户文章,专栏首页随机切换内容,完爆seo,让爬虫每次光顾都能抓取不同内容,收录杠杠的。 6、后台界面大更新,焕然一新,并支持文章和问题百度推送 7、后台增加在线模板管理 8、采集功能进一步强化,支持各种浏览器在线采集,上百个采集规则随便选,上百个,你没看错,各类行业问答网站均包括在内,你不要问百度,搜搜,360问答,知乎这些了,小儿科。 9、完美支持广告投放,后台可以配置。 10、后台支持logo和banner大图配置,无需在繁琐的ftp上传 11、支持各类cms后台配置整合和dz整合,一键搞定 2016年11月1号更新: 1、强化验证码,防止绕过验证码发垃圾数据 2、增加根据用户等级设置不同角色能提问和回答问题数目限制,防止用户恶意发送内容 3、修改部分小bug
编程狂人是推酷网旗下的周刊,每周一发布,并且同步发布pdf离线版本,内容以开发技术,编程语言,框架等为主,并且配有一周IT业界新闻! 目录 业界新闻 2014年最值得学习的编程语言 Elasticsearch 1.0.0发布 15 个有用的项目管理工具 Java 8新闻:发布候选版面世、新的原子数、放弃简易实现 2013年StackOverflow开发者调查:JS最火 前端开发 再谈榔头和钉子 [译]短小强悍的JavaScript异步调用库 BigPipe学习研究 Using Bootstrap 3 With Sass How to make a Flappy Bird in HTML5 with Phaser 编程语言 使用python/casperjs编写终极爬虫-客户端App的抓取 2013年度Python运维工具 又被 Python 的 Unicode 坑了 FutureTask 源码解析 C++:在堆上创建对象,还是在栈上? 技术纵横 UPYUN:用Erlang开发的对象存储系统 iOS 7最佳实践:一个天气App案例 看看百度招iOS开发面试的问题,你能答对多少? CoconutKit:iOS开发必备的开源组件库 Associated Objects [技术翻译]构建现代化的 Objective-C (上) iOS的后台运行和多任务处理 AFNetworking 2.0 Tutorial 一个用 Arduino 实现完整项目 后端架构 腾讯大规模Hadoop集群实践 日800万访客、20万RPS网站的5个9可用性架构 Redis 到底有多快[译文] TCP网络协议以及其思想的应用 OSChina 第 45 期高手问答 —— 游戏引擎架构 程序人生 一个对 Dijkstra 的采访视频 【开源访谈】ECharts 作者 林峰 访谈实录

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧