如何获取百度文库里的文字

tusik1 2012-10-13 08:57:35
string HTML = GetHTML(textBox2.Text);
string result = Regex.Match(HTML, @"(?s)<br />(.+?)<br />", RegexOptions.Singleline).Groups[1].Value;
textBox1.Text = result;

我现在用的代码如上
可是只能获取文库的第一行文字,怎么获取全篇啊
...全文
798 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
bdhwjs 2012-10-14
  • 打赏
  • 举报
回复
很简单,别忘记给分喔。
例如:
http://wenku.baidu.com/view/1620cba2b0717fd5360cdce7.html
你让程序去采集这个就可以了。
http://wapwenku.baidu.com/view/1620cba2b0717fd5360cdce7.html

也就是说网址前面加个“wap”就解决了。
wap是手机版的。
bogehahaha 2012-10-14
  • 打赏
  • 举报
回复
注册一个账号,在右边评分(有五个五角星)那里点一下就是评论一下的一分,再找其他文档这样评论,就有积分了
tusik1 2012-10-14
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 的回复:]

很简单,别忘记给分喔。
例如:
http://wenku.baidu.com/view/1620cba2b0717fd5360cdce7.html
你让程序去采集这个就可以了。
http://wapwenku.baidu.com/view/1620cba2b0717fd5360cdce7.html

也就是说网址前面加个“wap”就解决了。
wap是手机版的。
[/Quote]
我就是用这个方法采集的,但是只能采集到第一行
myrroom 2012-10-13
  • 打赏
  • 举报
回复
模拟手机版的去请求页面,应该可以抓到全部的文字,我用android看的时候好像是文字版的
早起晚睡 2012-10-13
  • 打赏
  • 举报
回复
我都是抓图 要不然就注册个好吗弄点积分下载
tusik1 2012-10-13
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 的回复:]

“全篇”是个flash,又不是html文本,用一般的网页采集取不到的。
[/Quote]
之前用这个代码我可以采集到前4500个字
现在只能采到第一行啊
怎么弄啊
dalmeeme 2012-10-13
  • 打赏
  • 举报
回复
“全篇”是个flash,又不是html文本,用一般的网页采集取不到的。
shelly 2012-10-13
  • 打赏
  • 举报
回复
没听过额

110,537

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧