如何获取网页内信息?

「已注销」 2006-11-02 07:00:50
具体的情况:对于一个软件下载网站,如何获取每一软件具体信息
...全文
1066 35 打赏 收藏 转发到动态 举报
写回复
用AI写文章
35 条回复
切换为时间正序
请发表友善的回复…
发表回复
redstorm_fyy 2007-03-19
  • 打赏
  • 举报
回复
接分
zhangliu_521 2007-03-19
  • 打赏
  • 举报
回复
用了vc+BOOST做感觉确实没能力实现.
现在改用C#了
可参考的资料多一点
HewpKanXue 2007-03-16
  • 打赏
  • 举报
回复
mark
AlanChenBoy 2007-03-16
  • 打赏
  • 举报
回复
用正则表达式阿
jixingzhong 2007-03-16
  • 打赏
  • 举报
回复
网页内部的信息,
还得解析 html 啊~~
jixingzhong 2007-03-16
  • 打赏
  • 举报
回复
http://community.csdn.net/Expert/TopicView3.asp?id=5400364
zhangliu_521 2007-03-16
  • 打赏
  • 举报
回复
正在做,用vc+BOOST
iambic 2006-11-06
  • 打赏
  • 举报
回复
即使是XML或者说XHTML也不好搞,因为不同的网页组织可能完全不一样。
「已注销」 2006-11-05
  • 打赏
  • 举报
回复
大概看得懂,看来要对一定的网页进行分析提取相同的特征才行。如果是xml格式就好多了。。html不怎么严格。。的确让人烦
iambic 2006-11-05
  • 打赏
  • 举报
回复
错了,输出没有前面的说明。还是上面的代码,输出如下:
远控王是国内最傻瓜化、专业的远程控制程序.只要你会上网,即使是第一次上网,你也可以轻而一举的使用它连接上世界上任何一台正在上网的电脑进行远程办公。你可以对被控电脑的文件进行浏览、复制、剪切、删除、运行,可以浏览对方的屏幕,遥控对方的鼠标键盘;还可以强行、悄悄的开启对方的摄象头,对办公室进行全程监控,看到对方的真实面貌;还可以监听对方的语音;还能通过网上邻居连上与受控电脑联机的其它电脑——相当于只要你连上了自己办公室的电脑,就可以控制单位里和那台电脑联机的所有电脑,就和自己身在办公室操作一样方便,实现完全的远程办公……软件内附有近60分钟的动画教程,可以确保每个下载我们软件的人都能会使用,使用本软件前请你一定先观看动画教程。作者主页http://fool-workroom.com/qita/。该软件只是一个远程访问工具,请勿将其用于非法用途,不得未经同意而用其非法入侵他人的计算机!不得违反国家关于计算机及网络安全管理的各种法规及条例,否则后果自负.
iambic 2006-11-05
  • 打赏
  • 举报
回复
这是我刚写的Perl代码,给出URL后自动下载,然后输出软件介绍。

use strict;
use LWP::Simple;

my $url = "http://www.skycn.com/soft/16533.html";
my $content = get($url);
my @lines = split /\n/, $content;

while (@lines) {
my $line = shift @lines;
if ($line =~ /\xC8\xED\xBC\xFE\xBD\xE9\xC9\xDC\xA3\xBA/) {
last;
}
}

my $pattern = '^\s+<tr><td height="38" bgcolor="#EBF3FE"><font color="#777777">    .*?</font></td></tr> <tr><td>    (.*)</td></tr>$';
while (@lines) {
my $line = shift @lines;
if ($line =~ /$pattern/) {
print "$1\n";
last;
}
}

##################################################

输出:

尊敬的用户,此软件经过我们检查,是无插件软件,如你安装过程中或安装后发现有插件情况,请及时向我们<a href="http://member.skycn.com/update_sendbad.php?id=16533" target="_blank"><strong>举报</strong></a>,感谢您的支持与理解!</font></td></tr> <tr><td>    远控王是国内最傻瓜化、专业的远程控制程序.只要你会上网,即使是第一次上网,你也可以轻而一举的使用它连接上世界上任何一台正在上网的电脑进行远程办公。你可以对被控电脑的文件进行浏览、复制、剪切、删除、运行,可以浏览对方的屏幕,遥控对方的鼠标键盘;还可以强行、悄悄的开启对方的摄象头,对办公室进行全程监控,看到对方的真实面貌;还可以监听对方的语音;还能通过网上邻居连上与受控电脑联机的其它电脑——相当于只要你连上了自己办公室的电脑,就可以控制单位里和那台电脑联机的所有电脑,就和自己身在办公室操作一样方便,实现完全的远程办公……软件内附有近60分钟的动画教程,可以确保每个下载我们软件的人都能会使用,使用本软件前请你一定先观看动画教程。作者主页http://fool-workroom.com/qita/。该软件只是一个远程访问工具,请勿将其用于非法用途,不得未经同意而用其非法入侵他人的计算机!不得违反国家关于计算机及网络安全管理的各种法规及条例,否则后果自负.

「已注销」 2006-11-05
  • 打赏
  • 举报
回复
就简单用特定的网页作解析为例子把:
http://www.skycn.com/soft/16533.html
以上面天空软件站里边的一个网页为例子,如何截取关于软件介绍这一块东西。
「已注销」 2006-11-04
  • 打赏
  • 举报
回复
多谢大家的意见,由于我用c,windows界面编程。不懂那么多php之类的。
但是我已经知道应该怎么做,其实就是个网络蜘蛛程序。
还有,laiwusheng(萧剑)兄的乾坤大**我看不懂。
iambic 2006-11-04
  • 打赏
  • 举报
回复
如果只是针对特定网站的网页做解析,一般也不会太复杂,我以前用标准C写过几次,这部分一千行代码应该足够了──当然这一千行代码将很不爽。
至于怎么下载网页,可用的库就多了,随便选吧。
飞哥 2006-11-04
  • 打赏
  • 举报
回复
似乎没有较为完整的解决办法
---
get一个页面后,解析信息
---
通过模式匹配来作
yyuyes 2006-11-04
  • 打赏
  • 举报
回复
这东西很有意思,HTML的半结构化特性使问题变得复杂,简单的用正则表达式匹配,不太能解决问题。
yyuyes 2006-11-04
  • 打赏
  • 举报
回复
用标准C++做过这玩意,有点复杂。当时用Boost和PoCo。大致过程如下:

1、抓取足量的网页样本为样本集

2、分析样本集,求交集

3、应用交集抽取
hslinux 2006-11-04
  • 打赏
  • 举报
回复
好复杂。
凌风_ 2006-11-04
  • 打赏
  • 举报
回复
网页里不是个本网页大概包括那些内容的那样一个标签嘛,用哪个?
argenCHN 2006-11-04
  • 打赏
  • 举报
回复
难啊

UP
加载更多回复(15)

64,439

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧