有些站群软件只需要输入关键字就能采集的原理?

海洋齐齐 2010-11-27 12:54:50
我看到很多站群软件,输入关键字就能采集网页,也不需要写规则,我很好奇,数据是从哪里来的,采集的哪里,不可能像搜索引擎一样吧,是在很好奇,求高人解答
...全文
235 14 打赏 收藏 转发到动态 举报
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
majic2008 2010-11-29
  • 打赏
  • 举报
回复

lz接分
shikezhan 2010-11-29
  • 打赏
  • 举报
回复
[Quote=引用 11 楼 ltcszk 的回复:]

引用 10 楼 shikezhan 的回复:

引用 3 楼 y_124882511 的回复:

通过百度或是GOOGLE搜索之后,会有数据返回,分析里面的URL,再获取URL的内容,再分析HTML的内容,使用正则表达示提取里面的一部分内容。


我也觉得不是这样,"分析里面的URL,再获取URL的内容,再分析HTML的内容",再分析HTML的内容的时候,url不同,HTML的格式……
[/Quote]

这样的话有可能,只采集大网站的,将大网站的规则事先都定义好
ltcszk 2010-11-29
  • 打赏
  • 举报
回复
[Quote=引用 10 楼 shikezhan 的回复:]

引用 3 楼 y_124882511 的回复:

通过百度或是GOOGLE搜索之后,会有数据返回,分析里面的URL,再获取URL的内容,再分析HTML的内容,使用正则表达示提取里面的一部分内容。


我也觉得不是这样,"分析里面的URL,再获取URL的内容,再分析HTML的内容",再分析HTML的内容的时候,url不同,HTML的格式也不同,这时候怎么分析呢?
比如提交到百度,分析里……
[/Quote]
只要做几个大网站的规则就可以了小网站无视
shikezhan 2010-11-29
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 y_124882511 的回复:]

通过百度或是GOOGLE搜索之后,会有数据返回,分析里面的URL,再获取URL的内容,再分析HTML的内容,使用正则表达示提取里面的一部分内容。
[/Quote]

我也觉得不是这样,"分析里面的URL,再获取URL的内容,再分析HTML的内容",再分析HTML的内容的时候,url不同,HTML的格式也不同,这时候怎么分析呢?
比如提交到百度,分析里面的url 得到a.com和b.com两个url,在获取a.com的网页内容和b.com的网页内容,这时候a.com和b.com的html内容相差很大,怎么分析呢?
hwbox 2010-11-29
  • 打赏
  • 举报
回复
有一些是针对几大新闻站做专门的小偷程序扒新闻到本地,加上关键字只是在到本地转储的时候做一个选择。
海洋齐齐 2010-11-29
  • 打赏
  • 举报
回复
没人知道答案算了,送分了,快来拿吧,来者有份!!!
ZengHD 2010-11-27
  • 打赏
  • 举报
回复
直接把关键字提交到百度,GOOGLE查询,然后提取出需要的内容
lixiaoke13 2010-11-27
  • 打赏
  • 举报
回复
搜索引擎过来的基本都是新闻文章的详细页,软件采集到html标签里面的文字可以根据字数多少、行数多少、段落多少,分析出那些是文章内容。
winner2050 2010-11-27
  • 打赏
  • 举报
回复
可能是就是从搜索引擎提取的,采集而来的肯定是垃圾网站,垃圾网站不会花费很高的成本部署,这种采集软件不会用高超的技术来实现。

搜索引擎过来的基本都是新闻文章的详细页,软件采集到html标签里面的文字可以根据字数多少、行数多少、段落多少,分析出那些是文章内容。
ZengHD 2010-11-27
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 jetaimejay 的回复:]

呵呵,我觉得不是这样的
[/Quote]
那你觉得是怎么样的呢?
skey123123 2010-11-27
  • 打赏
  • 举报
回复
通过百度或是GOOGLE搜索之后,会有数据返回,分析里面的URL,再获取URL的内容,再分析HTML的内容,使用正则表达示提取里面的一部分内容。
海洋齐齐 2010-11-27
  • 打赏
  • 举报
回复
呵呵,我觉得不是这样的
海洋齐齐 2010-11-27
  • 打赏
  • 举报
回复
问题是搜索出来的,并不一定是文章详情页,如果是文章详情页有什么办法能智能获得标题,内容什么的,如果这么厉害真和搜索引擎一样了

62,074

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧