网页正文提取办法

loop100 2013-10-22 12:25:31
最初理解的网页正文提取,本以为是针对某个特定的网站实现信息筛选的代码。范围太小了,怎么是实现随便给个网址,用一个通用的算法,提取出网页内的有用信息。网上搜到一些概念,基于模板的,基于视觉的等等,感觉都有局限的,如何才能实现更通用的正文提取
...全文
979 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
molengge 2013-11-22
  • 打赏
  • 举报
回复
火车头.应该可以
loop100 2013-11-22
  • 打赏
  • 举报
回复
引用 8 楼 Lost_Painting 的回复:
"范围太小了,怎么是实现随便给个网址,用一个通用的算法,提取出网页内的有用信息。" 这句话是一句无法实现的需求,首先何为"有用信息"? 就如一个用户跟你谈需求的时候只说了一句话:"我要一个ERP系统,是一个对于我工厂很有帮助的ERP系统" 然后你就去实做了? 对于这种根本不是需求的需求描述是需要继续拆分的. ====== 软件界没有银弹. 就像物理世界没有永动机一样. 一切看需求而去,看实际实现而定. 楼主可以考虑去看看<<人月神话>>
受教了
鸭梨山大帝 2013-11-14
  • 打赏
  • 举报
回复
"范围太小了,怎么是实现随便给个网址,用一个通用的算法,提取出网页内的有用信息。" 这句话是一句无法实现的需求,首先何为"有用信息"? 就如一个用户跟你谈需求的时候只说了一句话:"我要一个ERP系统,是一个对于我工厂很有帮助的ERP系统" 然后你就去实做了? 对于这种根本不是需求的需求描述是需要继续拆分的. ====== 软件界没有银弹. 就像物理世界没有永动机一样. 一切看需求而去,看实际实现而定. 楼主可以考虑去看看<<人月神话>>
madxzb 2013-11-14
  • 打赏
  • 举报
回复
这里有一个正文提取提取算法可供参考,正确提取率还可以:http://www.qwolf.com/?p=791
  • 打赏
  • 举报
回复
引用 4 楼 loop100 的回复:
[quote=引用 2 楼 liuchaolin 的回复:] 网页正文提取办法? 百度 -> 火车头
百度-〉火车头??什么意思[/quote] 意思就是说有现成的软件你可以使用
wc19840730 2013-10-23
  • 打赏
  • 举报
回复
现在提取都是还是从返回值里提取吧。 我觉得没有那种真正通用的办法。因为你要提取的内容是一个标准,也就是“需要的”。 需要的这个是一个主观的概念,什么是需要的因人而异。 我觉得但凡有一个主观概念参杂在里面的都没法做到通用化程序的。 你做很多个IF可以看上去通用,但是其实还是一个个特例组成的。
loop100 2013-10-23
  • 打赏
  • 举报
回复
引用 2 楼 liuchaolin 的回复:
网页正文提取办法? 百度 -> 火车头
百度-〉火车头??什么意思
loop100 2013-10-23
  • 打赏
  • 举报
回复
引用 1 楼 caozhy 的回复:
最初理解的编程,原本以为就是针对特定用户需求的编码,范围太小了,请问用户随便说一个需求,用一个通用的程序自动生成器,就能自动得到想要的软件。网上搜索了什么自然语言编程、自动搭建程序,感觉都太局限了。如果才能实现通用的软件生成器。
大牛们没有好的办法吗
md5e 2013-10-22
  • 打赏
  • 举报
回复
网页正文提取办法? 百度 -> 火车头
threenewbee 2013-10-22
  • 打赏
  • 举报
回复
最初理解的编程,原本以为就是针对特定用户需求的编码,范围太小了,请问用户随便说一个需求,用一个通用的程序自动生成器,就能自动得到想要的软件。网上搜索了什么自然语言编程、自动搭建程序,感觉都太局限了。如果才能实现通用的软件生成器。

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧