110,892
社区成员
发帖
与我相关
我的任务
分享
打开百度搜索结果显示页面的htm文件,发现代码很长,不光htm文件,还嵌有脚本文件,我看htm文件的源文件是为了写cshtml文件,没有想到htm文件的源代码这么复杂。以前我看ASP的搜索显示代码并不复杂,每一个搜索结果列出,隔一行,就几行代码。
不过现在大部分网页 都不已"源文件" 作为参考依据了..
都按照F12 元素 这部分来说话..毕竟有一些是动态生成的 源码是没办法看到的.
也算是提升了一点"技术门槛"吧
这也就是说 为什么现在一些采集功能(比如抓小说) 这种 比以前稍微难一点.. 因为以前asp或者什么时代 大家都喜欢在页面里读取数据库然后输出到页面.
那么采集的时候 只请求这个页面html的源码 就能看到自己想要的东西. 然后通过xpath来提取.
而现在 使用ajax/fetch这种居多.都是动态的 以前能看到的东西 现在看不到.
至于所谓的脚本.. 可能就是页面特效或者广告之类的.
以前只是为了数据展示. 能看到数据就表示功能已经完成了, 现在随着进步.数据的样式以及各种UI以及各种插件包括特效 都是需要脚本来支持的
一个html页面里 有css js 这不是正常的吗?
以前的年代已经不复存在了.