新手简单的网页采集问题，采集搜狗就可以，采集百度就不行，请教什么问题

larrypon 2021-04-08 08:49:22

import requests

#试图用百度搜索“123”
kw = {
"s?wd":'123'
}

response = requests.get('https://www.baidu.com/',param = kw)

page_text = response.text

filename = "123"+'.html'
with open(filename,'w',encoding = 'utf-8') as fp:
fp.write(page_text)

print(filename,'保存成功')
input('renyijian’)

运行的结果是输出百度首页，而不是搜索123的结果，请教什么问题。

...全文

250 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

shoppo0505 2021-04-08

打赏
举报

回复

简单试一下百度收索页面不就好了么。你这个是格式错误。 https://www.baidu.com/s?wd=搜索

【代码】爬虫学习：搜狗简易网页采集器。

爬取搜狗指定词条对应的搜索结果页面（简易网页采集器） # 爬取搜狗指定词条对应的搜索结果页面（简易网页采集器） # UA:User-Agent(请求载体的身份标识) # - UA检测：门户网站的服务器会检测请求发起载体的身份标识，如果检测到身份标识为某一款浏览器，则说明该请求是一个正常的请求。 # 但是如果检测到发起请求的载体的身份标识不是某一款浏览器，那么则标识为不正常的请求(爬虫),服务器端很有可能会拒绝这次请求 # - UA伪装：让爬虫把请求伪装成是某一款浏览器发出的 import re

需求爬取搜狗指定词条对应的搜索结果页面。分析我搜索的词条为“哈利波特”，其url为 “https://www.sogou.com/web?query=哈利波特”（这是简洁处理过的，实际后面的一些参数省略了，不影响）。但为了能实现搜索不同的词条，我设置了动态参数kw，将其分装到字典中。当我们使用get方法发出请求时，请求所对应的url的参数就可以用params赋值。代码 import requests if __name__ == "__main__": # UA伪装：将对应的User-Ag

简介： Url采集是一个非常专业易用的关键词url批量采集脚本，含站长扩展搜索，包括热门的百度相关搜索词、360搜索引擎、搜狗搜索引擎采集，提供多线程搜索关键词提取，使用的时候只需要先导入关键词到key.txt文档，在运行软件，就可以批量采集关键词url，非常简单，网站优化必备小神器哦~ 软件说明：多线程搜索关键词提取需要走代理，不然会出验证使用说明：先导入关键词到key.txt文档，在运行软件网盘下载地址： http://www.bytepan.com/Sdu38tnpo2V ...

1 需求爬取搜狗指定词条对应的搜狗搜索结果页面（简易网页采集器）。 2 代码实现 """爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）""" import requests # 将对应的User-Agent封装到字典中 headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"} url = "https://www.sogou.com/web"

37,741

社区成员

34,212

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章