python3.6 怎么提取
标签里面的内容并且保存到excel?

qq_39394146 2018-01-02 09:01:02
链接:https://list.jd.com/list.html?cat=670,671,1105&ev=exbrand_8551&page=
1&delivery=1&delivery_daofu=0&sort=sort_totalsales15_desc&trans=1&JL=4_11_0#J_main

https://item.jd.com/5270331.html?dist=jd#product-detail

想把爬取到结果保存的excel,如图3所示:

1

2

3
...全文
704 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
宇风 -飞扬 2018-01-03
  • 打赏
  • 举报
回复
获取方式很多,楼上说的 lxml 的xpath ,或者用bs4 的BeautifulSoup 也可以,方法很多,还有你可以直接使用Scrapy 框架,直接使用xpath 解析,也很方便,看个人情况
qq_39394146 2018-01-03
  • 打赏
  • 举报
回复

现在可以在控制台输出爬取到的内容,如下图:
引用


但是保存到excel后,得不到提问中的图3的那种效果。
原因:不会提取<dt>与<dd>标签里面的内容
def find_text(find_url):
html = requests.get(find_url, headers=headers).text
soup = BeautifulSoup(html, 'html5lib')
find_texts = soup.find('div', class_='Ptable')
print(find_texts.get_text('\n', strip=True))
print(100 * '*')
oyljerry 2018-01-02
  • 打赏
  • 举报
回复
用lxml类库的xpath解析定位元素获取数据

37,720

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧