调用BeautifuSoup进行html的文本内容提取问题

tczl1992 2012-11-30 06:30:06

定义一个提取文本的函数
def gettext(html):
from bs4 import BeautifulSoup
soup= BeautifulSoup(html)
return soup.get_text()
这是我下载内容的函数
def downURL(url,filename):
print url
print filename
try:
fp = urllib2.urlopen(url)
except:
print 'download exception'
return 0
op = open(filename,"wb")
while 1:
s = fp.read()
if not s:
break
s=gettext(s)
op.write(s)
fp.close()

return 1
编译的时候就提示
WARNING:root:Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
还有
UnicodeEncodeError: 'ascii' codec can't encode characters in position 106-124: ordinal not in range(128)

...全文

691 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

crifan 2012-12-10

打赏
举报

回复

在百度知道，给你解释过了。此处不再啰嗦，只贴相关内容供参考：【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法【总结】Python的第三方库BeautifulSoup的使用心得

chenhaiou553166961 2012-12-03

打赏
举报

回复

op.write(str(s))

Python调用BeautifuSoup进行html的文本内容提取问题 [ 求问吃鸡主播beautifu1 boyPython调用BeautifuSoup进行html的文本内容提取问题 [ 求问吃鸡主播beautifu1 boy相关问题:匿名网友:1.python代码是解释性代码，即不...

目录一、对象二、创建BeautifulSoup对象2.1 通过字符串创建2.2 通过文件创建三、...Tag，标签，可以获取标签文本，属性 BeautifulSoup，继承自Tag，所以Tag的方法它基本都能用 NavigableString，文本字符串 Commen...

　BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。　Beautiful Soup提供一些...

Beautiful Soup是Python中一款强大的HTML解析库，用于从HTML...本文将介绍Beautiful Soup库的基本用法，包括如何安装、解析HTML、搜索和遍历HTML文档以及如何提取和修改HTML元素的内容，记录一下用来方便以后的学习。

Beautiful Soup 是一个HTML/XML 的解析器，主要用于解析和提取 HTML/XML 数据。它基于 HTML DOM 的，会载入整个文档，解析整个 DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。 BeautifulSoup 用来...

37,742

社区成员

34,213

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章