爬取的内容带有多余字符怎么办？import html

21fanqie · 发表于 2021-1-5 17:34:46

用一个函数就可以，先在最上面导入import html。先把字符串拿出来，再把html 转移符号去掉

登录/注册后可看大图

比方说一个从网页中抓到的字符串

html = '<abc>'

用Python可以这样处理：

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'

如果还想转回去，可以这样：

import cgi
html = cgi.escape(txt) # 这样又回到了 html = '<abc>'

		自动登录	找回密码
密码			立即注册