21番茄网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 21番茄网
查看: 724|回复: 0

爬取的内容带有多余字符怎么办?import html

[复制链接]

705

主题

923

帖子

3045

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3045
发表于 2021-1-5 17:34:46 | 显示全部楼层 |阅读模式
爬取的内容带有多余字符怎么办?import html

爬取的内容带有多余字符怎么办?import html  Python爬虫精进 173413o8o5jo65j6t18k1k


爬取的内容带有多余字符怎么办?import html  Python爬虫精进 173421ue2tqxyeezbebebz


用一个函数就可以,先在最上面导入import html。先把字符串拿出来,再把html 转移符号去掉

爬取的内容带有多余字符怎么办?import html  Python爬虫精进 1
                               
登录/注册后可看大图


比方说一个从网页中抓到的字符串

html = '<abc>'

用Python可以这样处理:
import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'

如果还想转回去,可以这样:
import cgi
html = cgi.escape(txt) # 这样又回到了 html = '<abc>'

来自其他参考:https://blog.csdn.net/BloodyPanda/article/details/79615157





上一篇:豆瓣电影随机选择,下载链接,邮件定时发送
下一篇:关于并行执行、并发执行、多进程、多协程的解释
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|21番茄网 ( 粤ICP备10099428号 ) 奇远富

GMT+8, 2024-10-18 20:27 , Processed in 0.514683 second(s), 37 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表