一、方法描述
在 BeautifulSoup 中,decode()
方法返回解析树作为 HTML 或 XML 文档的字符串或 Unicode 表示形式。该方法使用注册的编码解码字节。其功能与 encode()
方法相反。您调用 encode()
获取字节字符串,而调用 decode()
则获取 Unicode 字符串。让我们通过一些例子来学习 decode()
方法。
二、语法
decode(pretty_print, encoding, formatter, errors)
三、参数
-
pretty_print
:如果为 True
,则使用缩进来使文档更易读。
-
encoding
:最终文档的编码。如果为 None
,文档将是一个 Unicode 字符串。
-
formatter
:一个 Formatter 对象,或者是命名标准 Formatter 的字符串。
-
errors
:用于处理解码错误的错误处理方案。可能的值为 'strict'
、'ignore'
和 'replace'
。
四、返回值
decode()
方法返回一个 Unicode 字符串。
五、示例
from bs4 import BeautifulSoup
soup = BeautifulSoup("Hello “World!”", 'html.parser')
enc = soup.encode('utf-8')
print(enc)
dec = enc.decode()
print(dec)
输出:
b'Hello \xe2\x80\x9cWorld!\xe2\x80\x9d'
Hello "World!"