一、方法描述
在 BeautifulSoup 中,decode() 方法返回解析树作为 HTML 或 XML 文档的字符串或 Unicode 表示形式。该方法使用注册的编码解码字节。其功能与 encode() 方法相反。您调用 encode() 获取字节字符串,而调用 decode() 则获取 Unicode 字符串。让我们通过一些例子来学习 decode() 方法。
二、语法
decode(pretty_print, encoding, formatter, errors)
三、参数
-
pretty_print:如果为 True,则使用缩进来使文档更易读。
-
encoding:最终文档的编码。如果为 None,文档将是一个 Unicode 字符串。
-
formatter:一个 Formatter 对象,或者是命名标准 Formatter 的字符串。
-
errors:用于处理解码错误的错误处理方案。可能的值为 'strict'、'ignore' 和 'replace'。
四、返回值
decode() 方法返回一个 Unicode 字符串。
五、示例
from bs4 import BeautifulSoup
soup = BeautifulSoup("Hello “World!”", 'html.parser')
enc = soup.encode('utf-8')
print(enc)
dec = enc.decode()
print(dec)
输出:
b'Hello \xe2\x80\x9cWorld!\xe2\x80\x9d'
Hello "World!"