Beautiful Soup 故障排除

当你尝试解析HTML/XML文档时遇到问题，这通常是因为正在使用的解析器如何解释文档。为了帮助你定位并纠正问题，Beautiful Soup API 提供了一个 diagnose() 工具。

Beautiful Soup 中的 diagnose() 方法是一套用于隔离常见问题的诊断工具。如果你在理解Beautiful Soup是如何处理文档时遇到困难，可以将文档作为参数传递给 diagnose() 函数。报告会向你展示不同解析器是如何处理文档的，并告诉你是否缺少某个解析器。

diagnose() 方法定义在 bs4.diagnose 模块中。它的输出以如下消息开始：

diagnose(markup)

输出

Diagnostic running on Beautiful Soup 4.12.2
Python version 3.11.2 (tags/v3.11.2:878ead1, Feb  7 2023, 16:38:35) [MSC v.1934 64 bit (AMD64)]
Found lxml version 4.9.2.0
Found html5lib version 1.1
Trying to parse your markup with html.parser
Here's what html.parser did with the markup:

如果没有找到这些解析器中的任何一个，也会出现相应的消息。

I noticed that html5lib is not installed. Installing it may help.

如果提交给 diagnose() 方法的HTML文档是完全规范的，任何解析器解析的树都将是一致的。但如果文档不规范，不同的解析器会有不同的解释。如果你没有得到预期的树，更改解析器可能会有所帮助。

有时候，你可能会为XML文档选择了HTML解析器。HTML解析器在解析文档时会添加所有HTML标签，从而导致错误。查看输出，你会意识到错误并有助于纠正。

如果Beautiful Soup引发 HTMLParser.HTMLParseError，尝试更换解析器。

解析错误 HTMLParser.HTMLParseError: malformed start tag 和 HTMLParser.HTMLParseError: bad end tag 都是由Python内置的HTML解析器库生成的，解决办法是安装 lxml 或 html5lib。

如果你遇到 SyntaxError: Invalid syntax (on the line ROOT_TAG_NAME = '[document]')，这是因为在Python 3环境下运行旧版Python 2版本的Beautiful Soup而没有转换代码所导致的。

带有消息 No module named HTMLParser 的 ImportError 是因为在Python 3环境下运行旧版Python 2版本的Beautiful Soup所导致的。

同时，ImportError: No module named html.parser 是因为在Python 2环境下运行Python 3版本的Beautiful Soup所导致的。

如果你遇到 ImportError: No module named BeautifulSoup，大多数情况下是因为在一个没有安装BS3的系统上运行Beautiful Soup 3的代码。或者，在不了解包名已经更改为 bs4 的情况下编写Beautiful Soup 4的代码。

最后，ImportError: No module named bs4 是因为你在一个没有安装BS4的系统上尝试运行Beautiful Soup 4的代码。