Beautiful Soup - 错误处理 - 优构网

UnicodeEncodeError

让我们来看下面的代码片段：

soup = BeautifulSoup(response, "html.parser") print(soup)

输出

UnicodeEncodeError: 'charmap' codec can't encode character '\u011f'

上述问题可能是由两种情况引起的。你可能试图打印一个控制台不知道如何显示的Unicode字符。其次，你试图写入一个文件，并传入了一个默认编码不支持的Unicode字符。

解决上述问题的一种方法是在创建soup之前对响应文本/字符进行编码，以获得预期的结果，如下所示：

responseTxt = response.text.encode('UTF-8')

KeyError: [attr]

当你访问tag['attr']而该标签没有定义attr属性时，就会出现此错误。最常见的错误是："KeyError: 'href'" 和 "KeyError: 'class'"。如果你不确定attr是否已定义，请使用tag.get('attr')。

for item in soup.fetch('a'): try: if (item['href'].startswith('/') or "yoagoa" in item['href']): (...) except KeyError: pass # 或者采取其他备选措施

AttributeError

你可能会遇到如下形式的AttributeError：

AttributeError: 'list' object has no attribute 'find_all'

上述错误主要是因为你期望find_all()返回单个标签或字符串。然而，soup.find_all返回的是一个Python元素列表。

你需要做的是遍历这个列表，并从这些元素中获取数据。

为了避免在解析结果时出现上述错误，可以通过以下方式跳过有问题的结果，以确保不正确的片段不会被插入数据库：

except (AttributeError, KeyError) as er: pass