在本教程中,我们将向您展示如何使用Beautiful Soup 4从HTML、XML及其他标记语言中提取数据。我们将尝试从包括IMDB在内的不同网站抓取网页。本教程将涵盖使用Beautiful Soup 4、Python的基本工具来高效且清晰地浏览、搜索和解析HTML网页。
我们尝试在这个教程中几乎涵盖了Beautiful Soup 4的所有功能。您可以将本教程中介绍的多种功能组合到一个更大的程序中,以从网站中捕获多个有意义的数据,并作为其他子程序的输入。
目标受众
本教程主要目的是指导您如何在Python中使用Beautiful Soup进行网页抓取。基本要求是从大量的无组织的数据集中获取有意义的数据。本教程的目标受众可以是以下任何一类:
-
任何想要了解如何在Python中使用Beautiful Soup抓取网页的人。
-
任何数据科学开发者/爱好者或任何想要使用这些抓取(有意义)的数据到不同的Python数据科学库中以做出更好决策的人。
先决条件
虽然没有强制性的先决条件需要具备才能学习本教程,但是,如果您对以下任何或全部技术有预先的了解,那将会是一个额外的优势:
-
对任何与网络相关的技术(如HTML/CSS/文档对象模型等)有所了解。
-
掌握Python语言(因为它是Python的一个包)。
-
-