为了使用BeautifulSoup和Python抓取网页,任何网页抓取项目的首要步骤应该是探索你想要抓取的网站。因此,在开始提取对你有用的信息之前,首先要访问该网站以了解其结构。
让我们访问Yoagoa的Python教程首页。在浏览器中打开https://yoagoa.com/course/python/
。
使用开发者工具可以帮助你理解网站的结构。所有现代浏览器都预装了开发者工具。
如果你使用的是Chrome浏览器,可以从右上角的菜单按钮(?)中选择“更多工具”→“开发者工具”来打开开发者工具。
开发者工具
借助开发者工具,你可以探索网站的文档对象模型(DOM),以更好地理解你的来源。在开发者工具中选择“元素”标签。你会看到带有可点击HTML元素的结构。
该教程页面在左侧边栏显示了目录。右键点击任何章节并选择检查选项。
对于“元素”标签,定位到对应于目录列表的标签,右键点击HTML元素,复制该元素并在任何编辑器中粘贴。
此时,获得了<nav>..</nav>
元素的HTML脚本。
我们现在可以在一个BeautifulSoup对象中加载这个脚本来解析文档树。