<title> 标记用于为显示在浏览器标题栏中的页面提供文本标题。它不是网页主要内容的一部分。title 标签始终存在于 <head> 标签内。
我们可以通过 Beautiful Soup 提取标题标签的内容。我们解析 HTML 树并获取 title tag 对象。
示例
html = '''
<html>
<head>
<Title>Python Libraries</title>
</head>
<body>
<p>Hello World</p>
</body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html5lib")
title = soup.title
print(title)
输出
<title>Python Libraries</title>
在HTML中,我们可以为所有标签使用title
属性。title
属性提供了关于元素的额外信息。当鼠标悬停在元素上时,这些信息会作为工具提示文本显示出来。
我们可以使用下面的代码片段来提取每个标签的title
属性的文本:
示例
html = '''
<html>
<body>
<p title='parsing HTML and XML'>Beautiful Soup</p>
<p title='HTTP library'>requests</p>
<p title='URL handling'>urllib</p>
</body>
</html>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html5lib")
tags = soup.find_all()
for tag in tags:
if tag.has_attr('title'):
print(tag.attrs['title'])
输出
parsing HTML and XML
HTTP library
URL handling