一、方法描述
Tag/Soup 对象的 stripped_strings
属性类似于 strings
属性,但是会去除多余的换行符和空白字符。因此,可以说 stripped_strings
属性会产生一个由属于当前对象内部元素的 NavigableString 对象组成的生成器。
二、语法
Tag.stripped_strings
三、示例
示例 1
在下面的例子中,展示了在应用剥离处理后,解析到的文档树中所有元素的字符串。
from bs4 import BeautifulSoup, NavigableString
markup = '''
<div id="Languages">
<p>Java</p> <p>Python</p> <p>C++</p>
</div>
'''
soup = BeautifulSoup(markup, 'html.parser')
print([string for string in soup.stripped_strings])
输出:
['Java', 'Python', 'C++']
相比于 strings
属性的输出,你可以看到换行符和空白字符已经被移除了。
示例 2
这里我们提取 <div>
标签下的每个子元素的 NavigableStrings。
tag = soup.div
navstrs = tag.stripped_strings
for navstr in navstrs:
print(navstr)
输出:
Java
Python
C++