BeautifulSoup4(bs4)是一个Python库,用于从HTML和XML文件中提取数据。它提供了简单而灵活的API,可以轻松地遍历、搜索和修改解析树。
bs4 html _HTML输入是一个Python库,用于解析和操作HTML文档,它提供了一种简单的方式来提取和修改HTML元素,以下是一个简单的示例:
from bs4 import BeautifulSoup html_doc = """ <html> <head> <title>网页标题</title> </head> <body> <h1>这是一个小标题</h1> <table> <tr> <th>表头1</th> <th>表头2</th> </tr> <tr> <td>单元格1</td> <td>单元格2</td> </tr> </table> </body> </html> """ soup = BeautifulSoup(html_doc, 'html.parser') 提取标题 title = soup.title.string print("标题:", title) 提取小标题 h1 = soup.h1.string print("小标题:", h1) 提取表格数据 table = soup.find('table') rows = table.find_all('tr') for row in rows: cols = row.find_all('td') cols = [col.text for col in cols] print("表格数据:", cols)
在这个示例中,我们首先导入BeautifulSoup库,然后定义一个HTML文档字符串,接着,我们使用BeautifulSoup解析这个字符串,并提取其中的标题、小标题和表格数据,我们将这些数据打印出来。
原创文章,作者:K-seo,如若转载,请注明出处:https://www.kdun.cn/ask/526593.html