Pycharm怎么爬取网页文本和图片

K-seo • 2024-02-19 03:00 • 网站运维 • 115 views

Pycharm可以使用requests库爬取网页文本，使用BeautifulSoup库解析HTML获取图片链接，再使用requests库下载图片。

在Python中，我们可以使用requests库来获取网页的HTML内容，然后使用BeautifulSoup库来解析HTML并提取我们需要的信息，对于图片，我们可以使用requests库直接下载，以下是详细的步骤：

1、安装所需库

我们需要安装requests和BeautifulSoup库，可以使用pip命令进行安装：

pip install requests beautifulsoup4

2、爬取网页文本

以下是一个简单的例子，展示了如何使用requests和BeautifulSoup爬取网页文本：

import requests
from bs4 import BeautifulSoup
发送HTTP请求
response = requests.get('http://www.example.com')
将网页内容解析为BeautifulSoup对象
soup = BeautifulSoup(response.text, 'html.parser')
提取网页文本
text = soup.get_text()
打印网页文本
print(text)

在这个例子中，我们首先发送一个GET请求到'http://www.example.com'，然后使用BeautifulSoup解析返回的HTML内容，我们使用get_text()方法提取网页的文本内容。

3、爬取网页图片

以下是一个简单的例子，展示了如何使用requests爬取网页图片：

import requests
from PIL import Image
from io import BytesIO
发送HTTP请求
response = requests.get('http://www.example.com')
查找所有的<img>标签
img_tags = soup.find_all('img')
遍历所有的<img>标签，下载图片
for img in img_tags:
     获取图片的URL
    img_url = img['src']
     发送HTTP请求，下载图片
    img_data = requests.get(img_url).content
     将图片数据转换为PIL图像对象
    img = Image.open(BytesIO(img_data))
     保存图片到本地文件
    img.save(img_url.split('/')[-1])

在这个例子中，我们首先发送一个GET请求到'http://www.example.com'，然后查找所有的<img>标签，对于每一个<img>标签，我们获取其'src'属性（即图片的URL），然后发送一个HTTP请求下载图片，我们将图片数据转换为PIL图像对象，并保存到本地文件。