westlife73 发表于 2023-11-8 14:49:56

Python和requests库结合采集豆瓣短评


Python是一种常用的程序语言,今天我们就用Python和requests库结合,来写一个采集豆瓣短评的程序,非常的简单,一起来学学吧。

```python
import requests
from bs4 import BeautifulSoup

# 设置代理
proxy = f'http://{proxy_host}:{proxy_port}'
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get('https://book.douban.com/top250', headers=headers, proxies=proxy)

# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
reviews = soup.find_all('span', class_='short')

# 打印短评
for review in reviews:
   print(review.text)
```

每一步的解释如下:

1. 导入需要的库(requests和BeautifulSoup)。
2. 设置代理(proxy_host和proxy_port)。
3. 使用requests库的get方法,向豆瓣图书top250页面发送GET请求,同时设置headers和proxies。
4. 使用BeautifulSoup库解析返回的HTML。
5. 使用find_all方法,找到所有class为'short'的span标签,这些标签包含短评信息。
6. 使用for循环,打印出每个短评。​​​​

blkj123 发表于 2023-11-9 10:24:32

感谢楼主分享


重庆污水处理设备http://www.cqcfjd.com/

青天仪表 发表于 2023-11-9 11:41:07

看看了,愿收录流量计厂家
页: [1]
查看完整版本: Python和requests库结合采集豆瓣短评