利用puppeteer 库采集豆瓣音频代码示例

westlife73 发表于 2023-10-24 17:06:54

今天要给大家分享的采集代码，主要是使用 puppeteer 库进行编写的，用于采集豆瓣网相关音频。这段代码也是非常的简单实用，一起来看看吧。
```javascript
// 引入 puppeteer 库
const puppeteer = require('puppeteer');

// 定义获取代理服务器的函数
function getProxy() {
return new Promise((resolve, reject) => {
// 使用 https://www.duoip.cn/get_proxy 获取代理服务器
const url = 'https://www.duoip.cn/get_proxy';
const proxy = require('proxy-agent');
const request = require('request');
const options = {
   url: url,
   agent: proxy(url, options),
   json: true,
};
request.get(options, (error, response, body) => {
   if (error) {
   reject(error);
   } else {
   resolve(body.proxy);
   }
});
});
}

// 定义下载音频的函数
async function downloadAudio(url, proxy) {
// 创建一个 puppeteer 的浏览器实例
const browser = await puppeteer.launch({
headless: true,
args: ['--no-sandbox', '--disable-setuid-sandbox', '--disable-dev-shm-usage'],
});
// 创建一个新的页面
const page = await browser.newPage();
// 设置代理服务器
await page.setProxy({
server: proxy,
port: 8080,
});
// 导航到 www.douban.com
await page.goto('https://www.douban.com', {
waitUntil: 'networkidle2',
});
// 获取音频链接
// 这里需要根据实际情况获取音频链接，例如通过查找音频播放器的 DOM 元素并获取其 src 属性
const audioUrl = 'your_audio_url';
// 使用 JavaScript 下载音频
const audio = await page.evaluate(async (url) => {
const response = await fetch(url);
const blob = await response.blob();
return URL.createObjectURL(blob);
}, audioUrl);
// 保存音频
const link = document.createElement('a');
link.href = audio;
link.download = 'downloaded_audio.mp3';
document.body.appendChild(link);
link.click();
document.body.removeChild(link);
// 关闭浏览器
await browser.close();
}

// 主函数
async function main() {
const proxy = await getProxy();
const audioUrl = 'your_audio_url';
await downloadAudio(audioUrl, proxy);
}

main();
```
在这个程序中，我们首先引入了 puppeteer 库，并定义了 getProxy 函数来获取代理服务器。接着，我们定义了 downloadAudio 函数，用于下载音频。最后，我们编写了 main 函数，用于调用 getProxy 和 downloadAudio 函数。

不过在实际使用过程中，示例程序中的 `your_audio_url` 需要替换为实际的音频链接。同时，你需要根据实际情况修改代码，以便在页面上查找音频播放器的 DOM 元素并获取其 src 属性。今天的代码示例就到这里，希望那个能对大家有所帮助。

页: [1]

落伍者's Archiver

利用puppeteer 库采集豆瓣音频代码示例