百独托管7500 紫田网络超高转化播放器收cps[推荐]速盾CDN 免实名免备防屏蔽阿里云 爆款特卖9.9元封顶提升alexa、IP流量7Q5团队
【腾讯云】中小企福利专场【腾讯云】多款产品1折起高防 随时退换 好耶数据小飞国外网赚带你月入万元炎黄网络4H4G10M 99每月
香港带宽CN2/美国站群优惠中客数据中心 服务器租用联盟系统移动广告平台 中易企业专场腾讯云服务器2.5折九九数据 工信部正规资质
腾讯云新用户大礼包代金券高价收cpa注册量高价展示【腾讯云】2核2G/9.93起租服务器找45互联 随时退换阿里云 短信服务 验证秒达

[其它内容] 利用puppeteer 库采集豆瓣音频代码示例 [复制链接]
查看:131 | 回复:0

1477

主题

1656

帖子

9

积分

落伍者(一心一意)

Rank: 1

贡献
685
鲜花
0
注册时间
2016-6-22

落伍者落伍微信绑定落伍手机绑定

发表于 2023-10-24 17:06:54 | 显示全部楼层 |阅读模式 来自 中国江苏淮安
11111.webp.jpg
今天要给大家分享的采集代码,主要是使用 puppeteer 库进行编写的,用于采集豆瓣网相关音频。这段代码也是非常的简单实用,一起来看看吧。
```javascript
// 引入 puppeteer 库
const puppeteer = require('puppeteer');

// 定义获取代理服务器的函数
function getProxy() {
  return new Promise((resolve, reject) => {
    // 使用 [url]https://www.duoip.cn/get_proxy[/url] 获取代理服务器
    const url = 'https://www.duoip.cn/get_proxy';
    const proxy = require('proxy-agent');
    const request = require('request');
    const options = {
      url: url,
      agent: proxy(url, options),
      json: true,
    };
    request.get(options, (error, response, body) => {
      if (error) {
        reject(error);
      } else {
        resolve(body.proxy);
      }
    });
  });
}

// 定义下载音频的函数
async function downloadAudio(url, proxy) {
  // 创建一个 puppeteer 的浏览器实例
  const browser = await puppeteer.launch({
    headless: true,
    args: ['--no-sandbox', '--disable-setuid-sandbox', '--disable-dev-shm-usage'],
  });
  // 创建一个新的页面
  const page = await browser.newPage();
  // 设置代理服务器
  await page.setProxy({
    server: proxy,
    port: 8080,
  });
  // 导航到 [url]www.douban.com[/url]
  await page.goto('https://www.douban.com', {
    waitUntil: 'networkidle2',
  });
  // 获取音频链接
  // 这里需要根据实际情况获取音频链接,例如通过查找音频播放器的 DOM 元素并获取其 src 属性
  const audioUrl = 'your_audio_url';
  // 使用 JavaScript 下载音频
  const audio = await page.evaluate(async (url) => {
    const response = await fetch(url);
    const blob = await response.blob();
    return URL.createObjectURL(blob);
  }, audioUrl);
  // 保存音频
  const link = document.createElement('a');
  link.href = audio;
  link.download = 'downloaded_audio.mp3';
  document.body.appendChild(link);
  link.click();
  document.body.removeChild(link);
  // 关闭浏览器
  await browser.close();
}

// 主函数
async function main() {
  const proxy = await getProxy();
  const audioUrl = 'your_audio_url';
  await downloadAudio(audioUrl, proxy);
}

main();
```
在这个程序中,我们首先引入了 puppeteer 库,并定义了 getProxy 函数来获取代理服务器。接着,我们定义了 downloadAudio 函数,用于下载音频。最后,我们编写了 main 函数,用于调用 getProxy 和 downloadAudio 函数。

不过在实际使用过程中,示例程序中的 `your_audio_url` 需要替换为实际的音频链接。同时,你需要根据实际情况修改代码,以便在页面上查找音频播放器的 DOM 元素并获取其 src 属性。今天的代码示例就到这里,希望那个能对大家有所帮助。
企业专线拨号VPS动态IP派克斯ADSL本地拨号,联系QQ174629754
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

手机版|找回帐号|不能发帖?|Archiver|落伍者

GMT+8, 2024-11-27 01:38 , Processed in 0.049539 second(s), 34 queries , Gzip On.

返回顶部