百独托管7500 紫田网络超高转化播放器收cps[推荐]速盾CDN 免实名免备防屏蔽阿里云 爆款特卖9.9元封顶提升alexa、IP流量7Q5团队
【腾讯云】中小企福利专场【腾讯云】多款产品1折起高防 随时退换 好耶数据小飞国外网赚带你月入万元炎黄网络4H4G10M 99每月
香港带宽CN2/美国站群优惠中客数据中心 服务器租用联盟系统移动广告平台 中易企业专场腾讯云服务器2.5折九九数据 工信部正规资质
腾讯云新用户大礼包代金券高价收cpa注册量高价展示【腾讯云】2核2G/9.93起租服务器找45互联 随时退换阿里云 短信服务 验证秒达

[其它内容] 如何使用HttpClient和Java语言编写微博采集程序 [复制链接]
查看:179 | 回复:1

1477

主题

1656

帖子

9

积分

落伍者(一心一意)

Rank: 1

贡献
685
鲜花
0
注册时间
2016-6-22

落伍者落伍微信绑定落伍手机绑定

发表于 2023-10-17 14:46:06 | 显示全部楼层 |阅读模式 来自 中国江苏淮安
33333.webp.jpg
微博是我们日常常用的一种社交平台,我们不仅能够在微博上进行各种社交互动,还能够利用微博的时效性,在第一时间了解天下大事。今天我们就来学习一下,如何使用HttpClient和Java语言编写一个微博内容的采集程序,并附上示例代码,一起学习一下吧。

```java

import java.io.IOException;

import java.net.HttpURLConnection;

import java.net.MalformedURLException;

import java.net.Proxy;

import java.net.URL;

import java.util.ArrayList;

import java.util.List;

import java.util.concurrent.ExecutorService;

import java.util.concurrent.Executors;

public class WeiboCrawler {

private static final String USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36";

private static final String PROXY_URL = "https://www.duoip.cn/get_proxy";

public static void main(String[] args) {

List weiboUrls = new ArrayList<>();

// 添加需要爬取的微博URL

weiboUrls.add("https://www.weibo.com/u/6722282128");

ExecutorService executorService = Executors.newFixedThreadPool(10);

for (String url : weiboUrls) {

executorService.submit(new CrawlerTask(url));

}

executorService.shutdown();

}

}

class CrawlerTask implements Runnable {

private String url;

public CrawlerTask(String url) {

this.url = url;

}

@Override

public void run() {

try {

// 获取代理服务器

String proxyIp = getProxyIp();

System.out.println("使用代理IP:" + proxyIp);

// 创建HttpClient实例

HttpClient httpClient = new HttpClient();

// 设置代理

httpClient.setProxy(new Proxy(Proxy.Type.HTTP, new URL(proxyIp)));

// 设置User-Agent

httpClient.setUserAgent(WeiboCrawler.USER_AGENT);

// 发送HTTP请求

HttpURLConnection connection = httpClient.getURL(new URL(url)).getConnection();

connection.setConnectTimeout(5000);

connection.setReadTimeout(5000);

// 获取响应内容

String responseContent = httpClient.getContent(connection);

// 处理响应内容(例如,解析JSON或HTML)

// ...

// 释放资源

connection.disconnect();

} catch (MalformedURLException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

}

}

// 从[url]https://www.duoip.cn/get_proxy[/url]获取代理服务器

public static String getProxyIp() {

try {

URL proxyUrl = new URL(PROXY_URL);

HttpURLConnection connection = (HttpURLConnection) proxyUrl.openConnection();

connection.setConnectTimeout(5000);

connection.setReadTimeout(5000);

String ip = connection.getContent(connection).trim();

return ip;

} catch (MalformedURLException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

}

return null;

}

```

以上这些内容,看上去确实比较简单,但是我们在实际编写代码的时候,根据自己需要的情况,细节方面还需要多加修改,才能达到一个尽善尽美的效果。希望这篇文章能对大家学习java语言有所帮助。
企业专线拨号VPS动态IP派克斯ADSL本地拨号,联系QQ174629754
回复

使用道具 举报

1294

主题

3642

帖子

115

积分

落伍者(一心一意)

Rank: 1

贡献
484
鲜花
0
注册时间
2022-1-11

落伍微信绑定落伍者

发表于 2023-10-18 09:16:58 | 显示全部楼层 来自 中国浙江杭州
赞赞赞
外圆磨床        [url]https://wymc.jc35.com/[/url]
液压机        [url]https://yyj.jc35.com/[/url]
机床        [url]https://www.jc35.com/[/url]
卷板机        [url]https://jbj.jc35.com/[/url]
全球资源        [url]https://www.qqzyuan.com/[/url]
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

手机版|找回帐号|不能发帖?|Archiver|落伍者

GMT+8, 2025-3-13 13:18 , Processed in 0.053649 second(s), 34 queries , Gzip On.

返回顶部