westlife73 发表于 2023-10-24 17:08:52

chromedp和Go语言相结合采集天涯社区


今天还是给大家带来采集天涯社区的一个代码示例,主要是用chromedp和Go语言相结合编写而成,相对比较复杂,主要对于进阶中的老手可能会有些帮助,让我们一起来看看,这段代码究竟难在哪里。

```go

package main

import (

"context"

"fmt"

"github.com/chromedp/chromedp"

"github.com/chromedp/chromedp/cdp"

"github.com/chromedp/chromedp/protocol/network"

"github.com/chromedp/chromedp/protocol/page"

"github.com/chromedp/chromedp/protocol/target"

"github.com/chromedp/chromedp/protocol/tracing"

"io/ioutil"

"net/http"

"net/url"

"strings"

)

func main() {

// 创建一个Chrome会话

ctx, cancel := context.WithCancel(context.Background())

defer cancel()

// 使用自定义的HTTP客户端,以便在网络请求中使用代理

customClient := &http.Client{

Transport: &http.Transport{

Proxy: http.ProxyFromEnvironment,

},

}

// 使用自定义的URL解析器,以便在解析URL时使用代理

customURL, _ := url.Parse("https://www.tianya.cn")

// 获取代理服务器

proxy, err := getProxy(customClient, customURL)

if err != nil {

fmt.Printf("Error getting proxy: %v\n", err)

return

}

// 设置代理服务器

chromedp.SetProxy(proxy)

// 创建一个新的浏览器实例

browser, err := chromedp.NewBrowser(ctx, chromedp.WithProxy(proxy))

if err != nil {

fmt.Printf("Error creating browser: %v\n", err)

return

}

// 打开一个新的标签页

page, err := browser.NewPage(ctx)

if err != nil {

fmt.Printf("Error creating page: %v\n", err)

return

}

// 导航到www.tianya.cn

err = page.Navigate(ctx, "https://www.tianya.cn")

if err != nil {

fmt.Printf("Error navigating: %v\n", err)

return

}

// 等待页面加载

err = page.Wait(ctx, cdp.PageLoadEventFired)

if err != nil {

fmt.Printf("Error waiting for page load: %v\n", err)

return

}

// 获取页面内容

content, err := page.GetContent(ctx)

if err != nil {

fmt.Printf("Error getting content: %v\n", err)

return

}

// 保存页面内容到文件

err = ioutil.WriteFile("tianya.html", []byte(content), 0644)

if err != nil {

fmt.Printf("Error saving file: %v\n", err)

return

}

fmt.Println("Download completed!")

}

func getProxy(client *http.Client, url *url.URL) (string, error) {

resp, err := client.Get(url.String())

if err != nil {

return "", err

}

defer resp.Body.Close()

body, err := ioutil.ReadAll(resp.Body)

if err != nil {

return "", err

}

// 从HTML内容中提取代理服务器地址

proxy := strings.Split(string(body), "\"")

return proxy, nil

}

```

同样的,这段代码首先获取代理服务器地址,然后使用chromedp库创建一个新的Chrome会话,设置代理,创建一个新的浏览器实例,然后导航到天涯社区,这是一个难点。在页面加载后,程序获取页面内容并将其保存到一个文件中。注意,这个示例代码天涯社区网站是不会更改的,且代理服务器获取的方式可能需要根据实际情况进行调整。在实际应用中,我们可能需要稍微添加自己需要的内容以确保稳定性。
页: [1]
查看完整版本: chromedp和Go语言相结合采集天涯社区