练习:Web 爬虫

在这个练习中,我们将会使用 Go 的并发特性来并行化一个 Web 爬虫。

修改 Crawl 函数来并行地抓取 URL,并且保证不重复。

提示:你可以用一个 map 来缓存已经获取的 URL,但是要注意 map 本身并不是并发安全的!

exercise-web-crawler.go

  1. package main
  2. import (
  3. "fmt"
  4. )
  5. type Fetcher interface {
  6. // Fetch 返回 URL 的 body 内容,并且将在这个页面上找到的 URL 放到一个 slice 中。
  7. Fetch(url string) (body string, urls []string, err error)
  8. }
  9. // Crawl 使用 fetcher 从某个 URL 开始递归的爬取页面,直到达到最大深度。
  10. func Crawl(url string, depth int, fetcher Fetcher) {
  11. // TODO: 并行的抓取 URL。
  12. // TODO: 不重复抓取页面。
  13. // 下面并没有实现上面两种情况:
  14. if depth <= 0 {
  15. return
  16. }
  17. body, urls, err := fetcher.Fetch(url)
  18. if err != nil {
  19. fmt.Println(err)
  20. return
  21. }
  22. fmt.Printf("found: %s %q\n", url, body)
  23. for _, u := range urls {
  24. Crawl(u, depth-1, fetcher)
  25. }
  26. return
  27. }
  28. func main() {
  29. Crawl("https://golang.org/", 4, fetcher)
  30. }
  31. // fakeFetcher 是返回若干结果的 Fetcher。
  32. type fakeFetcher map[string]*fakeResult
  33. type fakeResult struct {
  34. body string
  35. urls []string
  36. }
  37. func (f fakeFetcher) Fetch(url string) (string, []string, error) {
  38. if res, ok := f[url]; ok {
  39. return res.body, res.urls, nil
  40. }
  41. return "", nil, fmt.Errorf("not found: %s", url)
  42. }
  43. // fetcher 是填充后的 fakeFetcher。
  44. var fetcher = fakeFetcher{
  45. "https://golang.org/": &fakeResult{
  46. "The Go Programming Language",
  47. []string{
  48. "https://golang.org/pkg/",
  49. "https://golang.org/cmd/",
  50. },
  51. },
  52. "https://golang.org/pkg/": &fakeResult{
  53. "Packages",
  54. []string{
  55. "https://golang.org/",
  56. "https://golang.org/cmd/",
  57. "https://golang.org/pkg/fmt/",
  58. "https://golang.org/pkg/os/",
  59. },
  60. },
  61. "https://golang.org/pkg/fmt/": &fakeResult{
  62. "Package fmt",
  63. []string{
  64. "https://golang.org/",
  65. "https://golang.org/pkg/",
  66. },
  67. },
  68. "https://golang.org/pkg/os/": &fakeResult{
  69. "Package os",
  70. []string{
  71. "https://golang.org/",
  72. "https://golang.org/pkg/",
  73. },
  74. },
  75. }