逐词读取文本文件

本节中展示的技术将通过byWord.go文件演示,它由四部分组成。正如你在Go代码中看到的,分隔一行中的单词可能比较棘手。程序的第一部分如下:

  1. package main
  2. import (
  3. "bufio"
  4. "flag"
  5. "fmt"
  6. "io"
  7. "os"
  8. "regexp"
  9. )

byWord.go的第二部分代码如下:

  1. func wordByWord(file string) error {
  2. var err error
  3. f, err := os.Open(file)
  4. if err != nil {
  5. return err
  6. }
  7. defer f.Close()
  8. r := bufio.NewReader(f)
  9. for {
  10. line, err := r.ReadString('\n')
  11. if err == io.EOF {
  12. break
  13. } else if err != nil {
  14. fmt.Printf("error reading file %s", err)
  15. return err
  16. }

wordByWord()函数的这部分代码和byLine.go程序的lineByLine()函数一样。

byWord.go第三部分代码如下:

  1. r := regexp.MustCompile("[^\\s]+")
  2. words := r.FindAllString(line, -1)
  3. for i := 0; i < len(words); i++ {
  4. fmt.Printf(words[i])
  5. }
  6. }
  7. return nil
  8. }

wordByWord()函数的剩余代码是全新的,并使用正则表达式对输入的每行进行单词分割。正则表达式regexp.MustCompile("[^\\s]+")使用空格分割单词。

byWord.go的最后一部分代码如下:

  1. func main() {
  2. flag.Parse()
  3. if len(flag.Args()) == 0 {
  4. fmt.Printf("usage: byWord <file1> [<file2> ...]\n")
  5. return
  6. }
  7. for _, file := range flag.Args() {
  8. err := wordByWord(file)
  9. if err != nil {
  10. fmt.Println(err)
  11. }
  12. }
  13. }

执行byWord.go会产生如下的输出:

  1. $ go run byWord.go /tmp/adobegc.log
  2. 01/08/18
  3. 20:25:09:669
  4. |
  5. [INFO]

可以使用wc(1)验证byWord.go的正确性:

  1. $ go run byWord.go /tmp/adobegc.log | wc
  2. 91591 91591 559005
  3. $ wc /tmp/adobegc.log
  4. 4831 91591 583454 /tmp/adobegc.log

如你所见,wc(1)计算所得的单词数和byWord.go一致。