逐字符读取文本文件

在本节中,你将学会如何逐字符读取文本文件,这是一个非常少见的需求,除非你想创建文本编辑器。相关的Go代码参考byCharacter.go,将分为四部分介绍。

byCharacter.go第一部分代码如下:

  1. package main
  2. import (
  3. "bufio"
  4. "flag"
  5. "fmt"
  6. "io"
  7. "os"
  8. )

如你所见,本程序不需要使用正则表达式。

byCharacter.go第二部分代码如下:

  1. func charByChar(file string) error {
  2. var err error
  3. f, err := os.Open(file)
  4. if err != nil {
  5. return err
  6. }
  7. defer f.Close()
  8. r := bufio.NewReader(f)
  9. for {
  10. line, err := r.ReadString('\n')
  11. if err == io.EOF {
  12. break
  13. } else if err != nil {
  14. fmt.Printf("error reading file %s", err)
  15. return err
  16. }

byCharacter.go第三部分代码如下:

  1. for _, x := range line {
  2. fmt.Println(string(x))
  3. }
  4. }
  5. return nil
  6. }

此处,你读取每一行,并使用range分割。range返回两个值:丢弃第一个值,它是line变量中当前字符的位置,并使用第二个值。但是,该值不是字符-这就是为什么必须使用string()函数将其转换为字符的原因。

注意,由于fmt.Println(string(x))语句,每个字符都按行打印,这意味着程序的输出将很大。如果想要压缩输出,应该使用fmt.Print()函数。

byCharacter.go的最后一部分代码如下:

  1. func main() {
  2. flag.Parse()
  3. if len(flag.Args()) == 0 {
  4. fmt.Printf("usage: byChar <file1> [<file2> ...]\n")
  5. return
  6. }
  7. for _, file := range flag.Args() {
  8. err := charByChar(file)
  9. if err != nil {
  10. fmt.Println(err)
  11. }
  12. }
  13. }

执行byCharacter.go会产生如下输出:

  1. $ go run byCharacter.go /tmp/adobegc.log
  2. 0
  3. 1
  4. /
  5. 0
  6. 8
  7. /
  8. 1
  9. 8

注意,上述Go代码也能用来统计输入文件的字符个数,即是Go版本的wc(1)命令行实现。