从文件中读取所需的数据量

在本节中,你将学习如何准确读取所需的数据量。这种技术在读取二进制文件时特别有用,在二进制文件中,必须以特定的方式解码读取的数据。不过,这种技术仍然适用于文本文件。

这种技术背后的逻辑并不难:创建一个所需大小的字节切片,并使用该字节切片进行读取。为了更有趣一点,我们将使用一个函数实现这个功能,这个函数具有两个参数。一个参数用于指定需要读取的数据量,另一个参数将使用*os.File文件类型,用于访问所需的文件。该函数的返回值将是所读取的数据。

本节的实现文件是readSize.go,分为四部分。程序接受一个简单的参数,为字节切片的大小。

当使用当前技术时,这个特定的程序可以帮助你使用所需的缓冲区大小复制任何文件。

readSize.go的第一部分代码如下:

  1. package main
  2. import (
  3. "fmt"
  4. "io"
  5. "os"
  6. "strconv"
  7. )

readSize.go的第二部分代码如下:

  1. func readSize(f *os.File, size int) []byte {
  2. buffer := make([]byte, size)
  3. n, err := f.Read(buffer)
  4. if err == io.EOF {
  5. return nil
  6. }
  7. if err != nil {
  8. fmt.Println(err)
  9. return nil
  10. }
  11. return buffer[0:n]
  12. }

这即是前面讨论的函数。尽管代码相当直接,但仍有一点需要解释。io.Reader.Read()方法返回两个参数:读取的字节数以及error变量。

readSize()函数的作用是:使用io.Read()的第一个返回值返回字节切片大小。虽然这是一个很小的细节,而且只有在到达文件末尾时才重要,但是它确保实用程序的输出与输入相同,并且不包含任何额外的字符。最后,还要检查io.EOF,表示已经到达文件的末尾。当发生错误时,函数返回。

代码的第三部分如下:

  1. func main() {
  2. arguments := os.Args
  3. if len(arguments) != 3 {
  4. fmt.Println("<buffer size> <filename>")
  5. return
  6. }
  7. bufferSize, err := strconv.Atoi(os.Args[1])
  8. if err != nil {
  9. fmt.Println(err)
  10. return
  11. }
  12. file := os.Args[2]
  13. f, err := os.Open(file)
  14. if err != nil {
  15. fmt.Println(err)
  16. return
  17. }
  18. defer f.Close()

readSize.go的最后一部分代码如下:

  1. for {
  2. readData := readSize(f, bufferSize)
  3. if readData != nil {
  4. fmt.Println(string(readData))
  5. } else {
  6. break
  7. }
  8. }
  9. }

所以,你需要一直读取输入文件,直到返回错误或者nil

执行readSize.go,传入处理的二进制文件,并使用wc(1)处理它的输出,来验证程序的正确性。

  1. $ go run readSize.go 1000 /bin/ls | wc
  2. 80 1032 38688
  3. $ wc /bin/ls
  4. 80 1032 38688 /bin/ls