12-IO和文件系统
本章简单介绍Elixir的输入、输出机制,文件系统相关的任务,
以及涉及到的模块,如IO
,File
和Path
。
我们曾经在早期的文章中说现在介绍IO似乎有点早。
但是,我们注意到IO系统其实提供了一窥Elixir和虚拟机的设计哲学和精妙的绝佳机会。
“早期的文章”:现在介绍I/O似乎有点早,但是I/O系统可以让我们一窥Elixir哲学,满足我们对该语言以及VM的好奇心。
IO
模块
模块IO
提供了Elixir语言中读写标准输入/输出(:stdio
)、
标准错误(:stderr
)、文件和其他IO设备的主要机制。
该模块的使用方法颇为直白:
iex> IO.puts "hello world"
"hello world"
:ok
iex> IO.gets "yes or no? "
yes or no? yes
"yes\n"
默认情况下,IO模块中的函数从标准输入中读取,向标准输出中写入。
我们可以传递参数,比如:stderr
,来指示将信息写到标准错误上:
iex> IO.puts :stderr, "hello world"
"hello world"
:ok
File
模块
File
模块包含的函数可以让我们打开文件作为IO设备。
默认情况下文件是以二进制模式打开,
它要求程序员使用特定的IO.binread/2
和IO.binwrite/2
函数来读写文件:
iex> {:ok, file} = File.open "hello", [:write]
{:ok, #PID<0.47.0>}
iex> IO.binwrite file, "world"
:ok
iex> File.close file
:ok
iex> File.read "hello"
{:ok, "world"}
文件可以使用:utf8
编码方式打开,这让File
模块以UTF-8编码方式解析文件中读取的字节:
iex> {:ok, file} = File.open "another", [:write, :utf8]
{:ok, #PID<0.48.0>}
除了打开、读写文件的函数,文件模块还提供了许多函数来操作文件系统。
这些函数根据Unix平台上功能相对应的命令来命名。
如File.rm/1
用来删除文件,File.mkdir/1
用来创建目录,File.mkdir_p/1
创建目录并保证其父目录一并创建。
甚至还有File.cp_r/2
和File.rm_rf/1
用来递归地复制或删除整个目录。
你会注意到File
模块的函数有两种变体,一个普通的和一个名称末尾有!
(bang)的。
例如在上面的例子里,我们在读取“hello”文件时,用的是不带!
的版本。
相对地,我们也可以使用File.read!/1
:
iex> File.read "hello"
{:ok, "world"}
iex> File.read! "hello"
"world"
iex> File.read "unknown"
{:error, :enoent}
iex> File.read! "unknown"
** (File.Error) could not read file unknown: no such file or directory
注意看,当文件不存在时,带!号的版本会抛出一个错误。
而不带!号的版本适用于你对不同结果进行模式匹配的情形:
case File.read(file) do
{:ok, body} -> # do something with the `body`
{:error, reason} -> # handle the error caused by `reason`
end
但有的时候,你就是希望文件在那儿,!号变体更加适用,因为它能报出有意义的错误。
例如,如果这么写:
{:ok, body} = File.read(file)
当遇到文件不存在的情况时,函数返回{:error, reason}
,然后导致在跟左侧元组做模式匹配时失败。
失败依然会抛出一个异常,但是该异常的错误信息是描述一次模式匹配失败,而不是文件的什么错误。
从而在一定程度上掩盖了真正的失败原因。
可以这么写:
case File.read(file) do
{:ok, body} -> # handle ok
{:error, r} -> # handle error
end
当然,更推荐的写法:
File.read!(file)
Path
模块
模块File
中的绝大多数函数都以各种路径作为参数。
通常,这些路径都是二进制串(binaries)。
模块Path
提供了操作这些路径的函数:
iex> Path.join("foo", "bar")
"foo/bar"
iex> Path.expand("~/hello")
"/Users/jose/hello"
推荐使用Path
模块提供的函数而不是直接手动操作代表路径的二进制串。
因为Path
模块考虑了不同操作系统的区别,使得各种处理是对“操作系统”透明的。
最后,记住在Windows平台上处理文件操作时,Elixir会自动将斜杠(/)转换成反斜杠(\)。
有了上面介绍的模块和函数,我们已经能对文件系统进行基本的操作。
下面将讨论有关IO的一些高级话题。这部分并不是写Elixir程序必须掌握的,可以跳过不看。
但是如果你浏览一下,可以大致了解IO是如何在VM上实现的,以及其它一些有趣的内容。
进程(Processes)和组长(group leaders)
你可能已经注意到File.open/2
函数返回类似{:ok, pid}
的元组:
iex> {:ok, file} = File.open "hello", [:write]
{:ok, #PID<0.47.0>}
模块IO
实际上是和进程(Process)一起协同工作的。
当你调用IO.write(pid, binary)
时,IO
模块将发送一条消息给pid
标示的进程,
附上所期望进行的操作。
如果我们自己用进程来描述这个过程:
iex> pid = spawn fn ->
...> receive do: (msg -> IO.inspect msg)
...> end
#PID<0.57.0>
iex> IO.write(pid, "hello")
{:io_request, #PID<0.41.0>, #Reference<0.0.8.91>, {:put_chars, :unicode, "hello"}}
** (ErlangError) erlang error: :terminated
调用IO.write/2
之后,可以看到IO
模块发出的请求(四个元素的元组)被打印了出来。
不久后,因为我们并未提供IO
模块期待的某种结果,这个请求失败了。
StringIO
模块
提供了基于字符串的IO
设备消息处理功能(将字符串看做IO设备):
iex> {:ok, pid} = StringIO.open("hello")
{:ok, #PID<0.43.0>}
iex> IO.read(pid, 2)
"he"
Erlang虚拟机通过利用进程给IO设备建模,使得同一个网络中的不同节点可以通过交换文件进程,
实现跨节点的文件读写。而在所有IO设备之中,有一个特殊的进程,称作组长(group leader)。
当你写东西到标准输入输出(:stdio
),实际上是发送了一条消息给进程组长,
它把内容写给标准输出的文件描述符:
iex> IO.puts :stdio, "hello"
hello
:ok
iex> IO.puts Process.group_leader, "hello"
hello
:ok
在不同的应用场景下,让哪个进程作为组长是可以配置的。
例如,当在远程终端执行代码时,通过配置组长,可以使得远程节点上打印的消息可以被重定向到发起操作(你)的终端上。
iodata
和chardata
在以上所有例子中,我们都用的是二进制串格式写入文件。
在“二进制串、字符串和字符列表”那章里,我们提到过字符串(string)就是普通的bytes,
而字符列表(char list)就是字符编码(code point,如“Uxxxx”、“049”)的列表。
IO
模块和File
模块中的函数还可以接受列表作为参数。
不光如此,它们还接受混合类型的列表,里面内容可以是列表(如'ab c'
)、
整形(如49
,?A
—- 返回65)和二进制串(如"ab c"
):
iex> IO.puts 'hello world'
hello world
:ok
iex> IO.puts ['hello', ?\s, "world"]
hello world
:ok
?
返回后面字符的编码(code point),如?A
默认情况下返回65。
尽管如此,有些地方还是要注意。一个列表可能表示一串byte,或者一串字符。
用哪一种需要看IO设备是怎么编码的。
如果不指明编码,文件就以raw模式打开,
这时候只能用IO
模块里bin*
开头(二进制版本)的函数对其进行操作。
这些函数接受iodata
作为参数。也就是说,它们期待一个整数值的列表,用来表示bytes或二进制串。
另一边,使用:utf8
打开的:stdio
和文件使用IO
模块里剩下来其它的函数。
这些函数期待char_data
作为参数,即一串字符或字符串的列表。
尽管差别比较精妙,但只是当你想要传递列表给那些函数的时候,才用担心一下细节问题。
而二进制串(binaries)表示了底层的bytes字节列表,这种表示已经是raw的了。