1.1.2 计算机语言
如前所述,计算机解决问题的过程实质上是机械地执行人们为它编制的指令序列的过程。为了告诉计算机应当执行什么指令,需要使用某种计算机语言。这种计算机语言能够精 确地描述计算过程,称为程序设计语言或编程语言(programming language)。
与计算机打交道的理想语言当然是像科幻电影所展示的那样,人类用自然语言与计算机(电影中更多的是机器人)进行对话。遗憾的是,由于自然语言的词语和句子往往有歧义, 既不精确也不简练,至少目前的计算机还不能很好地理解自然语言。所以计算机科学家设计 了人造语言来与计算机进行交流。编程语言是人工设计的形式语言,具有严格的语法和语义, 因此没有歧义的问题。
机器语言
CPU 制造商在设计某种 CPU 硬件结构的同时,也为其设计了一种“母语”——指令集, 这种语言称为机器语言(machine language)。机器语言在形式上是二进制的,即所有指令都 是由 0 和 1 组成的二进制序列。利用机器语言写的程序自然就是二进制指令的序列。我们来
① 不能望文生义地以为计算机科学是关于计算机的学问。著名计算机科学家 Dijkstra 有一句名言:计算机之 于计算机科学,正如望远镜之于天文学。
看一条 Intel 8086 处理器的机器指令:
0000010000000001
只要你将这一串 0/1 序列交给 CPU,CPU 就会按指令要求执行特定操作——将 1 存储 到计算机的某个寄存器①当中。计算机只懂得这种非常低级的机器语言。显然,用机器语言 编程序与计算机打交道,实在是太麻烦了,毕竟机器语言指令既难理解又难记忆。
汇编语言
为了使编程更容易,人们发明了汇编语言(assembly language)。汇编语言本质上是将机 器指令用更加容易为人们所理解和记忆的“助忆符”形式表现出来。例如前面那条将 1 存入 寄存器的机器指令在汇编语言中可以写成:
MOV AL, 1
可见在汇编语言中,指令的操作符是用 MOV(即 move)之类的助忆符表示的,操作数 据也用易理解的数字或符号来表示,因此指令的含义变得非常容易理解,例如上面这条指令 可以读成“将 1 送入寄存器 AL”。虽然编写汇编语言程序对程序员来说难度降低了很多,但 是很遗憾,计算机并不懂汇编语言。为了使计算机理解汇编语言程序,需要用一种称为汇编 器(assembler)的程序把汇编语言程序翻译成机器语言程序。有了汇编器这个“翻译”,程 序员“说”的汇编语言就能被计算机“听”懂并执行了。
即使到了今天,汇编语言在某些场合(如嵌入式系统)仍然非常有用,因为用汇编语言 能够写出执行效率很高的程序。但是,汇编语言和机器语言并没有本质上的差别,同样属于 非常低级的语言。而低级语言具有无法克服的缺点:第一,低级语言与机器硬件结构紧密关 联,因此为掌握低级语言必须了解很多底层硬件知识,导致低级语言的学习和使用都很困难, 开发效率低而且容易出错;第二,由于不同硬件的计算机具有不同的机器语言和汇编语言, 一类计算机上的低级语言程序不能拿到另一类计算机上执行,我们说低级语言程序不具有可 移植性。
高级编程语言
为了克服低级语言的缺点,计算机科学家设计出了更加易用的高级编程语言(high-level programming language)。高级语言相对于机器语言和汇编语言具有很多优点:第一,高级语 言吸收了人们熟悉的自然语言(英语)和数学语言的某些成分,因此非常易学、易用、易读; 第二,高级语言在构造形式和意义方面具有严格定义,从而避免了语言的歧义性;第三,高 级语言与计算机硬件没有关系,用高级语言写的程序可以移植到各种计算机上执行。
如果用高级语言来表达将 1 存入某处的指令,可以写成这样:
x = 1
显然这更加类似于我们从小就熟悉的数学语言,很容易理解和学会使用。
编译和解释
用高级语言所写的程序是不能直接交给计算机执行的,因为计算机完全不懂 x = 1 之 类的语句。为了让计算机理解并执行,必须先将高级语言程序翻译成机器语言程序。
高级语言的翻译有两种方式:编译和解释。
编译器(compiler)将高级语言程序(称为源代码)完整地翻译成等价的机器语言程序(称为目标代码),如图 1.2 所示。编译的特点是“一劳永逸”,整个源代码一旦翻译完毕, 今后就可以在任何时候多次执行目标代码,再也不需要编译器的参与了。就像翻译家将一本 英文小说笔译成中文,这是一次性的工作,作为翻译结果的中译本可以多次阅读。以编译方
① 寄存器是 CPU 里面的高速存储部件。
式处理源代码,对目标代码可以进行很多细致的优化,从而程序的执行速度一般会更快。就 像翻译家对中译本可以精雕细琢,从而达到信达雅的境界。
图 1.2 高级语言的编译
解释器(interpreter)直接分析并执行高级语言程序,如图 1.3 所示。解释的特点是“见 招拆招”,对源代码总是临机进行解释和执行。就像外交部的口译人员所做的工作,国家主席 说一句中文,口译者立即将它翻译成英文;即使主席后来说了同样的话,口译者还是要重新 翻译,无法重复利用以前的翻译结果。解释执行的处理方式无法进行上下文信息来进行优化, 导致程序执行速度较慢,正如口译者无法琢磨最佳译文一样。但解释性语言具有更灵活的编 程环境,可以交互式地输入程序语句并立即执行,程序员面对的仿佛是一台能听懂高级语言 的计算机。
图 1.3 高级语言的解释
高级语言之所以具有前面提到的可移植性,正是因为高级语言的这种先翻译后执行的特 点。只要一台计算机上有合适的编译器或解释器,用某种高级语言编写的程序可以在该计算 机上执行。就像国家主席的讲话可以被中译英口译人员翻译给英语国家的人听,也可以被中 译法口译人员翻译给法语国家的人听一样。
还要说明的是,编译器和解释器本身也是程序,这种程序所执行的计算就是将别的程序 翻译成机器能够理解的指令。为了让一台计算机能够执行某种高级语言程序,必须先在该计 算机上安装特定高级语言的编译器或解释器程序!
迄今为止,计算机科学家们发明了数百种高级编程语言。不同语言的细节不尽相同,但 一些基本语言构造在绝大多数语言中都是存在的,例如输入输出、基本的数学运算、有条件 地执行和重复地执行等等。一般只要掌握一种编程语言,就足以利用计算机去解决实际问题。 而且一旦掌握了一种编程语言,再去学习其他语言也会变得非常容易。
本书要讨论的是用计算机解决问题时的思想和方法,这些内容原则上与使用哪种编程语 言没有关系。但是,为了更好地掌握本书的内容,需要进行编程实践,这就要求我们必须学 会某种编程语言。选择什么编程语言呢?高级编程语言虽多,但流行的并没有多少。2012 年 4 月公布的 TIOBE 编程语言排行榜①上,位列前 10 名的语言分别是 C、Java、C++、Objective-C、 C#、PHP、(Visual)Basic、Python、JavaScript 和 Perl。本书将采用位列其中的 Python 语言, 选择这个语言的理由是该语言非常易学易用,而且特别适合教学。
① http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html