术语表

表 1 术语表

术语

解释

A – E

ACID

在可靠数据库管理系统(DBMS)中,事务(transaction)所应该具有的四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)。

AZ

Available Zone,通常指一个机房。

Bgwriter

数据库启动时创建的一个后台写线程,此线程用于将数据库中脏页面写入到持久性设备(例如磁盘)中。

bit

比特。计算机处理的最小的信息单位。比特用来表示二进制数字1或0,或者一种逻辑条件真或假。在物理上,比特表示一个电路上高或低的电压点或者磁盘上的磁化单程或其它。一个单独的比特位所传达的信息很少有意义的。然而,一个8位组却构成了一个字节,可用于表示如一个英文字母,十进制数字,或其它字符等多种类型的信息。

Bloom Filter

布隆过滤器。由Howard Bloom在1970年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员,这种检测只会对在集合内的数据错判,而不会对不是集合内的数据进行错判,这样每个检测请求返回有“在集合内(可能错误)”和“不在集合内(绝对不在集合内)”两种情况,可见Bloom filter是牺牲了正确率换取时间和空间。

CEK

Column Encryption Key,列加密密钥。

CIDR

Classless Inter-Domain Routing,无类域间路由IP编址方案。CIDR摒弃传统的基于类(A类:8,B类:16,C类:24)的地址分配方式,允许使用任意长度的地址前缀,有效提高地址空间的利用率。CIDR表示方法:IP地址/网络ID的位数。比如192.168.23.35/21,其中“21”表示前面地址中的前21位代表网络部分,其余位代表主机部分。

CLI

Command-line Interface,命令行界面。应用程序和用户交互的一种方式,完全基于文本输入和输出。命令通过键盘或类似装置输入,由程序编译并执行。结果是以文本或图形的方式呈现在终端界面。

CM

Cluster Manager,数据库管理模块。管理和监控系统中各个功能单元和物理资源的运行情况,确保整个系统的稳定运行。

CMK

全密态场景:Client Master Key,客户端加密主密钥。

CU

Compression Unit,压缩单元。列存表的最小存储单位。

core文件

当程序出现内存越界、断言失败或者访问非法内存时,操作系统会中止进程,并将当前内存状态导出到core文件中,以便进一步分析。

core文件包含内存转储,支持全二进制和指定端口格式。core文件名称由字符串core以及操作系统进程ID组成。

core文件不依赖于任何平台。

Core Dump

通常在程序异常终止时,核心转储(Core Dump)、内存转储或系统转储用于记录特定时间计算机程序工作内存的状态。实际上,其它关键程序的状态经常在同一时间进行转储,例如处理器寄存器,包括程序指标和栈指针、内存管理信息、其它处理器和操作系统标记及信息。Core Dump经常用于辅助诊断和纠错计算机程序问题。

DBA

Database Administrator,数据库管理员。指导或执行所有和维护数据库环境相关的操作。

DBLINK

DBLINK是定义一个数据库到另一个数据库路径的对象,通过它可以查询远程数据库对象。

DBMS

Database Management System,数据库管理系统。数据库管理系统是为了访问数据库中的信息而使用的一个管理系统软件。它包含一组程序使用户可以进入、管理、查询数据库中数据。基于真实数据的位置,可以分为内存数据库管理系统和磁盘数据库管理系统。

DCF

Distributed Consensus Framework,分布式共识框架,基于Paxos算法实现数据同步强一致。

DCL

Data Control Language,数据控制语言。

DDL

Data Definition Language,数据定义语言。

DEK

Data Encryption Key,数据加密密钥。

DML

Data Manipulation Language,数据操纵语言。

备份

备份件或者备份过程。指复制并归档计算机数据,当发生数据丢失事件时,可以用该复制并归档的数据来恢复原始数据。

备份和恢复

保护数据库防止由于媒介失效或人为错误造成的数据丢失过程中涉及的一组概念、过程及策略。

备机

openGauss双机方案中的一个节点,用于作为主机的备份,在主机异常时,备机会切换到主机状态,以确保能正常提供数据服务。

崩溃

崩溃(或系统崩溃)指计算机或程序(例如软件应用程序或操作系统)异常终止的事件。出现错误后,通常会自动退出。有时出现恶意程序冻结或挂起直到崩溃上报服务记录崩溃的详细信息。对于操作系统内核关键部分的程序,整个计算机可能瘫痪(可能造成致命的系统错误)。

编码

编码是指用代码来表示各组数据资料,使其成为可利用计算机进行处理和分析的信息。用预先规定的方法将文字、数字或其它对象编成数码,或将信息、数据转换成规定的电脉冲信号。

编码技术

呈现计算机软硬件识别的特定字符集数据的技术。

表是由行与列组合成的。每一列被当作是一个字段。每个字段中的值代表一种类型的数据。例如,一个表可能有3个字段:姓名、城市和国家。这个表就会有3列:一列代表姓名,一列代表城市,一列代表国家。表中的每一行包含3个字段的内容,姓名字段包含姓名,城市字段包含城市,国家字段包含国家。

表空间

表空间是数据库的逻辑划分,一个表空间只能属于一个数据库。所有的数据库对象都存放在指定的表空间中。但主要存放的是表, 所以称作表空间。表空间包含表、索引、大对象、长数据等数据的逻辑存储结构。表空间在物理数据和逻辑数据间提供了抽象的一层,为所有的数据库对象分配存储空间。表空间创建好后,创建数据库对象时可以指定该对象所属的表空间。

并发控制

在多用户环境下同时执行多个事务并保证数据完整性的一个DBMS服务。并发控制是openGauss提供的一种多线程管理机制,用来保证多线程环境下在数据库中执行的操作是安全的和一致的。

查询

向数据库发出的信息请求,包含更新、修改、查询或删除信息的请求。

查询操作符

Query Operator,也称为查询迭代算子(Iterator)或查询节点(Query Tree Node)。一个查询的执行可以分解为一个或多个查询操作符,是构成一个查询执行的最基本单位。常见的查询操作符包括表扫描(Scan),表关联(Join),表聚集(Aggregation)等。

持久性

数据库事务的ACID特性之一。在事务完成以后,该事务对数据库所作的更改便持久的保存在数据库之中,并不会被回滚。

存储过程

存储过程(StoredProcedure)是在大型数据库系统中,一组为了完成特定功能的SQL语句集,经编译后存储在数据库中,用户通过指定存储过程的名称并设置参数(如果该存储过程带有参数)来执行它。

操作系统

操作系统OS(operating system)由引导程序加载到计算中,对计算机中其它程序进行管理。其它程序叫做应用或应用程序。

大对象

大对象(Blob)在数据库中指使用二进制方式存储的数据。它通常可以用于存储视频、音频和图像等多媒体数据。

数据库中,一段指包含一个或多个区域的数据库中的一部分。区域是数据库的最小范围,由单元调用块组成。一个或多个段组成一个表空间。

F – J

Failover

指当某个节点出现故障时,自动切换到备节点上的过程。反之,从备节点上切换回来的过程称为Failback。

FDW

Foreign Data Wrapper,外部数据封装器。是openGauss提供的一个SQL接口,用于访问远程数据存储中的大数据对象,使DBA可以整合来自不相关数据源的数据,将它们存入数据库中的一个公共模型。

Freeze

在事务ID耗尽时由AutoVacuum Worker进程自动执行的操作。openGauss会把事务ID记在行头,在一个事务取得一行时,通过比较行头的事务ID和事务本身的ID判断这行是否可见,而事务ID是一个无符号整数,如果事务ID耗尽,事务ID会跨过整数的界限重新计算,此时原先可见的行就会变成不可见的行,为了避免这个问题,Freeze操作会将行头的事务标记为一个特殊的事务ID,标记了这个特殊的事务ID的行将对所有事务可见,以此避免事务ID耗尽产生的问题。

GDB

GNU工程调试器,可以监控其它程序运行时的内部情况,或者其它程序要崩溃时发生了什么。GDB支持如下四种主要操作(使PDK功能更加强大),辅助查找缺陷。

  • 启动程序,指定可能影响行为的任何因素。
  • 特定条件下,停止程序。
  • 程序停止时,检查发生了什么。
  • 修改程序内容,尝试纠正一个缺陷并继续下一个。

GIN索引

Generalized Inverted Index,通用倒排索引。作用为处理索引项为组合值的情况,查询时需要通过索引搜索出出现在组合值中的特定元素值。

GNU

GNU计划,又称革奴计划,是由RichardStallman在1983年9月27日公开发起的。它的目标是创建一套完全自由的操作系统。GNU是“GNU’s NotUnix”的递归缩写。Stallman宣布GNU应当发音为Guh-NOO以避免与new这个单词混淆(注:Gnu在英文中原意为非洲牛羚,发音与new相同)。Unix是一种广泛使用的商业操作系统的名称。技术上讲,GNU类似Unix。但是GNU却给了用户自由。

共享存储

共享存储(SharedStorage),提供主备机共享一份存储的能力,提供一种主备共享存储的新HA部署形态,解决传统HA部署下存储容量较单机翻倍的问题,满足降低存储容量及成本的需求。主备之间去除了日志复制功能,增加了主备页面交换功能,备机支持实时一致性读。

gsql

openGauss交互终端。通过gsql能够以交互的方式输入查询,下发查询到openGauss,然后查看查询结果。或者,也可以从文件中输入。此外,gsql还提供许多元命令和各种类似shell命令,协助脚本编写及自动化各种任务。

GUC

Grand Unified Configuration,数据库运行参数。配置这些参数可以影响数据库系统的行为。

HA

高可用性(HighAvailability),通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。

HBA

host-based authentication,主机认证。主机鉴权允许主机鉴权部分或全部系统用户。适用于系统所有用户或者使用Match指令的子集。该类型鉴权对于管理计算以及其它完全同质设备非常有用。总之,服务器上的三个文件以及客户端上的一个文件必须修改,为主机鉴权做准备。

IV

Initialization Vector,初始向量。初始向量是许多加密模式中用于随机化加密的一块数据,因此可以由相同的明文、相同的密钥产生不同的密文。

服务器

为客户端提供服务的软硬件的组合。单独使用时,指运行服务器操作系统的计算机,也可以指提供服务的软件或者专用硬件。

隔离性

数据库事务的ACID特性之一。它是指一个事务内部的操作及使用的数据对其它并发事务是隔离的,并发执行的各个事务之间不能互相干扰。

关系型数据库

创建在关系模型基础上的数据库。关系型数据库借助于集合代数等数学概念和方法来处理数据库中的数据。

归档线程

数据库打开归档功能时启动的一个线程,此线程用于将数据库日志归档到指定的路径。

故障接管

功能对等的系统部件对于故障部件的自动替换过程。系统部件包含处理器、服务器、网络、数据库等。

环境变量

定义进程操作环境某一方面的变量。例如,环境变量可以为主目录,命令搜索路径,使用终端或当前时区。

检查点

将数据库内存中某一时刻的数据存到磁盘的机制。openGauss定期将已提交的事务数据和未提交的事务数据存到磁盘,这些数据用来和Redo日志一起在数据库重启和崩溃时恢复数据库。

加密

用于传输数据的功能。通过该功能,可以隐藏信息内容,防止非法使用。

节点

将构成openGauss数据库环境的各台服务器(物理机或虚拟机)称为数据库节点,简称节点。

纠错

系统自动识别软件和数据流上的错误并自动修正错误的能力,提升系统的稳定性和可靠性。

进程

在单个计算机上执行程序的实例。一个进程由一个或多个线程组成。其它进程不能接入某个进程已占用的线程。

基于时间点恢复

PITR(Point-In-Time Recovery),基于时间点恢复是openGauss备份恢复的一个特性,是指在备份数据和WAL日志正常的情况下,数据可以恢复到指定时间点。

记录

在关系型数据库中,每一条记录对应表中的每一行数据。

K – O

KMC

Key Management Component,密钥管理组件。

KMS

Key Management Service,密钥管理服务。

KSF

Key Store File,密钥存储文件。

逻辑复制

数据库主备或两个数据库间的数据同步方式。区别于通过物理日志回放方式的物理复制,逻辑复制在两个数据库间传输逻辑日志或通过逻辑日志对应的SQL语句实现数据同步。

逻辑日志

数据库修改的日志记录,可直接对应为SQL语句,一般为行级记录。区别于物理日志,物理日志是记录物理页面修改的日志。

逻辑解码

逻辑解码是一种通过对xlog日志的反解实现将数据库表的所有持久更改抽取到一种清晰、易于理解的格式的处理过程。

逻辑复制槽

在逻辑复制的环境下,逻辑复制槽用以防止Xlog被系统或Vaccum回收。openGauss中用于记录逻辑解码位置的对象,提供创建、删除、读取、推进等多个SQL接口函数。

MVCC

Multi-Version Concurrency Control,多版本并发控制。数据库并发控制协议的一种,它的基本算法是一个元组可以有多个版本,不同的查询可以工作在不同的版本上。一个基本的好处是读和写可以不冲突。

NameNode

NameNode是Hadoop系统中的一个中心服务器,负责管理文件系统的名称空间(namespace)以及客户端对文件的访问。

OM

Operations Management,运维管理模块。提供数据库日常运维、配置管理的管理接口、工具。

客户端

客户端(Client)或称为用户端,是指与服务器相对应,为客户提供本地服务的程序。

空闲空间管理

管理表内空闲空间的机制,通过记录每个表内空闲空间信息,并建立易于查找的数据结构,可以加速对空闲空间进行的操作(例如INSERT)。

垃圾元组

是指使用DELETE和UPDATE语句删除的元组,openGauss在删除元组时只是打个删除标记,由Vacuum线程清理这种垃圾元组。

字段的等效概念。在数据库中,表由一列或多列组成。

逻辑节点

一个物理节点上可以安装多个逻辑节点。一个逻辑节点是一个数据库实例。

模式

数据库对象集,包括逻辑结构,例如表、视图、序、存储过程、同义名、索引及数据库链接。

模式文件

用于决定数据库结构的SQL文件。

P – T

Page

openGauss数据库关系对象结构中行存的最小内存单元。一个Page大小默认为8KB。

Paxos

分布式一致性协议。

PostgreSQL

PostgreSQL是一个开源的关系数据库管理系统(DBMS),由全球志愿者团队开发。PostgreSQL不受任何公司或个体所控制,源代码免费使用。

Postmaster

数据库服务启动时启动的一个线程。用于侦听来自数据库其它节点或客户端的连接请求。

主机上侦听到备机连接请求,并接受后,就会创建一个WAL Sender线程,用于处理与备机的交互。

Publication

发布可以被定义在任何物理复制的主服务器上。定义有发布的节点被称为发布者。发布是从一个表或者一组表生成的改变的集合,也可以被描述为更改集合或者复制集合。每个发布都只存在于一个数据库中。

RHEL

Red Hat Enterprise Linux,红帽企业Linux。

REDO日志

记录对数据库进行操作的日志,这些日志包含重新执行这些操作所需要的信息。当数据库故障时,可以利用REDO日志将数据库恢复到故障前的状态。

RK

Root Key,加密根密钥。

SCTP

Stream Control Transmission Protocol,流控制传输协议。是IETF于2000年新定义的一个传输层协议。是提供基于不可靠传输业务的协议之上的可靠的数据报传输协议。SCTP的设计用于通过IP网传输SCN窄带信令消息。

Savepoint

保存点。是一种在关系数据库管理系统中实现子事务(也称为嵌套事务)的方法。在一个长事务中,可以把操作过程分成几部分,前面部分执行成功后,可以建一个保存点,若后面的执行失败,则回滚到这个保存点即可,无需回滚整个事务。保存点对于在数据库应用程序中实现复杂错误恢复很有用。如果在多语句事务中发生错误,则应用程序可能能够从错误中恢复(通过回滚到保存点)而无需中止整个事务。

Session

数据库系统在接收到应用程序的连接请求时,为该连接创建的一个任务。它被Session Manager管理,完成一些初始化任务,执行用户的所有操作。

SMP

Symmetric Multi-Processing,对称多处理技术,是指在一台计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。操作系统必须支持多任务和多线程处理,以使得SMP系统发挥高效的性能。数据库领域的SMP并行技术,一般指利用多线程技术实现查询的并行执行,以充分利用CPU资源,从而提升查询性能。

SQL

Structure Query Language,结构化查询语言。数据库的标准查询语言。它可以分为数据定义语言(DDL),数据操纵语言(DML)和数据控制语言(DCL)。

SSL

Secure Socket Layer,安全套接层。SSL是Netscape公司率先采用的网络安全协议。它是在传输通信协议(TCP/IP)上实现的一种安全协议,采用公开密钥技术。SSL广泛支持各种类型的网络,同时提供三种基本的安全服务,它们都使用公开密钥技术。SSL支持服务通过网络进行通信而不损害安全性。它在客户端和服务器之间创建一个安全连接。然后通过该连接安全地发送任意数据量。

Subscription

订阅是逻辑复制的下游端。订阅被定义在其中的节点被称为订阅者。一个订阅会定义到另一个数据库的连接以及它想要订阅的发布集合(一个或者多个)。

收敛比

交换机下行带宽与上行带宽的比值。收敛比越高,流量收敛程度越大,丢包越严重。

Table Access Method

表访问方法层,对执行引擎和存储引擎进行解耦,实现存储引擎的可插拔能力。

TCP

Transmission Control Protocol,传输控制协议。用于将数据信息分解成信息包,使之经过IP协议发送;并对利用IP协议接收来的信息包进行校验并将其重新装配成完整的信息。TCP是面向连接的可靠协议,能够确保信息的无误发送。

trace

一种特殊的日志记录方法,用来记录程序执行的信息。程序员使用该信息进行纠错。另外,根据trace日志中信息的类型和内容,有经验的系统管理员或技术支持人员以及软件监控工具诊断软件常见问题。

强一致性

任何查询不会瞬时的看到一个事务的中间状态。

全备份

备份整个数据库。

全量同步

openGauss双机方案中的一种数据同步机制,是指把主机中的所有数据同步给备机。

日志文件

计算机记录自身活动的记录。

事务

数据库管理系统执行过程中的一个逻辑单位,由一个有限的数据库操作序列构成,事务必须满足ACID原则。

数据

事实或指令的一种表达形式,适用于人为或自动的通信、解释或处理。数据包含常量、变量、阵列和字符串。

数据分区

数据分区是指在一个数据库实例内部,将表按照指定范围划分为多个数据互不重叠的部分(Partition)。具体的分区方式可以有:范围分区(Range),它根据元组中指定字段的取值所处的范围映射到目标存储位置。

数据库

数据库是存储在一起的相关数据的集合,这些数据可以被访问,管理以及更新。同一视图中,数据库可以根据存储内容类型分为以下几类:数目类、全文本类、数字类及图像类。

数据库实例

一个数据库实例是一个openGauss进程以及它控制的数据库文件。openGauss在一个物理节点上安装多个数据库实例。一个数据库实例也被称为一个逻辑节点。

数据库双机

openGauss提供的高可靠性双机方案。在此方案中,每个openGauss逻辑节点标识为主机或备机。在同一时间内,只有一个openGauss被标识为主机。双机初次建立时,主机会对每个备机数据做全量同步,然后做增量同步。双机建立之后的运行过程中,主机能接受数据读和写的操作请求,备机只做日志同步。

数据库文件

保存用户数据和数据库系统内部数据的二进制文件。

数据字典

数据字典是一系列只读的表,用来提供数据库的信息。这些信息包括:数据库设计信息、存储过程信息、用户权限、用户统计数据、数据库进程信息、数据库增长统计数据和数据库性能统计数据。

死锁

为使用同一资源而产生的无法解决的争用状态。

索引

数据库索引,是数据库管理系统中一个排序的数据结构,以协助快速查询、更新数据库表中数据。

统计信息

数据库使用统计信息估算查询代价,以查找代价最小的执行计划,统计信息一般是数据库自动收集的,包括表级信息(元组数、页面数等)和列级信息(列的值域分布直方图)。

停用词

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。

U – Z

Ustore

新增的In-place update存储引擎很好的解决了Append update存储引擎空间膨胀和元组较大的问题,高效回滚段的设计是In-place update存储引擎的基础。

Undo Record

撤销记录,用于undo记录的插入、查询以及组织,北向对接ustore,南向对接buffer pool。

Undo Space

管理Undo记录的物理资源,包括增删undo文件等。

Undo Zone

与业务线程绑定,管理每个业务线程的Undo逻辑资源。

TransactionSlot

按照事务粒度记录Undo Record,用于事务回滚及Undo记录回收。

TIMECAPSULE

闪回的关键字,使用闪回技术后,恢复已提交的数据库修改前的数据,只需要秒级,而且恢复时间和数据库大小无关。

RECYCLE BIN

回收站,开启回收站开关后,DROP TABLE可以将表及其子对象放入回收站中。

PURGE

对回收站对象进行清理。

Vacuum

数据库定期启动的清理垃圾元组的线程,根据配置参数可以同时启动多个。

verbose

verbose选项指定显示在屏幕上的处理信息。

WAL

Write-Ahead Logging,预写日志系统。实现事务日志的标准方法,是指对数据文件(表和索引的载体)持久化修改之前必须先持久化相应的日志。

WAL Receiver

数据库复制时备机创建的一个线程的名称。此线程用于从主机接收数据、命令,并反馈确认信息至主机。一个备机只有一个WAL Receiver线程。

WAL Sender

数据库复制过程中,主机接受到备机的连接请求后创建的一个线程的名称。此线程用于发送命令、数据到备机,并从备机接收信息。一个主机可能会有多个WAL Sender线程,每一个WAL Sender线程对应一个备机的一个连接请求。

WAL Writer

数据库启动时创建的一个写Redo日志的线程,用于将内存中的日志写入到持久性设备(如:磁盘)。

Xlog

表示事务日志,一个逻辑节点中只有一个,不允许创建多个Xlog文件。

xDR

详单。用户面和信令面详单的统称,包括CDR和UFDR、TDR和SDR。

物理节点

一个物理机器称为一个物理节点。

系统表

存储数据库元信息的表,元信息包括数据库中的用户表、索引、列、函数和数据类型等。

下推

openGauss可以利用多DN并行执行查询计划,即将数据库主节点中的查询计划下发到各DN中并行执行。这种行为称为下推。与将数据抽取到数据库主节点上执行查询的方式相比,下推可以大幅提升查询性能。

压缩

数据压缩,信源编码,或比特率降低涉及使用相比原来较少比特的编码信息。压缩可以是有损或无损。无损压缩通过识别和消除统计冗余降低比特位。无损压缩中没有信息丢失。有损压缩识别并删除次要信息,减少了比特位。减少数据文件大小的方法被普遍称为数据压缩,尽管其正式名称为源编码(数据源的编码,然后将其存储或传输)。

一致性

数据库事务的ACID特性之一。在事务开始之前和事务结束以后,数据库的完整性约束没有被破坏。

元数据

用来定义数据的数据。主要是描述数据自身信息,包含源、大小、格式或其它数据特征。数据库字段中,元数据用于理解以及诠释数据仓库的内容。

原子性

数据库事务的ACID特性之一。整个事务中的所有操作,要么全部完成,要么全部不完成,不可能停滞在中间某个环节。事务在执行过程中发生错误,会被回滚到事务开始前的状态,就像这个事务从来没有执行过一样。

脏页面

已经被修改且未写入持久性设备的页面。

增量备份

基于上次有效备份之后对文件修改的备份。

增量同步

openGauss双机方案中的一种数据同步机制,是指把主机中数据增量同步给备机,即只同步主备间有差异的数据。

主机

openGauss数据库双机系统中接受数据读写操作的节点,和所有备机一起协同工作。在同一时间内,双机系统中只有一个节点被标识为主机。

主题词

在标引和检索中用以表达文献主题的规范化的词或词组。

转储文件

转储文件是一种特定类型的trace文件。转储文件为响应事件过程中一次性输出的诊断数据,trace文件指诊断数据的连续输出。

最小恢复点

最小恢复点是openGauss提供的数据一致性保障手段之一。最小恢复点特性可以在openGauss启动时检查出WAL日志和持久化到磁盘的数据的不一致性,并提示用户进行处理。