3.1.1 词法解析、语法解析

这一节我们分析下PHP的解析阶段,即 PHP代码->抽象语法树(AST) 的过程。

PHP使用re2c、bison完成这个阶段的工作:

  • re2c: 词法分析器,将输入分割为一个个有意义的词块,称为token
  • bison: 语法分析器,确定词法分析器分割出的token是如何彼此关联的

例如:

  1. $a = 2 + 3;

词法分析器将上面的语句分解为这些token:$a、=、2、+、3,接着语法分析器确定了2+3是一个表达式,而这个表达式被赋值给了a,我们可以这样定义词法解析规则:

  1. /*!re2c
  2. LABEL [a-zA-Z_\x7f-\xff][a-zA-Z0-9_\x7f-\xff]*
  3. LNUM [0-9]+
  4. //规则
  5. "$"{LABEL} {return T_VAR;}
  6. {LNUM} {return T_NUM;}
  7. */

然后定义语法解析规则:

  1. //token定义
  2. %token T_VAR
  3. %token T_NUM
  4. //语法规则
  5. statement:
  6. T_VAR '=' T_NUM '+' T_NUM {ret = str2int($3) + str2int($5);printf("%d",ret);}
  7. ;

上面的语法规则只能识别两个数值相加,假如我们希望支持更复杂的运算,比如:

  1. $a = 3 + 4 - 6;

则可以配置递归规则:

  1. //语法规则
  2. statement:
  3. T_VAR '=' expr {}
  4. ;
  5. expr:
  6. T_NUM {...}
  7. |expr '?' T_NUM {}
  8. ;

这样将支持若干表达式,用语法分析树表示:

3.1.1 词法解析、语法解析 - 图1

接下来我们看下PHP具体的解析过程,PHP编译阶段流程:

zend_compile_process

其中 zendparse() 就是词法、语法解析过程,这个函数实际就是bison中提供的语法解析函数 yyparse()

  1. #define yyparse zendparse

yyparse() 不断调用 yylex() 得到token,然后根据token匹配语法规则:

3.1.1 词法解析、语法解析 - 图3

  1. #define yylex zendlex
  2. //zend_compile.c
  3. int zendlex(zend_parser_stack_elem *elem)
  4. {
  5. zval zv;
  6. int retval;
  7. ...
  8. again:
  9. ZVAL_UNDEF(&zv);
  10. retval = lex_scan(&zv);
  11. if (EG(exception)) {
  12. //语法错误
  13. return T_ERROR;
  14. }
  15. ...
  16. if (Z_TYPE(zv) != IS_UNDEF) {
  17. //如果在分割token中有zval生成则将其值复制到zend_ast_zval结构中
  18. elem->ast = zend_ast_create_zval(&zv);
  19. }
  20. return retval;
  21. }

这里两个关键点需要注意:

(1) token值:词法解析器解析到的token值内容就是token值,这些值统一通过 zval 存储,上面的过程中可以看到调用lex_scan参数是是个zval*,在具体的命中规则总会将解析到的token保存到这个值,从而传递给语法解析器使用,比如PHP中的解析变量的规则:$a;,其词法解析规则为:

  1. <ST_IN_SCRIPTING,ST_DOUBLE_QUOTES,ST_HEREDOC,ST_BACKQUOTE,ST_VAR_OFFSET>"$"{LABEL} {
  2. //将匹配到的token值保存在zval中
  3. zend_copy_value(zendlval, (yytext+1), (yyleng-1)); //只保存{LABEL}内容,不包括$,所以是yytext+1
  4. RETURN_TOKEN(T_VARIABLE);
  5. }

zendlval就是我们传入的zval*,yytext指向命中的token值起始位置,yyleng为token值的长度。

(2) 语义值类型:bison调用re2c分割token有两个含义,第一个是token类型,另一个是token值,token类型一般以yylex的返回值告诉bison,而token值就是语义值,这个值一般定义为固定的类型,这个类型就是语义值类型,默认为int,可以通过 YYSTYPE 定义,而PHP中这个类型是 zend_parser_stack_elem ,这就是为什么zendlex的参数为zend_parser_stack_elem的原因。

  1. #define YYSTYPE zend_parser_stack_elem
  2. typedef union _zend_parser_stack_elem {
  3. zend_ast *ast; //抽象语法树主要结构
  4. zend_string *str;
  5. zend_ulong num;
  6. } zend_parser_stack_elem;

实际这是个union,ast类型用的比较多(其它两种类型暂时没发现有地方在用),这样可以通过%token、%type将对应的值修改为elem.ast,所以在zendlanguageparser.y中使用的$$、$1、$2……多数都是 __zend_parser_stack_elem.ast

  1. %token <ast> T_LNUMBER "integer number (T_LNUMBER)"
  2. %token <ast> T_DNUMBER "floating-point number (T_DNUMBER)"
  3. %token <ast> T_STRING "identifier (T_STRING)"
  4. %token <ast> T_VARIABLE "variable (T_VARIABLE)"
  5. %type <ast> top_statement namespace_name name statement function_declaration_statement
  6. %type <ast> class_declaration_statement trait_declaration_statement
  7. %type <ast> interface_declaration_statement interface_extends_list

语法解析器从start开始调用,然后层层匹配各个规则,语法解析器根据命中的语法规则创建AST节点,最后将生成的AST根节点赋到 CG(ast)

  1. %% /* Rules */
  2. start:
  3. top_statement_list { CG(ast) = $1; }
  4. ;
  5. top_statement_list:
  6. top_statement_list top_statement { $$ = zend_ast_list_add($1, $2); }
  7. | /* empty */ { $$ = zend_ast_create_list(0, ZEND_AST_STMT_LIST); }
  8. ;

首先会创建一个根节点list,然后将后面不断命中top_statement生成的ast加到这个list中,zend_ast具体结构:

  1. enum _zend_ast_kind {
  2. ZEND_AST_ZVAL = 1 << ZEND_AST_SPECIAL_SHIFT,
  3. ZEND_AST_ZNODE,
  4. /* list nodes */
  5. ZEND_AST_ARG_LIST = 1 << ZEND_AST_IS_LIST_SHIFT,
  6. ...
  7. };
  8. struct _zend_ast {
  9. zend_ast_kind kind; /* Type of the node (ZEND_AST_* enum constant) */
  10. zend_ast_attr attr; /* Additional attribute, use depending on node type */
  11. uint32_t lineno; /* Line number */
  12. zend_ast *child[1]; /* Array of children (using struct hack) */
  13. };
  14. typedef struct _zend_ast_list {
  15. zend_ast_kind kind;
  16. zend_ast_attr attr;
  17. uint32_t lineno;
  18. uint32_t children;
  19. zend_ast *child[1];
  20. } zend_ast_list;

根节点实际为zend_ast_list,每条语句对应的ast保存在child中,使用中zend_ast_list、zend_ast可以相互转化,kind标识的是ast节点类型,后面会根据这个值生成具体的opcode,另外函数、类还会用到另外一种ast节点结构:

  1. typedef struct _zend_ast_decl {
  2. zend_ast_kind kind;
  3. zend_ast_attr attr; /* Unused - for structure compatibility */
  4. uint32_t start_lineno; //开始行号
  5. uint32_t end_lineno; //结束行号
  6. uint32_t flags;
  7. unsigned char *lex_pos;
  8. zend_string *doc_comment;
  9. zend_string *name;
  10. zend_ast *child[4]; //类中会将继承的父类、实现的接口以及类中的语句解析保存在child中
  11. } zend_ast_decl;

这么看比较难理解,接下来我们从一个简单的例子看下最终生成的语法树。

  1. $a = 123;
  2. $b = "hi~";
  3. echo $a,$b;

具体解析过程这里不再解释,有兴趣的可以翻下zend_language_parse.y中,这个过程不太容易理解,需要多领悟几遍,最后生成的ast如下图:

zend_ast

总结:

这一节我们主要介绍了PHP词法、语法解析生成抽象语法树(AST)的过程,此过程是PHP语法实现的基础,也是zend引擎非常关键的一部分,后续介绍的内容都是基于此过程的产出结果展开的。这部分内容关键在于对re2c、bison的应用上,如果是初次接触它们可能不太容易理解,这里不再对re2c、bison作更多解释,想要了解更多的推荐看下 《flex与bison》 这本书。