自制语言parser过程讲解【godot吧】

自制语言parser的作用：
解析各种各样的文本或代码，高度定制。如果能找到规则，解析不带空格的中文也是可以的。
总体结构分为解析过程和执行过程
解析过程：词法分析器，语法分析器。目标是构建符号表和翻译成简单的指令语句。
执行过程：执行指令，管理符号表(进出符号的作用域)
这里主要讲比较简单的，绕开困难的地方，但也是编译原理里的内容。实际上，只追求可以运行，不考虑自动化（像正则表达式那种）和性能，制作parser可以绕开困难的地方很多

词法分析器
注：解析中文如果用c/c++的话要用对应的库，如果用char数组和std::string用下标访问是半个字符，这样是会出错的
。。。
进行词法分析，我们需要先制定规则，然后映射到解析代码中
。。。
顺便说一下，词法分析器能做的语法分析器都能做，所以会出现一些差异，例如gdscript的var可以在词法分析时解析为保留字，也可以在词法分析时解析为与变量名一类的“单词”，之后在语法分析阶段再看看是不是保留字。
。。。
平衡简单和通用，制定规则时有以下规则
能将分析规则画成确定有限状态机，这样就不会出现回退。为了进一步化简，可以引出：
进入字符集（变量名的字母或下划线），持续字符集，退出字符集（对于变量名，是空格或换行）。持续字符集和退出字符集交集应该为空。
。。。
映射后的语句是
初始，while(true){
读取字符
根据进入字符集进入不同的解析
}
对于数字或“单词”长度“无限”的
parse_xx():
while(true){
读取字符
如果是退出字符集，退出循环；
如果是持续字符集，进行处理(如整数的sum=sum*10+数字，“单词”的拼接字符)
}
退出循环后提交token，内容有type，value
对于有限符号
例如区分"=="和"="，需要向前看一个字符，多写几个if分支一下就行了
。。。
一般来说，需要满足下面的目标：
“单词”，整数，小数，字符串字面量，有限长度的符号
之后的十六进制等解析难度在质上没有质的变化。
。。。
词法分析的退化
其实写while循环对于刚开始接触的人来说容易写错（但比二叉查找好写

），有一些调用函数的方法。
一个是正则表达式，要能够查找匹配位置（有的函数只返回能不能匹配），上面while方法能做的正则表达式都能做。
一个是用字符串的split函数，适用于命令解析，对于表达式不带空格的和字符串字面量不擅长。

语法分析器
目标是形成树
。。。
采用递归下降法，形式为
parse_x1():
node=new X1Node()
token=get_next_token()
if(token=='t1'){
child_node=parse_x2()
node.add_child(child)
}
其他的分支
处理结束符号（经典的是各种右括号）
return node
。。。
上面也可以使用while，用于解析数组等
。。。
制定规则也是不要产生回退，尽可能让入口的token就能决定要解析的类型，
让入口定类型，之后要做的只需进行分支和拼接、匹配判断。
。。。
然而上面不适用于四则运算的表达式
这个内容为符号优先文法，或是教数据结构的栈那一节会有讲

支持😁

进行完语法分析后就是翻译为指令（参数个数固定的函数

）序列（数组

）了，这里挑几个有代表性的讲
1.变量参与运算：可以遇到字符串类型的就访问符号表（真字符串字面量不可能参与算数运算），或者像泛型或是汇编那样多写几个函数
如：
var b=a+10
翻译成
tmp2=add('a',10)
set_value('b','tmp2')
2.分支跳转语句：需要插入分支跳转指令和无条件跳转指令，跳转的标签
如：
if(a>b){c=a;}
c=b
翻译成
get_value('a'，“tmp1”)
get_value('b'，“tmp2”)
jump_with_condition('>',"targetlabel_x",'tmp1','tmp2')
jump_to("end")
targetlabel_x:
get_value('a',"tmp3")
set_value('c','tmp3')
end:
get_value('b','tmp4')
set_value('c','tmp4')
这里需要建立一个跳转表，<label名,对应指令中的位置>，这个在解析阶段完成
3.进出代码块：
会加减符号表，符号表一般是用栈+链表，从后往前搜索第一个目标符号。但是也可以用，Array<Dictionary>

，在解析阶段完成后是知道要进入哪些符号的（包括各种tmp），进入时push_back一个属于该代码块的符号表，出去时pop_back出来即可。
。。。。。。。
至此，可运行的parser的核心就讲完了

，虽然绕开很多难的，但还可以再绕一些，例如在语法分析树的阶段就进行执行，这样就不用翻译指令了。
。。。。。。。
解析阶段结束后的成果可以存起来，下次就可以从这开始了。
。。。。。。
上面东西要优化的思路也简单（具体起来还是有难度的），就是字符串变数字，压缩指令大小，用位置而不是变量名取值，这样就成了字节码了，再翻译成机器码，这样就成了jit一类的了

解析中文，注意，不是解析自然语言，而是解析没有空格分隔的符号
中文没有空格，在词法分析阶段不像英文有天然的空格作为结束符，如果硬要找一个中文结束符就没中文味了，所以难点就在这里。
一种方法是把无限的变量名放在【】（也可以是其他符号，例如。。，..，{}，||），这样好看也不会增加解析难度。剩下的短语作为有限长度的出现。
例如：
把【椅子】【搬】到(0,0)处
之后的语法分析只要不刻意刁难自己搞不确定的语法，解析难度和英文的一样。

闭包的方案，例如godot的await，匿名函数，这个需要做一个自动保存那个环境下有可能要用到的符号的值，然后作为一个类被调用

谢谢你，我也在研究这个，毕竟利于mod制作

日	一	二	三	四	五	六

自制语言parser过程讲解

扫二维码下载贴吧客户端