2.1~2.2词法分析的任务,词法分析器的手工构造

2024-04-05 04:32

本文主要是介绍2.1~2.2词法分析的任务,词法分析器的手工构造,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

编译器的阶段

在这里插入图片描述

阶段:

在这里插入图片描述
编译器可以分成若干个阶段,包含 frontend(前端) backend(后端)
前端接收源程序,产生中间表示 IR,它处理的是和源语言程序相关的属性。
后端接收中间表示,继续生成目标程序,处理一般是具体的结构和目标机器相关的数据
我们把这部分成为编译器的阶段划分。

前端
在这里插入图片描述

例如:
c 语言程序[源程序] ,传入字符流,经过词法分析器,到记号流 ,记号流继续传递输入给语法分析器,产生抽象语法树,继续传递给语义分析器(类型检查器)检查正确性后输出中间表示。

词法分析器的任务

在这里插入图片描述
读入程序员写的程序,产生 字符流,然后对字符流做切分,产生一个记号流(或叫单词流)
例:

if(x > 5)y == "hello";
elsez == 1;实际输入流以第一行为例:  if空格(x空格>空格5)\r\n    实际上编译器得到的和我们看到的有不同的地方
在 第四行 z==1; 程序结束后要有一个 EOF 结束符(-1)词法分析:
IF LPAREN IDENT(x) GT INT(5) RPARENIDENT(y) ASSIGN  STRING("hello") SEMICOLON
ELSEIDENT(Z) ASSIGN INT(1) SEMICOLON EOFLPAREN 这类的词语叫做 记号或单词

我们将字符流转换到记号流,首先要有一个数据结构,然后还需要有一个字符流到记号流转换的算法,也就是需要
1.数据结构的定义
2.算法的实现

记号的数据结构定义

enum kind { IF, LPAREN, ID, INTLIT,...};
struct token{enum kind k;char *lexeme;
}

Kind 是词法分析器所能识别的所有记号的分类。

例:

输入字符流:
if(x > 5)伪代码:
token {k = IF,lexeme = 0};
token {k = LPAREN,lexeme = 0};
token {k = IDENT,lexeme = "x"};
token {k = GT,lexeme = 0};
token {k = INT,lexeme = "5"};
token {k = RPAREN,lexeme = 0};

小结
词法分析器的任务: 字符流到记号流

  • 字符流:和被编译的语言密切相关(ACSII,Unicode,or …
  • 记号流:编译器内部定义的数据结构,编码所识别出来的词法单元

词法分析器的实现方法
至少两种实现方案

1.手工编码实现法

纯手工书写程序代码,来实现输入输出接口的功能,缺点 代码量大相对复杂,而且容易出错,但是目前非常流行的实现方法例如:GCC,LLVM 好处 对各个部分有精确的控制,效率会比较高

2.词法分析器的生成器
他是自动化的方法,程序员仅仅需要写一些关于词法规则的声明,然后就有词法分析器的生成器的这样一类工具可以把词法分析器给自动生成出来,从概念上来讲程序员不需要写特别多的代码,所以这样的一类方法 优点 是, 可快速原型,代码量较少缺点 相对于手工方式,因为是自动生成的细节较难控制

理解手工构造词法分析器的核心问题是转移图的概念

所有的需要识别的符号:"<=" ">="  "<>"  "<"  "="  ">"
首先从待分析的程序中读第一个字符进来,有可能是 < = > 
读第一个字符在 0 好节点,记作 c1
如果是 < 号 我们就 就走向 1号节点,再继续读 下一个符号, 如果是 = 号就继续走向 2号 节点
如果读到了 2好节点 我们就识别完成 <= 这个符号 2号节点不同与 0号;1号节点,是双圆圈,代表接受;识别 状态
即一个识别已经结束了,return 返回语句,返回所识别出来的词法符号的内部数据结构, relop 和 LE 是组织成员的内部数据结构
4号 识别状态的 * 号 ,其实是 1号节点中所识别到数据的字符回滚,也就是一个回退,返回1号识别到的标号 < 

在这里插入图片描述
转移图算法(伪代码实现):

token 返回的数据结构,也就是记号或单词token nextToken()c = getChar(); //首先读入字符'c'switch(c)case '<'   : //说明我们来到了 1号 节点上,我们需要再读入字符做判断c = getChar();switch(c)case '=' : return LE; //返回值 '<='case '>' : return NE; //返回值 '<>'defalut: roollback()/*把刚刚读到的c重新扔回到刚刚分析程序中*/ return LT ; // 返回值 '<'case '=' : return EQ;case '>' : c = nextChar();switch(c)://similar

其他代码符号的识别

首先科普下标识符的概念:
以字母或下划线开头后面跟0个或多个字母或下划线数字。

从状态 0 开始读入第一个字符,它应该是 字母或下划线
在状态 1 上面再读一个字符就要进行如果还是字母数字或下划线的话那么进行循环回编,指向1节点自身
在状态 1 上面如果读到了其他的符号(other),既不是字母数字下划线,就转移到状态 2 
在状态 2 它是一个接受(识别)状态返回已经识别的 ID 同时这有一个*号,也就是要把刚刚都进来多读的 other 扔回到程序中去

在这里插入图片描述
标识符和关键字的交际
从词法分析的角度看,关键字是标识符的一部分。
以C语言为例:
标识符:以字母或者下划线开头,后跟零个或多个字母,下划线或数字
关键字:if,while,else,…

识别关键字
有两种方案可以选择:
1.由原来的状态转移图中拓展新的节点和边

在这里插入图片描述

在状态 0 中增加了新的边,此时状态 0 就发生了变化,变成了 [a-h j-z  A-z] 这里把 i 字母抠出来 单独放出来 i,
也就是它单独放到一个节点,它识别到 i 的话就回从 0 节点走向 3 节点。
在节点 3 也继续向下计数
在节点 4 是状态,也需要继续向下判断,是否是标识符 ifxy 这种就不是关键字

2.关键字表算法

  • 对给定语言中的所有的关键字,构造关键字构造的哈希表H。(因为我们知道对任意一个语言来说他们的关键字都是有限的确定集合)。
  • 对所有所有的标识符和关键字,先统一按标识符的转移图进行识别,识别完成后进一步查看表H中是否包含当前所识别的关键字。
  • 通过合理构造哈希表H(完美哈希)可以O(1)的时间来完成

这篇关于2.1~2.2词法分析的任务,词法分析器的手工构造的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877632

相关文章

MybatisPlus中几种条件构造器运用方式

《MybatisPlus中几种条件构造器运用方式》QueryWrapper是Mybatis-Plus提供的一个用于构建SQL查询条件的工具类,提供了各种方法如eq、ne、gt、ge、lt、le、lik... 目录版本介绍QueryWrapperLambdaQueryWrapperUpdateWrapperL

Spring Boot Interceptor的原理、配置、顺序控制及与Filter的关键区别对比分析

《SpringBootInterceptor的原理、配置、顺序控制及与Filter的关键区别对比分析》本文主要介绍了SpringBoot中的拦截器(Interceptor)及其与过滤器(Filt... 目录前言一、核心功能二、拦截器的实现2.1 定义自定义拦截器2.2 注册拦截器三、多拦截器的执行顺序四、过

C++ scoped_ptr 和 unique_ptr对比分析

《C++scoped_ptr和unique_ptr对比分析》本文介绍了C++中的`scoped_ptr`和`unique_ptr`,详细比较了它们的特性、使用场景以及现代C++推荐的使用`uni... 目录1. scoped_ptr基本特性主要特点2. unique_ptr基本用法3. 主要区别对比4. u

Nginx内置变量应用场景分析

《Nginx内置变量应用场景分析》Nginx内置变量速查表,涵盖请求URI、客户端信息、服务器信息、文件路径、响应与性能等类别,这篇文章给大家介绍Nginx内置变量应用场景分析,感兴趣的朋友跟随小编一... 目录1. Nginx 内置变量速查表2. 核心变量详解与应用场景3. 实际应用举例4. 注意事项Ng

Java多种文件复制方式以及效率对比分析

《Java多种文件复制方式以及效率对比分析》本文总结了Java复制文件的多种方式,包括传统的字节流、字符流、NIO系列、第三方包中的FileUtils等,并提供了不同方式的效率比较,同时,还介绍了遍历... 目录1 背景2 概述3 遍历3.1listFiles()3.2list()3.3org.codeha

SpringBoot中使用定时任务schedule详解

《SpringBoot中使用定时任务schedule详解》文章介绍了如何在Spring应用中使用@EnableScheduling注解启用定时任务,并创建一个配置类来定义定时任务的执行,文章还详细解释... 目录1、在spring启动类上添加注解@EnableScheduling2、创建定时任务配置类3、执

Nginx分布式部署流程分析

《Nginx分布式部署流程分析》文章介绍Nginx在分布式部署中的反向代理和负载均衡作用,用于分发请求、减轻服务器压力及解决session共享问题,涵盖配置方法、策略及Java项目应用,并提及分布式事... 目录分布式部署NginxJava中的代理代理分为正向代理和反向代理正向代理反向代理Nginx应用场景

Redis中的有序集合zset从使用到原理分析

《Redis中的有序集合zset从使用到原理分析》Redis有序集合(zset)是字符串与分值的有序映射,通过跳跃表和哈希表结合实现高效有序性管理,适用于排行榜、延迟队列等场景,其时间复杂度低,内存占... 目录开篇:排行榜背后的秘密一、zset的基本使用1.1 常用命令1.2 Java客户端示例二、zse

Redis中的AOF原理及分析

《Redis中的AOF原理及分析》Redis的AOF通过记录所有写操作命令实现持久化,支持always/everysec/no三种同步策略,重写机制优化文件体积,与RDB结合可平衡数据安全与恢复效率... 目录开篇:从日记本到AOF一、AOF的基本执行流程1. 命令执行与记录2. AOF重写机制二、AOF的

MyBatis Plus大数据量查询慢原因分析及解决

《MyBatisPlus大数据量查询慢原因分析及解决》大数据量查询慢常因全表扫描、分页不当、索引缺失、内存占用高及ORM开销,优化措施包括分页查询、流式读取、SQL优化、批处理、多数据源、结果集二次... 目录大数据量查询慢的常见原因优化方案高级方案配置调优监控与诊断总结大数据量查询慢的常见原因MyBAT