2.1~2.2词法分析的任务,词法分析器的手工构造

2024-04-05 04:32

本文主要是介绍2.1~2.2词法分析的任务,词法分析器的手工构造,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

编译器的阶段

在这里插入图片描述

阶段:

在这里插入图片描述
编译器可以分成若干个阶段,包含 frontend(前端) backend(后端)
前端接收源程序,产生中间表示 IR,它处理的是和源语言程序相关的属性。
后端接收中间表示,继续生成目标程序,处理一般是具体的结构和目标机器相关的数据
我们把这部分成为编译器的阶段划分。

前端
在这里插入图片描述

例如:
c 语言程序[源程序] ,传入字符流,经过词法分析器,到记号流 ,记号流继续传递输入给语法分析器,产生抽象语法树,继续传递给语义分析器(类型检查器)检查正确性后输出中间表示。

词法分析器的任务

在这里插入图片描述
读入程序员写的程序,产生 字符流,然后对字符流做切分,产生一个记号流(或叫单词流)
例:

if(x > 5)y == "hello";
elsez == 1;实际输入流以第一行为例:  if空格(x空格>空格5)\r\n    实际上编译器得到的和我们看到的有不同的地方
在 第四行 z==1; 程序结束后要有一个 EOF 结束符(-1)词法分析:
IF LPAREN IDENT(x) GT INT(5) RPARENIDENT(y) ASSIGN  STRING("hello") SEMICOLON
ELSEIDENT(Z) ASSIGN INT(1) SEMICOLON EOFLPAREN 这类的词语叫做 记号或单词

我们将字符流转换到记号流,首先要有一个数据结构,然后还需要有一个字符流到记号流转换的算法,也就是需要
1.数据结构的定义
2.算法的实现

记号的数据结构定义

enum kind { IF, LPAREN, ID, INTLIT,...};
struct token{enum kind k;char *lexeme;
}

Kind 是词法分析器所能识别的所有记号的分类。

例:

输入字符流:
if(x > 5)伪代码:
token {k = IF,lexeme = 0};
token {k = LPAREN,lexeme = 0};
token {k = IDENT,lexeme = "x"};
token {k = GT,lexeme = 0};
token {k = INT,lexeme = "5"};
token {k = RPAREN,lexeme = 0};

小结
词法分析器的任务: 字符流到记号流

  • 字符流:和被编译的语言密切相关(ACSII,Unicode,or …
  • 记号流:编译器内部定义的数据结构,编码所识别出来的词法单元

词法分析器的实现方法
至少两种实现方案

1.手工编码实现法

纯手工书写程序代码,来实现输入输出接口的功能,缺点 代码量大相对复杂,而且容易出错,但是目前非常流行的实现方法例如:GCC,LLVM 好处 对各个部分有精确的控制,效率会比较高

2.词法分析器的生成器
他是自动化的方法,程序员仅仅需要写一些关于词法规则的声明,然后就有词法分析器的生成器的这样一类工具可以把词法分析器给自动生成出来,从概念上来讲程序员不需要写特别多的代码,所以这样的一类方法 优点 是, 可快速原型,代码量较少缺点 相对于手工方式,因为是自动生成的细节较难控制

理解手工构造词法分析器的核心问题是转移图的概念

所有的需要识别的符号:"<=" ">="  "<>"  "<"  "="  ">"
首先从待分析的程序中读第一个字符进来,有可能是 < = > 
读第一个字符在 0 好节点,记作 c1
如果是 < 号 我们就 就走向 1号节点,再继续读 下一个符号, 如果是 = 号就继续走向 2号 节点
如果读到了 2好节点 我们就识别完成 <= 这个符号 2号节点不同与 0号;1号节点,是双圆圈,代表接受;识别 状态
即一个识别已经结束了,return 返回语句,返回所识别出来的词法符号的内部数据结构, relop 和 LE 是组织成员的内部数据结构
4号 识别状态的 * 号 ,其实是 1号节点中所识别到数据的字符回滚,也就是一个回退,返回1号识别到的标号 < 

在这里插入图片描述
转移图算法(伪代码实现):

token 返回的数据结构,也就是记号或单词token nextToken()c = getChar(); //首先读入字符'c'switch(c)case '<'   : //说明我们来到了 1号 节点上,我们需要再读入字符做判断c = getChar();switch(c)case '=' : return LE; //返回值 '<='case '>' : return NE; //返回值 '<>'defalut: roollback()/*把刚刚读到的c重新扔回到刚刚分析程序中*/ return LT ; // 返回值 '<'case '=' : return EQ;case '>' : c = nextChar();switch(c)://similar

其他代码符号的识别

首先科普下标识符的概念:
以字母或下划线开头后面跟0个或多个字母或下划线数字。

从状态 0 开始读入第一个字符,它应该是 字母或下划线
在状态 1 上面再读一个字符就要进行如果还是字母数字或下划线的话那么进行循环回编,指向1节点自身
在状态 1 上面如果读到了其他的符号(other),既不是字母数字下划线,就转移到状态 2 
在状态 2 它是一个接受(识别)状态返回已经识别的 ID 同时这有一个*号,也就是要把刚刚都进来多读的 other 扔回到程序中去

在这里插入图片描述
标识符和关键字的交际
从词法分析的角度看,关键字是标识符的一部分。
以C语言为例:
标识符:以字母或者下划线开头,后跟零个或多个字母,下划线或数字
关键字:if,while,else,…

识别关键字
有两种方案可以选择:
1.由原来的状态转移图中拓展新的节点和边

在这里插入图片描述

在状态 0 中增加了新的边,此时状态 0 就发生了变化,变成了 [a-h j-z  A-z] 这里把 i 字母抠出来 单独放出来 i,
也就是它单独放到一个节点,它识别到 i 的话就回从 0 节点走向 3 节点。
在节点 3 也继续向下计数
在节点 4 是状态,也需要继续向下判断,是否是标识符 ifxy 这种就不是关键字

2.关键字表算法

  • 对给定语言中的所有的关键字,构造关键字构造的哈希表H。(因为我们知道对任意一个语言来说他们的关键字都是有限的确定集合)。
  • 对所有所有的标识符和关键字,先统一按标识符的转移图进行识别,识别完成后进一步查看表H中是否包含当前所识别的关键字。
  • 通过合理构造哈希表H(完美哈希)可以O(1)的时间来完成

这篇关于2.1~2.2词法分析的任务,词法分析器的手工构造的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877632

相关文章

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

MySQL中的表连接原理分析

《MySQL中的表连接原理分析》:本文主要介绍MySQL中的表连接原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、表连接原理【1】驱动表和被驱动表【2】内连接【3】外连接【4编程】嵌套循环连接【5】join buffer4、总结1、背景

Golang如何对cron进行二次封装实现指定时间执行定时任务

《Golang如何对cron进行二次封装实现指定时间执行定时任务》:本文主要介绍Golang如何对cron进行二次封装实现指定时间执行定时任务问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录背景cron库下载代码示例【1】结构体定义【2】定时任务开启【3】使用示例【4】控制台输出总结背景

在Golang中实现定时任务的几种高效方法

《在Golang中实现定时任务的几种高效方法》本文将详细介绍在Golang中实现定时任务的几种高效方法,包括time包中的Ticker和Timer、第三方库cron的使用,以及基于channel和go... 目录背景介绍目的和范围预期读者文档结构概述术语表核心概念与联系故事引入核心概念解释核心概念之间的关系

springboot如何通过http动态操作xxl-job任务

《springboot如何通过http动态操作xxl-job任务》:本文主要介绍springboot如何通过http动态操作xxl-job任务的问题,具有很好的参考价值,希望对大家有所帮助,如有错... 目录springboot通过http动态操作xxl-job任务一、maven依赖二、配置文件三、xxl-

python中Hash使用场景分析

《python中Hash使用场景分析》Python的hash()函数用于获取对象哈希值,常用于字典和集合,不可变类型可哈希,可变类型不可,常见算法包括除法、乘法、平方取中和随机数哈希,各有优缺点,需根... 目录python中的 Hash除法哈希算法乘法哈希算法平方取中法随机数哈希算法小结在Python中,

Java Stream的distinct去重原理分析

《JavaStream的distinct去重原理分析》Javastream中的distinct方法用于去除流中的重复元素,它返回一个包含过滤后唯一元素的新流,该方法会根据元素的hashcode和eq... 目录一、distinct 的基础用法与核心特性二、distinct 的底层实现原理1. 顺序流中的去重

关于MyISAM和InnoDB对比分析

《关于MyISAM和InnoDB对比分析》:本文主要介绍关于MyISAM和InnoDB对比分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录开篇:从交通规则看存储引擎选择理解存储引擎的基本概念技术原理对比1. 事务支持:ACID的守护者2. 锁机制:并发控制的艺

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

MyBatis Plus 中 update_time 字段自动填充失效的原因分析及解决方案(最新整理)

《MyBatisPlus中update_time字段自动填充失效的原因分析及解决方案(最新整理)》在使用MyBatisPlus时,通常我们会在数据库表中设置create_time和update... 目录前言一、问题现象二、原因分析三、总结:常见原因与解决方法对照表四、推荐写法前言在使用 MyBATis