2.1~2.2词法分析的任务,词法分析器的手工构造

2024-04-05 04:32

本文主要是介绍2.1~2.2词法分析的任务,词法分析器的手工构造,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

编译器的阶段

在这里插入图片描述

阶段:

在这里插入图片描述
编译器可以分成若干个阶段,包含 frontend(前端) backend(后端)
前端接收源程序,产生中间表示 IR,它处理的是和源语言程序相关的属性。
后端接收中间表示,继续生成目标程序,处理一般是具体的结构和目标机器相关的数据
我们把这部分成为编译器的阶段划分。

前端
在这里插入图片描述

例如:
c 语言程序[源程序] ,传入字符流,经过词法分析器,到记号流 ,记号流继续传递输入给语法分析器,产生抽象语法树,继续传递给语义分析器(类型检查器)检查正确性后输出中间表示。

词法分析器的任务

在这里插入图片描述
读入程序员写的程序,产生 字符流,然后对字符流做切分,产生一个记号流(或叫单词流)
例:

if(x > 5)y == "hello";
elsez == 1;实际输入流以第一行为例:  if空格(x空格>空格5)\r\n    实际上编译器得到的和我们看到的有不同的地方
在 第四行 z==1; 程序结束后要有一个 EOF 结束符(-1)词法分析:
IF LPAREN IDENT(x) GT INT(5) RPARENIDENT(y) ASSIGN  STRING("hello") SEMICOLON
ELSEIDENT(Z) ASSIGN INT(1) SEMICOLON EOFLPAREN 这类的词语叫做 记号或单词

我们将字符流转换到记号流,首先要有一个数据结构,然后还需要有一个字符流到记号流转换的算法,也就是需要
1.数据结构的定义
2.算法的实现

记号的数据结构定义

enum kind { IF, LPAREN, ID, INTLIT,...};
struct token{enum kind k;char *lexeme;
}

Kind 是词法分析器所能识别的所有记号的分类。

例:

输入字符流:
if(x > 5)伪代码:
token {k = IF,lexeme = 0};
token {k = LPAREN,lexeme = 0};
token {k = IDENT,lexeme = "x"};
token {k = GT,lexeme = 0};
token {k = INT,lexeme = "5"};
token {k = RPAREN,lexeme = 0};

小结
词法分析器的任务: 字符流到记号流

  • 字符流:和被编译的语言密切相关(ACSII,Unicode,or …
  • 记号流:编译器内部定义的数据结构,编码所识别出来的词法单元

词法分析器的实现方法
至少两种实现方案

1.手工编码实现法

纯手工书写程序代码,来实现输入输出接口的功能,缺点 代码量大相对复杂,而且容易出错,但是目前非常流行的实现方法例如:GCC,LLVM 好处 对各个部分有精确的控制,效率会比较高

2.词法分析器的生成器
他是自动化的方法,程序员仅仅需要写一些关于词法规则的声明,然后就有词法分析器的生成器的这样一类工具可以把词法分析器给自动生成出来,从概念上来讲程序员不需要写特别多的代码,所以这样的一类方法 优点 是, 可快速原型,代码量较少缺点 相对于手工方式,因为是自动生成的细节较难控制

理解手工构造词法分析器的核心问题是转移图的概念

所有的需要识别的符号:"<=" ">="  "<>"  "<"  "="  ">"
首先从待分析的程序中读第一个字符进来,有可能是 < = > 
读第一个字符在 0 好节点,记作 c1
如果是 < 号 我们就 就走向 1号节点,再继续读 下一个符号, 如果是 = 号就继续走向 2号 节点
如果读到了 2好节点 我们就识别完成 <= 这个符号 2号节点不同与 0号;1号节点,是双圆圈,代表接受;识别 状态
即一个识别已经结束了,return 返回语句,返回所识别出来的词法符号的内部数据结构, relop 和 LE 是组织成员的内部数据结构
4号 识别状态的 * 号 ,其实是 1号节点中所识别到数据的字符回滚,也就是一个回退,返回1号识别到的标号 < 

在这里插入图片描述
转移图算法(伪代码实现):

token 返回的数据结构,也就是记号或单词token nextToken()c = getChar(); //首先读入字符'c'switch(c)case '<'   : //说明我们来到了 1号 节点上,我们需要再读入字符做判断c = getChar();switch(c)case '=' : return LE; //返回值 '<='case '>' : return NE; //返回值 '<>'defalut: roollback()/*把刚刚读到的c重新扔回到刚刚分析程序中*/ return LT ; // 返回值 '<'case '=' : return EQ;case '>' : c = nextChar();switch(c)://similar

其他代码符号的识别

首先科普下标识符的概念:
以字母或下划线开头后面跟0个或多个字母或下划线数字。

从状态 0 开始读入第一个字符,它应该是 字母或下划线
在状态 1 上面再读一个字符就要进行如果还是字母数字或下划线的话那么进行循环回编,指向1节点自身
在状态 1 上面如果读到了其他的符号(other),既不是字母数字下划线,就转移到状态 2 
在状态 2 它是一个接受(识别)状态返回已经识别的 ID 同时这有一个*号,也就是要把刚刚都进来多读的 other 扔回到程序中去

在这里插入图片描述
标识符和关键字的交际
从词法分析的角度看,关键字是标识符的一部分。
以C语言为例:
标识符:以字母或者下划线开头,后跟零个或多个字母,下划线或数字
关键字:if,while,else,…

识别关键字
有两种方案可以选择:
1.由原来的状态转移图中拓展新的节点和边

在这里插入图片描述

在状态 0 中增加了新的边,此时状态 0 就发生了变化,变成了 [a-h j-z  A-z] 这里把 i 字母抠出来 单独放出来 i,
也就是它单独放到一个节点,它识别到 i 的话就回从 0 节点走向 3 节点。
在节点 3 也继续向下计数
在节点 4 是状态,也需要继续向下判断,是否是标识符 ifxy 这种就不是关键字

2.关键字表算法

  • 对给定语言中的所有的关键字,构造关键字构造的哈希表H。(因为我们知道对任意一个语言来说他们的关键字都是有限的确定集合)。
  • 对所有所有的标识符和关键字,先统一按标识符的转移图进行识别,识别完成后进一步查看表H中是否包含当前所识别的关键字。
  • 通过合理构造哈希表H(完美哈希)可以O(1)的时间来完成

这篇关于2.1~2.2词法分析的任务,词法分析器的手工构造的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877632

相关文章

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

高度内卷下,企业如何通过VOC(客户之声)做好竞争分析?

VOC,即客户之声,是一种通过收集和分析客户反馈、需求和期望,来洞察市场趋势和竞争对手动态的方法。在高度内卷的市场环境下,VOC不仅能够帮助企业了解客户的真实需求,还能为企业提供宝贵的竞争情报,助力企业在竞争中占据有利地位。 那么,企业该如何通过VOC(客户之声)做好竞争分析呢?深圳天行健企业管理咨询公司解析如下: 首先,要建立完善的VOC收集机制。这包括通过线上渠道(如社交媒体、官网留言

如何设置windows计划任务

如何设置windows计划任务 前言:在工作过程中写了一个python脚本,用于调用jira接口查询bug单数量,想要在本地定时任务执行,每天发送到钉钉群提醒,写下操作步骤用于记录。 1. 准备 Python 脚本 确保你的 Python 脚本已经保存到一个文件,比如 jira_reminder.py。 2. 创建批处理文件 为了方便任务计划程序运行 Python 脚本,创建一个批处理文

将一维机械振动信号构造为训练集和测试集(Python)

从如下链接中下载轴承数据集。 https://www.sciencedirect.com/science/article/pii/S2352340918314124 import numpy as npimport scipy.io as sioimport matplotlib.pyplot as pltimport statistics as statsimport pandas

打包体积分析和优化

webpack分析工具:webpack-bundle-analyzer 1. 通过<script src="./vue.js"></script>方式引入vue、vuex、vue-router等包(CDN) // webpack.config.jsif(process.env.NODE_ENV==='production') {module.exports = {devtool: 'none

Java中的大数据处理与分析架构

Java中的大数据处理与分析架构 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们来讨论Java中的大数据处理与分析架构。随着大数据时代的到来,海量数据的存储、处理和分析变得至关重要。Java作为一门广泛使用的编程语言,在大数据领域有着广泛的应用。本文将介绍Java在大数据处理和分析中的关键技术和架构设计。 大数据处理与

段,页,段页,三种内存(RAM)管理机制分析

段,页,段页         是为实现虚拟内存而产生的技术。直接使用物理内存弊端:地址空间不隔离,内存使用效率低。 段 段:就是按照二进制文件的格式,在内存给进程分段(包括堆栈、数据段、代码段)。通过段寄存器中的段表来进行虚拟地址和物理地址的转换。 段实现的虚拟地址 = 段号+offset 物理地址:被分为很多个有编号的段,每个进程的虚拟地址都有段号,这样可以实现虚实地址之间的转换。其实所谓的地

mediasoup 源码分析 (八)分析PlainTransport

mediasoup 源码分析 (六)分析PlainTransport 一、接收裸RTP流二、mediasoup 中udp建立过程 tips 一、接收裸RTP流 PlainTransport 可以接收裸RTP流,也可以接收AES加密的RTP流。源码中提供了一个通过ffmpeg发送裸RTP流到mediasoup的脚本,具体地址为:mediasoup-demo/broadcaste

PHP序列化用到的构造:__sleep() __wakeup()

串行化serialize可以把变量包括对象,转化成连续bytes数据. 你可以将串行化后的变量存在一个文件里或在网络上传输. 然后再反串行化还原为原来的数据. 你在反串行化类的对象之前定义的类,PHP可以成功地存储其对象的属性和方法. 有时你可能需要一个对象在反串行化后立即执行. 为了这样的目的,PHP会自动寻找__sleep和__wakeup方法.   当一个对象被串行化,PHP会

Java并发编程—阻塞队列源码分析

在前面几篇文章中,我们讨论了同步容器(Hashtable、Vector),也讨论了并发容器(ConcurrentHashMap、CopyOnWriteArrayList),这些工具都为我们编写多线程程序提供了很大的方便。今天我们来讨论另外一类容器:阻塞队列。   在前面我们接触的队列都是非阻塞队列,比如PriorityQueue、LinkedList(LinkedList是双向链表,它实现了D