2.1~2.2词法分析的任务,词法分析器的手工构造

2024-04-05 04:32

本文主要是介绍2.1~2.2词法分析的任务,词法分析器的手工构造,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

编译器的阶段

在这里插入图片描述

阶段:

在这里插入图片描述
编译器可以分成若干个阶段,包含 frontend(前端) backend(后端)
前端接收源程序,产生中间表示 IR,它处理的是和源语言程序相关的属性。
后端接收中间表示,继续生成目标程序,处理一般是具体的结构和目标机器相关的数据
我们把这部分成为编译器的阶段划分。

前端
在这里插入图片描述

例如:
c 语言程序[源程序] ,传入字符流,经过词法分析器,到记号流 ,记号流继续传递输入给语法分析器,产生抽象语法树,继续传递给语义分析器(类型检查器)检查正确性后输出中间表示。

词法分析器的任务

在这里插入图片描述
读入程序员写的程序,产生 字符流,然后对字符流做切分,产生一个记号流(或叫单词流)
例:

if(x > 5)y == "hello";
elsez == 1;实际输入流以第一行为例:  if空格(x空格>空格5)\r\n    实际上编译器得到的和我们看到的有不同的地方
在 第四行 z==1; 程序结束后要有一个 EOF 结束符(-1)词法分析:
IF LPAREN IDENT(x) GT INT(5) RPARENIDENT(y) ASSIGN  STRING("hello") SEMICOLON
ELSEIDENT(Z) ASSIGN INT(1) SEMICOLON EOFLPAREN 这类的词语叫做 记号或单词

我们将字符流转换到记号流,首先要有一个数据结构,然后还需要有一个字符流到记号流转换的算法,也就是需要
1.数据结构的定义
2.算法的实现

记号的数据结构定义

enum kind { IF, LPAREN, ID, INTLIT,...};
struct token{enum kind k;char *lexeme;
}

Kind 是词法分析器所能识别的所有记号的分类。

例:

输入字符流:
if(x > 5)伪代码:
token {k = IF,lexeme = 0};
token {k = LPAREN,lexeme = 0};
token {k = IDENT,lexeme = "x"};
token {k = GT,lexeme = 0};
token {k = INT,lexeme = "5"};
token {k = RPAREN,lexeme = 0};

小结
词法分析器的任务: 字符流到记号流

  • 字符流:和被编译的语言密切相关(ACSII,Unicode,or …
  • 记号流:编译器内部定义的数据结构,编码所识别出来的词法单元

词法分析器的实现方法
至少两种实现方案

1.手工编码实现法

纯手工书写程序代码,来实现输入输出接口的功能,缺点 代码量大相对复杂,而且容易出错,但是目前非常流行的实现方法例如:GCC,LLVM 好处 对各个部分有精确的控制,效率会比较高

2.词法分析器的生成器
他是自动化的方法,程序员仅仅需要写一些关于词法规则的声明,然后就有词法分析器的生成器的这样一类工具可以把词法分析器给自动生成出来,从概念上来讲程序员不需要写特别多的代码,所以这样的一类方法 优点 是, 可快速原型,代码量较少缺点 相对于手工方式,因为是自动生成的细节较难控制

理解手工构造词法分析器的核心问题是转移图的概念

所有的需要识别的符号:"<=" ">="  "<>"  "<"  "="  ">"
首先从待分析的程序中读第一个字符进来,有可能是 < = > 
读第一个字符在 0 好节点,记作 c1
如果是 < 号 我们就 就走向 1号节点,再继续读 下一个符号, 如果是 = 号就继续走向 2号 节点
如果读到了 2好节点 我们就识别完成 <= 这个符号 2号节点不同与 0号;1号节点,是双圆圈,代表接受;识别 状态
即一个识别已经结束了,return 返回语句,返回所识别出来的词法符号的内部数据结构, relop 和 LE 是组织成员的内部数据结构
4号 识别状态的 * 号 ,其实是 1号节点中所识别到数据的字符回滚,也就是一个回退,返回1号识别到的标号 < 

在这里插入图片描述
转移图算法(伪代码实现):

token 返回的数据结构,也就是记号或单词token nextToken()c = getChar(); //首先读入字符'c'switch(c)case '<'   : //说明我们来到了 1号 节点上,我们需要再读入字符做判断c = getChar();switch(c)case '=' : return LE; //返回值 '<='case '>' : return NE; //返回值 '<>'defalut: roollback()/*把刚刚读到的c重新扔回到刚刚分析程序中*/ return LT ; // 返回值 '<'case '=' : return EQ;case '>' : c = nextChar();switch(c)://similar

其他代码符号的识别

首先科普下标识符的概念:
以字母或下划线开头后面跟0个或多个字母或下划线数字。

从状态 0 开始读入第一个字符,它应该是 字母或下划线
在状态 1 上面再读一个字符就要进行如果还是字母数字或下划线的话那么进行循环回编,指向1节点自身
在状态 1 上面如果读到了其他的符号(other),既不是字母数字下划线,就转移到状态 2 
在状态 2 它是一个接受(识别)状态返回已经识别的 ID 同时这有一个*号,也就是要把刚刚都进来多读的 other 扔回到程序中去

在这里插入图片描述
标识符和关键字的交际
从词法分析的角度看,关键字是标识符的一部分。
以C语言为例:
标识符:以字母或者下划线开头,后跟零个或多个字母,下划线或数字
关键字:if,while,else,…

识别关键字
有两种方案可以选择:
1.由原来的状态转移图中拓展新的节点和边

在这里插入图片描述

在状态 0 中增加了新的边,此时状态 0 就发生了变化,变成了 [a-h j-z  A-z] 这里把 i 字母抠出来 单独放出来 i,
也就是它单独放到一个节点,它识别到 i 的话就回从 0 节点走向 3 节点。
在节点 3 也继续向下计数
在节点 4 是状态,也需要继续向下判断,是否是标识符 ifxy 这种就不是关键字

2.关键字表算法

  • 对给定语言中的所有的关键字,构造关键字构造的哈希表H。(因为我们知道对任意一个语言来说他们的关键字都是有限的确定集合)。
  • 对所有所有的标识符和关键字,先统一按标识符的转移图进行识别,识别完成后进一步查看表H中是否包含当前所识别的关键字。
  • 通过合理构造哈希表H(完美哈希)可以O(1)的时间来完成

这篇关于2.1~2.2词法分析的任务,词法分析器的手工构造的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/877632

相关文章

Spring事务中@Transactional注解不生效的原因分析与解决

《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

找不到Anaconda prompt终端的原因分析及解决方案

《找不到Anacondaprompt终端的原因分析及解决方案》因为anaconda还没有初始化,在安装anaconda的过程中,有一行是否要添加anaconda到菜单目录中,由于没有勾选,导致没有菜... 目录问题原因问http://www.chinasem.cn题解决安装了 Anaconda 却找不到 An

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

如何使用Python实现一个简单的window任务管理器

《如何使用Python实现一个简单的window任务管理器》这篇文章主要为大家详细介绍了如何使用Python实现一个简单的window任务管理器,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起... 任务管理器效果图完整代码import tkinter as tkfrom tkinter i

C++ 各种map特点对比分析

《C++各种map特点对比分析》文章比较了C++中不同类型的map(如std::map,std::unordered_map,std::multimap,std::unordered_multima... 目录特点比较C++ 示例代码 ​​​​​​代码解释特点比较1. std::map底层实现:基于红黑

Spring Boot 集成 Quartz 使用Cron 表达式实现定时任务

《SpringBoot集成Quartz使用Cron表达式实现定时任务》本文介绍了如何在SpringBoot项目中集成Quartz并使用Cron表达式进行任务调度,通过添加Quartz依赖、创... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启

Java使用多线程处理未知任务数的方案介绍

《Java使用多线程处理未知任务数的方案介绍》这篇文章主要为大家详细介绍了Java如何使用多线程实现处理未知任务数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 知道任务个数,你可以定义好线程数规则,生成线程数去跑代码说明:1.虚拟线程池:使用 Executors.newVir

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

《SpringBoot中定时任务Cron表达式的终极指南最佳实践记录》本文详细介绍了SpringBoot中定时任务的实现方法,特别是Cron表达式的使用技巧和高级用法,从基础语法到复杂场景,从快速启... 目录一、Cron表达式基础1.1 Cron表达式结构1.2 核心语法规则二、Spring Boot中定

Spring、Spring Boot、Spring Cloud 的区别与联系分析

《Spring、SpringBoot、SpringCloud的区别与联系分析》Spring、SpringBoot和SpringCloud是Java开发中常用的框架,分别针对企业级应用开发、快速开... 目录1. Spring 框架2. Spring Boot3. Spring Cloud总结1. Sprin

Spring 中 BeanFactoryPostProcessor 的作用和示例源码分析

《Spring中BeanFactoryPostProcessor的作用和示例源码分析》Spring的BeanFactoryPostProcessor是容器初始化的扩展接口,允许在Bean实例化前... 目录一、概览1. 核心定位2. 核心功能详解3. 关键特性二、Spring 内置的 BeanFactory