【编译原理】【《编译技术与应用》笔记】第二章:词法分析

2024-04-20 17:04

本文主要是介绍【编译原理】【《编译技术与应用》笔记】第二章:词法分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • @[toc]
      • 2.1|高级程序语言的词构成特性
        • 预定义词
        • 自定义词
        • 长度优先原则
      • 2.2|词法的描述
        • C语言的词法
          • 变量的正则表达式
          • 数值常量的正则表达式
          • 预定义词的正则表达式
          • 字符类常量的正则表达式
          • 注释的正则表达式
          • 空格的正则表达式
          • 回车换行的正则表达式
          • C语言的词法
        • 词法分析的实现框架
        • 正则表达式的含义
      • 2.3|基于状态转换图的词法分析
        • 基于状态转换图的匹配判断算法
        • C语言词法正则表达式lexeme的状态转换图
        • 基于状态转换图的词法分析算法

因上努力

个人主页:丷从心·

系列专栏:编译原理

果上随缘


2.1|高级程序语言的词构成特性

预定义词
  • 关键词
  • 算术运算词
  • 比较运算词
  • 逻辑运算词
  • 标点符号词
自定义词
  • 变量

  • 常量

    • 数值类常量

      • 整数
      • 实数
    • 字符类常量

      • 字符常量
      • 字符串常量
长度优先原则
  • 当词法分析中遇到“<=”时,基于长度优先原则,词法分析的结果是“<=”这一个词

2.2|词法的描述

C语言的词法
变量的正则表达式
letter -> ['A'~'Z']['a'~'z']
digit -> ['0'~'9']
id -> (letter ∪ '_') · (letter ∪ digit ∪ '_')*
数值常量的正则表达式
digits -> digit+
optionalFraction -> '.' · digits
optionalExponent -> 'E' · ('+''-')? · digits
numberConst -> integerConst · optionalFraction? · optionalExponent?
预定义词的正则表达式
reservedLexeme -> 'i' · 'n' · 't''+''<' · '=''&' · '&'';'
字符类常量的正则表达式
stringConst -> '‘' · (character - '’') · '’''“' · (character - '”')* · '”'
注释的正则表达式
singleRowNote -> '/' · '/' · (character - cr - lf)* · cr · lf
multiRowNoteContent1 -> (character - '*')* · ('*')+
multiRowNoteContent2 -> (character - '*' - '/') · (character - '*')* · ('*')+
multiRowNoteContent -> multiRowNoteContent1 · multiRowNoteContent2*
multiRowNote -> '/' · '*' · multiRowNoteContent · '/'
note -> singleRowNote ∪ multiRowNote
  • 对于多行注释,将开头标志/*以后的内容分为两部分,一部分是以*结尾的字符串(取名为multiRowNoteContent),一部分是字符/
  • multiRowNoteContent中肯定不含*/子串,对multiRowNoteContent从左到右扫描,当发现*字符后面不再为*字符时,就进行一次切分,经此切分后,给其中第一个子字符串取名为multiRowNoteContent1,其他的子字符串取名为multiRowNoteContent2
空格的正则表达式
blankSpace -> (空格字符)+
回车换行的正则表达式
crlf -> (cr · lf)+
C语言的词法
lexeme -> reservedLexeme ∪ id ∪ numberConst ∪ stringConst ∪ note ∪ blankSpace ∪ crlf
词法分析的实现框架
  • 词法分析器要对输入字符序列从头到尾逐一扫描,将其切分成一个词序列
  • 会用到两个指针:起始指针pStart和当前指针pCurrent,初始时,指针pStartpCurrent都指向输入字符序列的第一个字符
  • 如果当前串是正则表达式所指集合中的元素,就对pCurrent指针后移一步,接着继续进行判断,直至当前串不为正则表达式所指集合中的元素,这时就解析出一个词
  • 将解析出的词输出,然后解析下一个词,把pCurrent的值赋给pStart,这个过程不断进行下去,直至pStartpCurrent都指向输入字符序列末尾的结束字符
正则表达式的含义
  • 正则表达式相当于面向对象中的类,它所指集合中的元素相当于类的实例对象

2.3|基于状态转换图的词法分析

基于状态转换图的匹配判断算法
bool match(char inputString[], int inputSize) {int currentState = 0;int currentIndex = 0;wihle(currentIndex < inputSize) {currentState = getNextStateInGraph(currentState, inputString[currentIndex]);if(currentState == -1)return false;elsecurrentIndex++;}if(getStateTypeInGraph(currentState) == MATCH)return true;elsereturn false;
}
C语言词法正则表达式lexeme的状态转换图
基于状态转换图的词法分析算法
Lexeme* getNextLexeme() {int currentState = 0;startIndex = currentIndex;while(currentIndex < inputSize) {int nextState = getNextStateInGraph(currentState, input[currentIndex]);if(nextState == -1) {if(getTypeInGraph(currentState) == MATCH) {category = getCategoryInGraph(currentState);if(category == ID | INTEGER_CONST | FLOAT_CONST | SCIENTIFIC_CONST | CHAR_CONST | STRING_CONST | NUMERIC_OPERATOR | LOGIC_OPERATOR | COMPARE_OPERATOR | OTHER_RESERVED)return new Lexeme(startIndex, currentIndex - 1, category);else {startIndex = currentIndex;currentState = 0;}}else {raise exception('源代码有词法错误');}}else {currentState = nextState;currentIndex++;}}
}

这篇关于【编译原理】【《编译技术与应用》笔记】第二章:词法分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/920825

相关文章

nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析(结合应用场景)

《nginx-t、nginx-sstop和nginx-sreload命令的详细解析(结合应用场景)》本文解析Nginx的-t、-sstop、-sreload命令,分别用于配置语法检... 以下是关于 nginx -t、nginx -s stop 和 nginx -s reload 命令的详细解析,结合实际应

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

java使用protobuf-maven-plugin的插件编译proto文件详解

《java使用protobuf-maven-plugin的插件编译proto文件详解》:本文主要介绍java使用protobuf-maven-plugin的插件编译proto文件,具有很好的参考价... 目录protobuf文件作为数据传输和存储的协议主要介绍在Java使用maven编译proto文件的插件

PostgreSQL的扩展dict_int应用案例解析

《PostgreSQL的扩展dict_int应用案例解析》dict_int扩展为PostgreSQL提供了专业的整数文本处理能力,特别适合需要精确处理数字内容的搜索场景,本文给大家介绍PostgreS... 目录PostgreSQL的扩展dict_int一、扩展概述二、核心功能三、安装与启用四、字典配置方法

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性: