Lexical Analysis

Posted on 2022-09-12 Edited on 2026-03-15 In Computer Science Views:

Outline:

Intro

字母表: 一个有限的符号集合
- 二进制 {0, 1}
- ASCII
- Unicode
- 典型的字母表包括字母、数位和标点符号
串: 字母表中符号组成的一个有穷序列
- \(|s|\): 串s的长度
- \(\epsilon\): 长度为0的串, 空串
语言:给定字母表上一个任意的可数的串的集合.
- 语法正确的C程序的集合, 英语, 汉语
和串有关的术语(banana)
- 前缀: 从串的尾部删除0个或多个符号后得到的串 (ban、banana、 ε)
- 后缀: 从串的开始处删除0个或多个符号后得到的串 (nana、banana、ε)
- 子串: 删除串的某个前缀和某个后缀得到的串 (banana、nan、 ε)
- 真前缀, 真后缀, 真子串:既不等于原串，也不等于空串的前缀、后缀、子串
- 子序列: 从原串中删除0个或者多个符号后得到的串 (baan)
串的运算:
- 连接(concatenation): x和y的连接的就是把y附加到x的后面形成的串, 记作xy
  - x=dog, y=house, xy=doghouse
- 指数运算(幂运算): \(s_0=\epsilon\) , \(s_1=s\) , \(s_i=s^{i-1}s\)
  - \(x\)=dog , \(x^0\)=ε , \(x^1\)=dog , \(x^3\)=dogdogdog

语言上的运算:

Parser对输入的字符串进行模式匹配, 得到lexeme
模式( Pattern )可以用正则表达式( Regular Expression )来表示.
- 面对复杂的语言时, 正则也会变得极其复杂, 为此可以用NFA或DFA来表示模式.
可以证明, 正则, NFA, DFA是等价的, 可以相互转换

在很多程序设计语言中，保留字也符合标识符的模式, 识别标识符的状态转换图也会识别保留字.

解决方法:

字符串E = M * C ** 2对应的Token: