东南大学-编译原理-词法分析器实验报告.docx
《东南大学-编译原理-词法分析器实验报告.docx》由会员分享,可在线阅读,更多相关《东南大学-编译原理-词法分析器实验报告.docx(16页珍藏版)》请在咨信网上搜索。
东南大学-编译原理-词法分析器实验报告 词法分析设计 1. 实验目的 通过本实验的编程实践,了解词法分析的任务,掌握词法分析程序设计的原理和构造方法,对编译的基本概念、原理和方法有完整的和清楚的理解,并能正确地、熟练地运用。 2. 实验内容 用C++语言实现对C++语言子集的源程序进行词法分析。通过输入源程序从左到右对字符串进行扫描和分解,依次输出各个单词的内部编码及单词符号自身值;若遇到错误则显示“Error”,然后跳过错误部分继续显示 ;同时进行标识符登记符号表的管理。 3. 实验原理 本次实验采用NFA->DFA->DFA0的过程: 对待分析的简单的词法(关键词/id/num/运算符/空白符等)先分别建立自己的FA,然后将他们用产生式连接起来并设置一个唯一的开始符,终结符不合并。 待分析的简单的词法 (1)关键字: "asm","auto","bool","break","case","catch","char","class","const","const_cast"等 (2)界符(查表) ";",",","(",")","[","]","{","}" (3) 运算符 "*","/","%","+","-","<<","=",">>","&","^","|","++","--","+=","-=","*=","/=","%=","&=","^=","|=" relop: (4) 其他单词是标识符(ID)和整型常数(SUM),通过正规式定义。 id/keywords: digit: (5) 空格有空白、制表符和换行符组成。空格一般用来分隔ID、SUM、运算符、界符和关键字,词法分析阶段通常被忽略。 空白、制表符和换行符: 4. 相关自动机描述 DFA: DFA0: 5. 流程图 5. 核心数据结构描述 (1)生成的token序列由name、type、attr保存。 struct token{ string name; string type; int attr; }; (2)本文的大多数数据结构都用map来保存,优点是查找方便,大大提高时间复杂度。 map<string,int> Keywords; //保存关键字 map<string,int> Sep; //保存界符 map<string,int> Relop; //保存比较运算符 map<string,int> Op; //保存其他运算符 map<string,int>id; //保存输入字符串中的id map<string,int>num; //保存数字 vector<token>Token; //保存token序列,大小未知,所以采用vector保存 6. 核心算法描述 (1)void addToken(string s,int type)s为找到的字符串,type为可能类型。 将分析出来的token()序列添加到Token序列表中。如果是类型为1,查看关键词表,若找到,其类型为关键词并将其以类型为关键词存储到Token表中;若未找到,则查找id表,若找到,说明该id已经出现过,否则添加新的id到id表中,将该i字符串以类型为id添加到Token表中。如果类型为2,在界符表中查找,如果找到以类型为界符存储到Token表中,同理其他几种类型。可能类型为1--5,如果出现其他类型表示是词法分析器中发现额错误,将错误信息记录下来。 void addToken(string s,int type) { switch(type){ case 1: l_it=Keywords.find(s); if (l_it!=Keywords.end()){ token t={s,"keywords",l_it->second}; Token.push_back(t); }else{ l_it=id.find(s); if (l_it==id.end()) { id[s]=idNum; token t={s,"id",idNum++}; Token.push_back(t); }else { token t={s,"id",l_it->second}; Token.push_back(t); } } break; case 2: l_it=Sep.find(s); if (l_it!=Sep.end()){ token t={s,"separatrix",l_it->second}; Token.push_back(t); } break; case 3: l_it=Op.find(s); if (l_it!=Op.end()){ token t={s,"op",l_it->second}; Token.push_back(t); } break; case 4: l_it=Relop.find(s); if (l_it!=Relop.end()){ token t={s,"relop",l_it->second}; Token.push_back(t); } break; case 5: l_it=num.find(s); if (l_it==num.end()) { num[s]=nNum; token t={s,"num",nNum++}; Token.push_back(t); }else { token t={s,"num",l_it->second}; Token.push_back(t); } break; default: //error token t={s,"id",-1}; Token.push_back(t); break; } } (2) void lexical() 词法分析器,按字符读入文法并对其进行处理。 从状态0开始处理,如果是空白符则一直在状态0,如果第一个字符为字母,继续往后寻找,直至不是字母或是数字结束;若第一个字符为数字,将其拼凑成一个数字,数字可以有小数点等,详细见状态转换图,注意以数字开头容易出现一种例如3a类型的错误,所以以数字开头的一定要往下多找一个,看最后一个数字后面是否为空白符或界符或者其他允许出现的符号,如果后面紧跟着字母则报错。如上同理分析运算符等。注意每次处理完遇到一个字符串都要将其送到addToken()添加到Token表中并回到状态0,继续往下处理。 void lexical() { fstream ln("E:\ln.txt"); char ch,tempch; int state=0; string s="",key=""; while(!ln.eof()) { switch(state){ case 0: ch=ln.get(); s=ch; if (ch==13||ch==10||ch==32||ch==9) {state=0; s="";} else if (ch=='<') state=1; else if (ch=='=') state=6; else if (ch=='>') state=9; else if (isLetter(ch)) state=13; else if (isDigit(ch)) state=15; else if (ch=='+'||ch=='-'||ch=='*'||ch=='/'||ch=='&'||ch=='|') { state=20; tempch=ch;} else if (ch=='^') state=44; else if (isSep(ch)!=-1) state=47; else if (isOp(s)!=-1) state=48; else if (isRelop(s)!=-1) state=49; else state=50; //error break; case 1: ch=ln.get(); if(ch=='='||ch=='>') state=2; else if(ch=='<') state=4; else state=5; break; case 2: s+=ch; addToken(s,4); state=0; break; case 4: s+=ch; addToken(s,3); state=0; break; case 5: //* addToken(s,4); ln.seekg(-1,ios::cur); state=0; break; case 6: ch=ln.get(); if(ch=='=') state=7; else state=8; break; case 7: s+=ch; addToken(s,4); state=0; break; case 8: //* addToken(s,3); ln.seekg(-1,ios::cur); state=0; break; case 9: ch=ln.get(); if(ch=='=') state=10; else if(ch=='>') state=11; else state=12; break; case 10: s+=ch; addToken(s,4); state=0; break; case 11: s+=ch; addToken(s,3); state=0; break; case 12: //* state=0; addToken(s,4); ln.seekg(-1,ios::cur); break; case 13: ch=ln.get(); if(isDigit(ch)||isLetter(ch)) s+=ch; else state=14; break; case 14: //* state=0; addToken(s,1); ln.seekg(-1,ios::cur); break; case 15: ch=ln.get(); if (isDigit(ch)) s+=ch; else if (ch=='.') { s+=ch; state=16; }else state=18; break; case 16: ch=ln.get(); s+=ch; if (isDigit(ch)) state=17; else state=50; //error break; case 17: ch=ln.get(); if (isDigit(ch)){ s+=ch; state=17; }else state=18; break; case 18: //* if (isLetter(ch)) { s+=ch; state=50; }else{ addToken(s,5); ln.seekg(-1,ios::cur); state=0; } break; case 20: ch=ln.get(); if(ch==tempch||ch=='=') state=21; else state=23; break; case 21: s+=ch; addToken(s,3); state=0; break; case 23: addToken(s,3); ln.seekg(-1,ios::cur); state=0; break; case 44: ch=ln.get(); if (ch=='=') state=45; else state=46; break; case 45: s+=ch; addToken(s,3); break; case 46: addToken(s,3); ln.seekg(-1,ios::cur); break; case 47: addToken(s,2); state=0; break; case 48: addToken(s,3); state=0; break; case 49: addToken(s,4); state=0; break; case 50: //error while((ch=ln.get())!=EOF){ if(isSep(ch)!=-1||ch==13||ch==10||ch==32||ch==9) break; else s+=ch; } addToken(s,6); //error ln.seekg(-1,ios::cur); state=0; break; default: break; } } } 7. 测试用例 待测字符串: void fun() { int a=2,b=3,3a; a++;b--; a+=b; b*=a; int c=a+4; int d=b*5; } 产生结果在out.txt中(注意,无论输入输出文件都要保存在E盘根目录下) 8. 出现的问题与解决方案 本实验的难点就是进行有效地进行状态如转换,先对每一个简单部分,如空白符、id、digit等画出自动机状态,然后由NFA->DFA,添加一个唯一的初始状态,产生式连接。再将DFA中等价的状态合并最后变成DFA0。这样便大大简化了代码量,也使得逻辑思维更加清晰。 9. 自我体会 将理论运用到实际,不仅可以帮我们更好地复习理论知识,还可以让我们发发掘到一些更深刻层面上的东西。通过本次实验,我深入了解了词法分析的过程,对NFA,DFA,DFA0之间的转换也更能更加熟练地运用。这次实验还有许多需要加强的地方,比如还可以对id的类型进行明确分类,是函数还是变量,是什么类型的,返回类型是什么等等。之后有机会的话,我一定会更加深入的研究,将这个实验更加完善。- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 东南大学 编译 原理 词法 分析器 实验 报告
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文