# 软工实践结对作业二

2023-11-03 14:59
文章标签 实践 作业 软工 结对

本文主要是介绍# 软工实践结对作业二,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

队友 赵畅 111500206
作业页面
GitHub

具体分工

  • 111500206 赵畅:负责WordCount的升级,添加新的命令行参数支持(自定义输入输出文件,权重词频统计,词组统计等所有新功能设计)
  • 031602215 胡展瑞:负责爬虫的设计,resutlt.txt的格式化,以及附加题的所有设计。

PSP表格、学习记录表

  • PSP
PSP2.1Personal Software Process Stages预估耗时(分钟)实际耗时(分钟)
Planning计划1010
· Estimate· 估计这个任务需要多少时间1010
Development开发540930
· Analysis· 需求分析 (包括学习新技术)60120
· Design Spec· 生成设计文档6060
· Design Review· 设计复审30180
· Coding Standard· 代码规范 (为目前的开发制定合适的规范)3030
· Design· 具体设计60240
· Coding· 具体编码120120
· Code Review· 代码复审120120
· Test· 测试(自我测试,修改代码,提交修改)6060
Reporting报告5080
· Test Repor· 测试报告3060
· Size Measurement· 计算工作量1010
· Postmortem & Process Improvement Plan· 事后总结, 并提出过程改进计划1010
合计6001020
  • 学习记录表
第N周新增代码(行)累计代码(行)本周学习耗时(小时)累计学习耗时(小时)重要成长
15005001212单元测试的写法
205001217Axure RP 8 原型设计工具
33008001633C++爬虫、regex正则表达式匹配

解题思路描述与设计实现说明

通读作业要求之后,发现整个作业其实分为两步。第一个就是生成输入用的result.txt,这个需要学习爬虫的知识。其余是对上一次个人项目的WordCount进行升级改造,满足各种新需求。

爬虫使用

使用工具:C++

思路:

  1. 爬取CVPR2018网页内容,保存到**_CVPR2018.py**文件中。在这个文件里,根据正则表达式,得到每份论文对应的href链接;
  2. 根据每一篇paper的链接,循环爬取每一份paper的内容,输出到paperinfo.txt文件中;
  3. 最后再根据题目要求的输入格式,利用正则表达式格式化处理paperinfo.txt的内容,最终输出到result.txt文件中。

使用:

int makeSocket(string host,int port);//根据提供的url得到连接的socket  
int send(SOCKET s,const char FAR * buf,int len,int flags);//利用socket向服务端发送消息  
int recv(SOCKET s,char FAR * buf,int len,int flags);//利用socket接收从客户端发送来的消息  
vector<string> abstract(vector<string> lj)   //生成abstract链接
{regex pattern("(<dt class=\"ptitle\"><br><a href=\")(.*)(\">)(.*)(</a></dt>)"); //正则表达式,目的为匹配对应标题的连接smatch result;fstream file;string line;                         //读取每行结果file.open(openfile1);                //打开文件while (getline(file, line)){if (regex_match(line, result, pattern) == true) {  //每行与正则表达式匹配lj.push_back(result[2]);                         //将链接存储在lj这个vector中}}cout << lj.size() << endl; //提示链接的数量,用于检验结果return lj; 
}
void get_abstract()  //爬取每份论文内容
{vector<string> lj;lj = abstract(lj);fstream file;file.open(fileName, ios::out | ios::binary);for (int i = 0; i < lj.size(); i++)  //循环读取vector中的链接{string url = "openaccess.thecvf.com";string name = "/" + lj[i]; int port = 80;int client_socket = makeSocket(url, port); //获取socketstring request = "GET " + name + " HTTP/1.1\r\nHost:" + url + "\r\nConnection:Close\r\n\r\n";if (send(client_socket, request.c_str(), request.size(), 0) == SOCKET_ERROR) //建立连接{cout << "send error" << endl;}char buf[1024];::memset(buf, 0, sizeof(buf)); //清除缓冲区内容int n = 0;n = recv(client_socket, buf, sizeof(buf) - sizeof(char), 0);char* cpos = strstr(buf, "\r\n\r\n");file.write(cpos + strlen("\r\n\r\n"), n - (cpos - buf) - strlen("\r\n\r\n"));  //清除头部的非消息行报文while ((n = recv(client_socket, buf, sizeof(buf) - sizeof(char), 0)) > 0){try{file.write(buf, n); //写入文件}catch (...){cerr << "ERROR" << endl;}}closesocket(client_socket);cout << i << endl; //提示该份论文读取成功}
//    system("pause");file.close();
}
void Generate_result()  //处理信息生成result.txt文件
{fstream file;string line; //按行读取文件内容file.open(openfile2);fstream file1;file1.open(fileName2, ios::out | ios::binary);smatch result;regex pattern1("(<div id=\"papertitle\">)");  //匹配papertitle行regex pattern2("(<br><br><div id=\"abstract\" >)");  //匹配abstract行int flag1 = 0;int flag2 = 0;int count = 0;while (getline(file, line)){if (flag1 == 1){for (int j = 6; j > 0; j--) { line.pop_back(); }  //删除末尾的</div>file1 << count++ << endl;file1 << "Title: " << line << endl;flag1 = 0;}if (regex_match(line, result, pattern1) == true) {flag1 = 1;}if (flag2 == 1){for (int j = 6; j > 0; j--) { line.pop_back(); }file1 << "Abstract: " << line << endl;file1 << endl;file1 << endl;flag2 = 0;}if (regex_match(line, result, pattern2) == true) {flag2 = 1;}}file.close();file1.close();
}

 ---

代码组织与内部实现设计(类图)

%E7%B1%BB%E5%9B%BE.png

和上次作业大部分相似,主要的差异是为了统计词组词频多了个PhraseFrequency.h

模块描述
ArgumentParser.h用于解析命令行参数;
CountChar.h用于统计一个文件内的字符数;
CountLines.h用于统计一个文件内的有效行数;
CountWords.h用于统计一个文件内的有效单词数量;
WordFrequency.h用于分析一个文件内的单词频率数据,并输出最高的N个;
PhraseFrequency.h用于分析一个文件内的词组频率数据,并输出最高的N个;
main.cpp主函数

说明算法的关键与关键实现部分流程图 & 关键代码解释

下面对本次作业在前一次作业的基础上增加的新功能进行一一解释,而上一次作业涵括的内容省略不写。

命令行参数解析:

对于命令行参数的新需求,设置如下环境变量,这些环境变量被命令行参数修改,并运用到对应的代码段里:

变量名类型初始值注释
inputFileNamestd::string"result.txt"自定义输入文件名
outputFileNamestd::string"output.txt"自定义输出文件名
weightFrequencyOnint0是否开启权重统计模式,0为关闭 1为打开,下同
phraseFrequencyOnint0是否开启词组统计模式
phraseLengthint0若开启词组统计模式,词组的长度为多少
topNWordsint10输出出现频次最高的N个单词 / 词组

遍历 **argv

  • 遇到-i-o则把argv[i+1]存放到inputFileNameoutputFileName。在读入输入和向文件输出时改为使用这两个变量即可。
  • 遇到-w,判断argv[i+1]是否为0或1,若为0或1则存放到weightFrequencyOn。使用此变量控制关键函数的行为分支即可。
  • 遇到-n-m,则判断argv[i+1]是否为正整数,若是,则存放到topNWordsphraseLength中,并将phraseFrequencyOn置1。原本程序中输出的固定10个最高频次的单词,改为输出topNWords个即可。

解析命令行参数的代码如下:

int Parse_Args(int argc, char ** argv)
{int i = 1; // skip WordCount.exewhile (argv[i] != NULL){if (strcmp(argv[i], "-i") == 0){if (argv[i + 1] == NULL) {printf("error: no input file name!\n");return -1;}inputFileName = argv[i + 1];i += 2;}else if (strcmp(argv[i], "-o") == 0){if (argv[i + 1] == NULL) {printf("error: no output file name!\n");return -1;}outputFileName = argv[i + 1];i += 2;}else if (strcmp(argv[i], "-w") == 0){if (argv[i + 1] == NULL) {printf("error: -w must follow 0 or 1!\n");return -1;}bool isOneOrZero = (strcmp(argv[i + 1], "1") || strcmp(argv[i + 1], "0"));if (!isOneOrZero) {printf("error: -w must follow 0 or 1!\n");return -1;}int num = atoi(argv[i + 1]);weightFrequencyOn = num;i += 2;}else if (strcmp(argv[i], "-m") == 0){if (argv[i + 1] == NULL) {printf("error: -m must follow a positive Integer!\n");return -1;}int res = stringIsPositiveInteger(argv[i + 1]);if (res == -1) {printf("error: -m must follow a positive Integer!\n");return -1;}phraseFrequencyOn = 1;phraseLength = res;i += 2;}else if (strcmp(argv[i], "-n") == 0){if (argv[i + 1] == NULL) {printf("error: -n must follow a positive Integer!\n");return -1;}int res = stringIsPositiveInteger(argv[i + 1]);if (res == -1) {printf("error: -n must follow a positive Integer!\n");return -1;}topNWords = res;i += 2;}}return 0;
}

权重统计模式 -w <0|1>

权重统计模式是指,属于标题行的单词权重在统计时变为10,属于摘要行单词在统计时权重仍为1。

要实现这个功能,我对本次作业的输入做了一番考察,这一次的输入的数据有比较清晰和特定的格式,可以用来协助完成这个功能。看下面的例子:

0
Title: Embodied Question Answering
Abstract: We present a new AI task -- Embodied Question Answering (EmbodiedQA) -- where an agent is spawned at a random location in a 3D environment and asked a question ("What color is the car?"). In order to answer, the agent must first intelligently navigate to explore the environment, gather necessary visual information through first-person (egocentric) vision, and then answer the question ("orange").  EmbodiedQA requires a range of AI skills -- language understanding, visual recognition, active perception, goal-driven navigation, commonsense reasoning, long-term memory, and grounding language into actions. In this work, we develop a dataset of questions and answers in House3D environments, evaluation metrics, and a hierarchical model trained with imitation and reinforcement learning.1
Title: Learning by Asking Questions
Abstract: We introduce an interactive learning framework for the development and testing of intelligent visual systems, called learning-by-asking (LBA).  We explore LBA in context of the Visual Question Answering (VQA) task. LBA differs from standard VQA training in that most questions are not observed during training time, and the learner must ask questions it wants answers to. Thus, LBA more closely mimics natural learning and has the potential to be more data-efficient than the traditional VQA setting. We present a model that performs LBA on the CLEVR dataset, and show that it automatically discovers an easy-to-hard curriculum when learning interactively from an oracle. Our LBA generated data consistently matches or outperforms the CLEVR train data and is more sample efficient. We also show that our model asks questions that generalize to state-of-the-art VQA models and to novel test time distributions.

首先第一行是一个数字,表示编号,这种只有一个数字的行就是编号行。接下来一行是标题行,用"Title: "打头。再接下来是摘要行,用"Abstract: "开头。每篇论文都是这样的格式(编号行、标题行、摘要行),然后每两篇论文之间再用两个空行隔开。因此,对于文件输入的数据流,我们可以一行一行处理,对于每一行,我们进行判断,判断改行属于哪种类型,然后就可以进行权重化的处理了。简要的步骤说明如下:

  • A.解析命令行参数,使用 -w 1打开了权重统计模式。
  • B.读入一行,判断其中的内容
        - 是空行或者是纯数字(编号行),则返回步骤B,不进行任何统计。
        - 如果该行以"Title: "起始,则说明此行是标题行。在进行词频统计时,每个单词计数改为10
        - 如果该行以"Abstract: "起始,则说明此行是摘要行。在进行词频统计时,每个单词计数仍为1

编码细节上,采取的做法是重构之前的InsertToHashTable()函数,增加了一个int型参数,该参数根据命令行参数解析的环境变量控制在插入单词进入哈希表时函数行为的改变。

void InsertToHashTable(string & word, int TitleorAbstract)
{if ((hash_iter = hash_table.find(word)) == hash_table.end()) { // 一个新单词if (TitleorAbstract == TITLE) { // 开启权重词频功能后,title行的单词frequency权重算为10pair<string, int> newWord = pair<string, int>(word, 10);hash_table.insert(newWord);}else if (TitleorAbstract == ABSTRACT){ // abstract行的单词frequency权重算为1pair<string, int> newWord = pair<string, int>(word, 1);hash_table.insert(newWord);}else if (TitleorAbstract == NONWEIGHT){ // 没有开启权重词频功能,frequency统统算为1pair<string, int> newWord = pair<string, int>(word, 1);hash_table.insert(newWord);}}else { // 一个之前出现过的单词if (TitleorAbstract == TITLE) hash_iter->second += 10;else if (TitleorAbstract == ABSTRACT)hash_iter->second++;else if (TitleorAbstract == NONWEIGHT)hash_iter->second++;}
}

词组统计模式 -m

在这个小要求中提出了词组的概念。词组的意思是多个连续的合法单词构成的串。不难发现,词组其实也是string,所以我们可以重用之前的自动机,也可以重用之前的InsertToHashTable()接口。根据之前的自动机(不在此赘述),就不难想到如下的过程来构造一个词组(伪代码):

int counter = 0;
string word;
string phrase;
每次识别到validword且正常退出到out of word状态后之后:counter++;phrase+=word;if counter == M: insert phrase into hashtable

不过,上述过程是有一些小问题的。我们假设:每一个大写字母A、B、C等,都代表一个合法单词,它们之间由分隔符隔开。若有一个合法单词的序列:ABCDEF中,假设词组所包括的合法单词数量为m,m=3,,则满足要求的词组有ABC/BCD/CDE/DEF。而使用上述伪代码中所描述的,采取计数器的做法,不容易实现求的所有的词组。因此,我提出了一个新的过程ConstructPhrase(),使用队列作为数据结构。这个过程的伪代码如下:

deque<string> q_phrase;每次识别到validword且正常退出到out of word状态后之后:将单词入队列if(队列内容纳了m个单词,m为词组所容纳的单词个数)将队列里的词构造成词组队首元素抛出返回这个词组否则返回空串

ConstructPhrase()这个过程的用意是这样的:所有的合法单词都会被保存在一个队列中。每次识别到合法的单词之后,都要尝试去构造词组。若可以构造(也就是队列里的单词个数达到了m个),则将队列里的所有单词连接成一个string,这个string就是我们要求的词组phrase。由于这个phrase是由多个string连接而成的,其实在概念上来说也还是一个string,就可以直接调用以往的InsertToHashTable()接口了。也就是说,后续步骤(插入哈希表中进行统计)都可以重用。

ABCDEF这个输入流作为例子(别忘了这里每一个大写字母都是一个合法单词)。当识别到一个单词后,我们就把它放进队列。例如识别到A,就把A放入队列,队列的内容就是A。每次放一个单词进入队列之后,我们都要尝试去构造一个词组,也就是调用ConstructPhrase这个过程。做法是判断队列里的单词个数是否已经达到了命令行参数要求的词组长度,若这里m=3,而此时队列里只有一个单词A,长度为1,还没有达到3,则尝试构造phrase失败。当识别了B之后,队列内容是AB,依然不能构成词组。当第三个单词入列之后,队列内容是ABC,可以构成phrase了!依次将他们出队,连接形成一个string传递给InsertToHashTable()但单词B和C是有可能与后面的合法单词形成新的词组的,所以B和C需要继续呆在队列里。这就是上述伪代码步骤中“队首元素抛出”的意思,即每次识别到合法词组之后,仅仅把队首A抛出即可,保证了后续单词B和C依然可能和D构成词组的可能性。

若没有识别连续的合法单词,例如Knowledge is power这就不是词组,因为其中is不是4个字母以上的单词,不是validword。这种情况,就是Knowledge已经在队列里了,而下一个识别到的是一个不合法的情况,这意味着Knowledge没有办法和别的单词构成词组了,此时将队列清空即可。

自动机以及构造词组的代码如下:

static deque<string> q_phrase;
extern int phraseLength;//有穷自动机。参数意义:输入状态、输入字符、存储识别到的单词、当前过程位于标题行or摘要行
int TransitionStorePhrase(int state, char input, string & word, int TitleorAbstract)
{switch (state){case OUTWORD:if (Separator(input)) return OUTWORD;if (isalpha(input)) { word += input; return P1; }if (IsNum(input)) return NotAWord;case NotAWord:q_phrase.clear();if (Separator(input)) return OUTWORD;else return NotAWord;case P1:if (IsNum(input)) { word.clear(); return NotAWord; }if (isalpha(input)) { word += input; return  P2; }else { word.clear(); q_phrase.clear(); return OUTWORD; }//若出现了不合法的状况,队列需要清空case P2:if (IsNum(input)) { word.clear(); return NotAWord; }if (isalpha(input)) { word += input; return  P3; }else { word.clear(); q_phrase.clear(); return OUTWORD; }case P3:if (IsNum(input)) { word.clear(); return NotAWord; }if (isalpha(input)) { word += input; return VALIDWORD; }else { word.clear(); q_phrase.clear(); return OUTWORD; }case VALIDWORD:if (isalnum(input)) { word += input; return VALIDWORD; }else {string phrase = ConstructPhrase(word); // 若识别到了合法单词,就尝试去构成词组if (phrase != ""){ // 若可以构成词组,就插入哈希表InsertToHashTable(phrase, TitleorAbstract);}word.clear();return OUTWORD;}}return ERRORSTATE;
}string ConstructPhrase(string & word) // 尝试去构成词组
{q_phrase.push_back(word);string phrase = "";if (q_phrase.size() == phraseLength) // 如果队列里的单词达到了命令行参数的设定要求,就可以构成词组{string top;for (int i = 0; i < phraseLength; i++) // 循环出入队并连接到phrase里{top = q_phrase.front();phrase += top;if (i != phraseLength - 1)phrase += " "; q_phrase.pop_front();q_phrase.push_back(top);}q_phrase.pop_front(); // 最后将队首 popreturn phrase; // 返回这个词组}else return phrase; // 如果不能构成词组,会返回空串
}

算法如下图所示:

%E7%AE%97%E6%B3%95.png

这个统计词组的算法复杂度粗略分析如下:

  • 最坏情况就是输入的全是合法单词,设合法单词共有N个。(为什么说输入流全是合法单词是最坏情况,是因为每次都能识别到词组且每次构造词组只能剔除一个合法单词,相当于暴力遍历ABCDEF的子串了)
  • 设词组的长度要求是包括M个合法单词,则最坏情况下共有 N-M+1 个词组。
  • 每个词组的取出需要循环队列的出入队,复杂度与队列长度有关,也就是 O(M)
  • M很小,则N-M+1近似为N,则总的最坏情况复杂度为O(NM)

附加题设计与展示

我们设计了三个附加内容:

  1. 批量下载PDF的功能,批量下载可以节省用户大量的时间以及精力。
  2. 可视化WordCount的热词词频图谱,以及历年paper数量变化情况分析对比。
  3. 作者联系图。

附加题三份代码百度云链接戳这里

批量下载PDF:

使用python爬取相应pdf链接内容,然后下载到本地

部分代码如下:

    ···for lj in pdf_href:url =lj['href']                             #匹配链接count = count +1url = "http://openaccess.thecvf.com/" +url     #获取pdf下载链接r = requests.get(url, stream=True)name = url.split('/')[-1]                     ##对保存的文件名进行处理,使得其为论文的名称pdf_name=name.split('_')[1]for x in name.split('_')[2:-3]:pdf_name =pdf_name+"_"+xpdf_name += '.pdf'                             ##保证文件格式是.pdfwith open('%s' % pdf_name, 'wb') as f:for chunk in r.iter_content(chunk_size=128):f.write(chunk)print('Saved %s' % pdf_name)                 ##提示下载完成···

结果如下图所示:

HUIyQxw.jpg

- 可以看到批量下载可以节省用户大量的时间以及精力


可视化WordCount以及历年情况分析对比:

 - 使用python-pyecharts库生成可视化的图形,包括对历年论文数量的可视化以及历年的热词图谱

对于历年论文数量:

UBMt7fF.jpg

GIF如下:

l4WlNOd.gif

可以看出每年论文数量都是呈现上涨的趋势,说明计算机视觉相关领域还是处于一个热门的阶段。

对于2013-2018年的CVPR论文数据,我们运行了WordCount程序,采用了三个词的词频统计以获得相关的热词信息,同时我们按照数量区间范围[20,100]筛选得到的信息,显示的结果如下:
enzw16N.jpg

我们可以直观看出最近几年的热门内容在于convolutional neural network---->卷积神经网络

部分代码如下:

···year = {}                        #提取历年论文数量数据
for i in range(len(a)):if(i%11==0):year[a[i]] = b[i]
line = Line(u"论文年份增长情况",title_top="0%")
line.add(u"数量",[key for key in year],[year[key] for key in year],line_width=5,line_curve=0.2)          #生成可视化图形
line.render(path='lunwen.gif')              # 存储文件···
for i in range(6):if(i == 0):word_count=word_count13elif(i ==1):word_count=word_count14elif(i ==2):word_count=word_count15elif(i ==3):word_count=word_count16elif(i ==4):word_count=word_count17elif(i ==5):word_count=word_count18wordcount=WordCloud(width=1200,height=620)wordcount.add("",[key for key in word_count],[word_count[key] for key in word_count],word_size_range=[20, 100])                              #生成可视化图形wordcount.render(path="wordcount201%d.gif"%(i+3))                      # 存储文件

作者联系图

- 根据爬取的作者信息,使用python-pyecharts库生成可视化的图形

结果:
eMUnTrp.gif

GIF如图所示(由于图片太大,只能高糊……):  

1rPta7E.gif

我们假定每一份论文的每一个作者都是有紧密的联系的,并且不存在重名重姓的作者。我们爬取了979篇论文中2910名作者,通过作者之间的关系,方便您查看各位业界大牛的py情况。

部分代码如下:

···
a_author = []
Links = []
for item in authors:temp = []for x in item.split(' and '):a_author.append(x)temp.append(x)for i in temp:for j in temp:Links.append({"source": "%s" %i, "target": "%s" %j})  #获取作者之间的联系a_author = list(set(a_author))nodes = []
for item in a_author:nodes.append({"name":"%s" %item,"symbolSize": 20*random.random()})  #获取作者结点graph = Graph("作者关系图",width=1920,height=1080,is_animation=False)  #生成可视化图形
graph.use_theme("walden") 
graph.add("1", nodes, Links, repulsion=80000, label_pos="right")   
graph.render() #直接生成html网页文件
···

性能分析与改进

测试时使用了CVPR2018的979篇paper作为输入数据,命令行参数为-i result.txt  -m 3 -n 20 -w 1 -o output.txt,即:开启标题权重模式,统计数据中出现频次前20的词组,每个词组长度为3个合法单词,结果存放到output.txt中。共花费了15.731秒。测试结果如下:

%E6%B5%8B%E8%AF%95%E7%BB%93%E6%9E%9C.png

性能报告情况如下:

%E6%B5%8B%E8%AF%951.png

%E6%B6%88%E8%80%97%E6%9C%80%E5%A4%A7%E7%9A%84%E5%87%BD%E6%95%B02.png

%E6%B6%88%E8%80%97%E6%9C%80%E5%A4%A7%E7%9A%84%E5%87%BD%E6%95%B03.png

%E6%B6%88%E8%80%97%E6%9C%80%E5%A4%A7%E7%9A%84%E5%87%BD%E6%95%B04.png

其中消耗最大的函数是phrasePrequency(),占据了所有执行时间的57.48%,而其中的有穷自动机操作就占据了54.25%,这是整个程序的核心部分,难以更加优化。想要在此部分优化,只能说继续优化那个复杂度为O(MN)的算法吧,不过我目前没有想其他的算法,而且这个算法的简易性也是它的优势。至于其他部分的优化也实在是优无可优了。

单元测试

设计了十个单元测试样例:

单元测试名称解释期待输出测试的模块/函数
WrongInputFileName打开错误的文件名能够正确返回错误信息CountChar
NumberLine传一个文件里,只有一个数字(编号行)不进行统计CountChar
EmptyFileTest传入一个空文件不进行统计CountChar、CountWords、CountLines
EmptyLineTest传入一个文件,只包含空行不进行统计CountChar、CountWords、CountLines
TitleTest传入一个文件,一行以"Title: "开头的字符串应能正确进行统计CountChar、CountWords、CountLines
AbstractTest传入一个文件,一行以"Abstract: "开头的字符串应能正确进行统计CountChar、CountWords、CountLines
WeightModeTest传入一个文件,里有两行,分别以"Title: "和"Abstract: "开头。并开启权重词频统计模式应能正确统计,权重相应改变WordFrequency
PhraseModeTest1传入一个文件,里面的内容以"Title: "开头,后面一系列合法单词,命令行参数 -m 2应能正确统计出长度为3的词组PhraseFrequency
PhraseModeTest2传入一个文件,里面的内容是"Knowledge is power",命令行参数 -m 2因为"is"不是合法单词,不应识别出词组PhraseFrequency
TopNTest传入一个普通的文件,改变命令行参数-n测试是否输出相应的 top n 单词WordFrequency

运行结果如下:

Unittest.png

部分代码展示如下:


namespace WrongInputFileName
{       TEST_CLASS(UnitTest1){public:TEST_METHOD(TestMethod1){char filename[100] = "FileNotExited.txt";int count = CountChar(filename);Assert::IsTrue(count == 0);// TODO: 在此输入测试代码}};
}namespace NumberLine
{TEST_CLASS(UnitTest1){public:TEST_METHOD(TestMethod1){char filename[100] = "NumberLine.txt";int count = CountChar(filename);Assert::IsTrue(count == 0);// TODO: 在此输入测试代码}};
}namespace EmptyFileTest
{TEST_CLASS(UnitTest1){public:TEST_METHOD(TestMethod1){char filename[100] = "EmptyFile.txt";int count = CountChar(filename);int numOfLines = CountLines(filename);int numOfWords = CountWords(filename);Assert::IsTrue(count == 0 && numOfLines == 0 && numOfWords == 0);// TODO: 在此输入测试代码}};
}

贴出Github的代码签入记录

commit%E4%BF%A1%E6%81%AF.png

遇到的代码模块异常或结对困难及解决方法

代码模块上,由于第一次作业时就划分好了模块,以及对于多个文件的规划和安排都比较清晰,所以在添加新功能时,没有在大的代码模块上出现问题。结对时,我们遇到的困难主要还是在词组词频的统计的算法上。

在结对项目的开展初期,(也就是国庆期间)我们是利用石墨文档在线上进行讨论的:

%E7%BB%93%E5%AF%B9%E8%BF%87%E7%A8%8B1.png

%E7%BB%93%E5%AF%B9%E8%BF%87%E7%A8%8B2.png

我们在这个文档上进行需求分析,然后搜索相对应的资料并贴上来,各自也在上面进行进度的标记,控制项目的进程。

在项目进行得差不多之后,我们就进行了线下小黄鸭调试结对编程来解决我们的问题(见:小黄鸭调试法)

所谓小黄鸭调试法就是我和同伴相约奶茶店,互相向对方讲解自己做了哪些工作。我就向队友讲解如何实现爬虫,如何爬取文件,利用正则提取数据并格式输出。队友向我解释我对Word Count项目的升级是怎么实现的。在与队友的讨论中,自然而然的发现一些新的idea,或者对代码的一些重新的认识。给了我极大的帮助。

在聊完了各自已经做完的工作之后,我俩一起探讨了当时未解决的问题,我们主要聊了下词频统计的算法,最后两人敲定了使用这个朴素的算法。最后,我们还讨论了附加题的思路。(附上当时结对编程时用的草稿纸~

%E7%BB%93%E5%AF%B9%E8%BF%87%E7%A8%8B3.png

评价你的队友

我的队友,帅气温柔的畅畅酱:

  • 擅长C++。超级无敌的大腿,能够为你指点迷津,达到事半功倍的效果。
  • 代码十分规范,可读性极强。
  • 性格柔中带刚,刚中带柔。思想健康,品行端正,态度积极,做事尽责。
  • 组织能力强,事务安排妥当。

自己编码基础较弱,可以说这一路都是他带着我走南闯北,打出来的结对江山。从他的身上学习到了很多新知识,但是目前还没有能够好好的消化,希望接下来能够更努力~

并且结队在一起的小黄鸭调试法很棒。虽然只是普普通通的介绍自己的代码,却能够给自己带来很多全新的认识。可以对代码结构进一步的优化,产生新的idea等等。

参考链接:

  • C++ socket网络爬虫
  • C++正则表达式
  • C++ regex 正则表达式的使用
  • windows下的C++ socket服务器

转载于:https://www.cnblogs.com/Huzr/p/9764623.html

这篇关于# 软工实践结对作业二的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/338971

相关文章

Docker集成CI/CD的项目实践

《Docker集成CI/CD的项目实践》本文主要介绍了Docker集成CI/CD的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、引言1.1 什么是 CI/CD?1.2 docker 在 CI/CD 中的作用二、Docke

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

Prometheus与Grafana在DevOps中的应用与最佳实践

Prometheus 与 Grafana 在 DevOps 中的应用与最佳实践 随着 DevOps 文化和实践的普及,监控和可视化工具已成为 DevOps 工具链中不可或缺的部分。Prometheus 和 Grafana 是其中最受欢迎的开源监控解决方案之一,它们的结合能够为系统和应用程序提供全面的监控、告警和可视化展示。本篇文章将详细探讨 Prometheus 和 Grafana 在 DevO

springboot整合swagger2之最佳实践

来源:https://blog.lqdev.cn/2018/07/21/springboot/chapter-ten/ Swagger是一款RESTful接口的文档在线自动生成、功能测试功能框架。 一个规范和完整的框架,用于生成、描述、调用和可视化RESTful风格的Web服务,加上swagger-ui,可以有很好的呈现。 SpringBoot集成 pom <!--swagge

vue2实践:el-table实现由用户自己控制行数的动态表格

需求 项目中需要提供一个动态表单,如图: 当我点击添加时,便添加一行;点击右边的删除时,便删除这一行。 至少要有一行数据,但是没有上限。 思路 这种每一行的数据固定,但是不定行数的,很容易想到使用el-table来实现,它可以循环读取:data所绑定的数组,来生成行数据,不同的是: 1、table里面的每一个cell,需要放置一个input来支持用户编辑。 2、最后一列放置两个b

【HarmonyOS】-TaskPool和Worker的对比实践

ArkTS提供了TaskPool与Worker两种多线程并发方案,下面我们将从其工作原理、使用效果对比两种方案的差异,进而选择适用于ArkTS图片编辑场景的并发方案。 TaskPool与Worker工作原理 TaskPool与Worker两种多线程并发能力均是基于 Actor并发模型实现的。Worker主、子线程通过收发消息进行通信;TaskPool基于Worker做了更多场景化的功能封装,例

vue2实践:第一个非正规的自定义组件-动态表单对话框

前言 vue一个很重要的概念就是组件,作为一个没有经历过前几代前端开发的我来说,不太能理解它所带来的“进步”,但是,将它与后端c++、java类比,我感觉,组件就像是这些语言中的类和对象的概念,通过封装好的组件(类),可以通过挂载的方式,非常方便的调用其提供的功能,而不必重新写一遍实现逻辑。 我们常用的element UI就是由饿了么所提供的组件库,但是在项目开发中,我们可能还需要额外地定义一

《C++中的移动构造函数与移动赋值运算符:解锁高效编程的最佳实践》

在 C++的编程世界中,移动构造函数和移动赋值运算符是提升程序性能和效率的重要工具。理解并正确运用它们,可以让我们的代码更加高效、简洁和优雅。 一、引言 随着现代软件系统的日益复杂和对性能要求的不断提高,C++程序员需要不断探索新的技术和方法来优化代码。移动构造函数和移动赋值运算符的出现,为解决资源管理和性能优化问题提供了有力的手段。它们允许我们在不进行不必要的复制操作的情况下,高效地转移资源