本文主要是介绍记录一下本周的主要工作及遇到的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
本周首先是将上一周遗留的tf-idf的工作做完,提取了高词频,并且首次输入到google中试了一试,但是出现了很多问题,难以解决,最大的问题就是google会出验证码,这样的话严重限制了每天的访问量导致工作很慢,搜索了一款MagicGoogle的项目,但是依然绕不过这个问题,但是却很好用。
另外就是继续精简词汇库,层层的抽丝剥茧,把语料滤了一遍又一遍,从两千多个变成一千多个,最后剩了几百个,并且建立了图,首次观察了里面的特征,下周的工作就是分析图,并且把代码搞懂。代码真是个难题。看来需要熬个夜搞这个了。
经验及教训:
首先是选择图分析的库的时候,首先看到的是igraph导致,装都装好了,跑也跑出来,但是上标签,上颜色太麻烦,最后经过网上推荐毅然砖头networkx的怀抱,即使是毅然,也浪费了一个上午的时间。
第二个就是google搜索,要找好工具,抓结果的时候,把该调的要调一下,避免出现这么多幺蛾子
第三个是语料库的整理,一定要从整套作业的视角去处理数据,要不然真的有的忙的。
零零碎碎说了很多。
这篇关于记录一下本周的主要工作及遇到的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!