1.12-1.17 项目进度

2024-02-03 05:18
文章标签 项目 进度 1.17 1.12

本文主要是介绍1.12-1.17 项目进度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.10:接到任务

        研究一下新闻爬虫及其语意事件分析,用mysql,weka及合适的爬虫实现。

1.11:玩了一天

1.12:开始准备,比较了各种爬虫,最终选定 scrapy作为爬虫工具。

1.13:继续研究scrapy。晚上集体地开了个会。导师重述了每个人的相关任务。

1.14:研究scrapy与mysql的连接,无果。郁闷。 研究mysql的基本用法。

1.15:继续研究scrapy与mysql 的连接,用python 是可以检测到连接上了,可是依旧写不进去。郁闷、、、、、、下午,导师开会,报告进度,进行思路讨论。看了些语意分析的 

            论文。然后下午,晚上玩了,罪过。

1.16:突然,看了篇博客,http://www.cnblogs.com/huhuuu/p/3706994.html,感谢这位博主啊,教会了我转变思路,先把抓取的内容,存在.txt中,然后再存储到mysql中。

           开始对scrapy框架有了进一步的了解。

1.17:基于上述博客的基础上,开始尝试 抓取 腾讯数码新闻,网易数码新闻,good!基本算是成功。然后,进一步 自己经过好久的分析,添加代码,又尝试抓取新闻中的内容。

         good!终于在刚才调试成功。我去,累死了。


回过头看成果,好像不算多,可是,过程中遇到了不少问题,一个个排查,解决。

从最开始的,选择爬虫,我本来想选择 nuntch,luncene,这几个java的爬虫,想趁机读代码提升java功力。还有hun**?,都是大名鼎鼎的开源爬虫。可是最后发现,还是选择scrapy吧,毕竟是个框架,而且是纯python开发的,you know,Python的威力极大,可以减轻许多工作量。就目前的状态而言,感觉选择scrapy是个不错的选择。不能一口吃个胖子,先把 scrapy 熟悉了,灵活运用了,将来在深入学习,nunch等,这样有了基础,就学的快些了,就应该不会那么痛苦了。

Job:scrapy 与各大爬虫的比较


然后是,思考如何做后面的语意分析,查了很多篇 文库中的论文,都和我的目前的任务不太契合。索性自己想,

首先,这明明就是 自然语言处理的部分。幸好选了NLP(虽然成绩给的,我都想找哪个TA理论,哼),可是至少学了点皮毛,心里有一丁点谱。


开始研究scrapy,跟着许多博客后面做,可是pipeline,链接数据库的地方,试了几十次,都累趴了,还是没有解决。其中,调试时,;调试的方法:

如:对test中的所有.py文件,一个个排查,就是对每个.py文件,按F5,查看错误信息这种方法很重要,尤其是使用框架时,找不到错误在哪时。如此次,发现少装了MySQLdb模块,就是这样找到的 极大的错误


还有,对于mysql,在安装时耗费了很多功夫。(具体解决办法,见另一篇博文)太可怜了,可惜没有师兄师姐可以请教。然后发现基本的建表什么的都不会了,开始找博客,学习了一些mysql的基本的操作。use test(数据库名);对了最最重要的是,在dos下输入每条命令时,要记得在最后加上“;”这样才算是输入了一条命令

还有,那个navicat还可以吧,能用。


当我研究scrapy和mysql为什么总是写不进去东西(到现在,其实还没解决)。我找了各种关于scrapy的文档,无奈。

此时尝试了博客http://www.cnblogs.com/huhuuu/p/3706994.html,发现他生成了个文本文件,哎,总算可以换种思路交差了。

研究他的代码。发现,Xpath,re,html标签,等知识严重缺少。尤其是xpath的学习,后面成为必备。


今天17号,还不错,今天还有点收获。上午,尝试调代码,试试抓取 腾讯数码,网易数码的新闻,稍微修改了下,成功了,不过只能抓取 21k 大小的内容。不够啊。

下午玩了。

晚上,还不错。自己找到了几行重要的代码:response.body;返回的是个字符串。不过,这个字符串就是整个网页的html代码,这还不行啊,我必须从中吧文字筛出来锕。

此处又是泪和苦逼,由于不懂xpath,;当然直接用python 的re,等其他技术也可以,关键是正则表达式什么的,都不会啊。

最后,这个网又挽救了我

重要的网址:http://www.open-open.com/lib/view/open1329700631343.html

结合的代码


才知道还有这路神圣:


from sgmllib import SGMLParser (厉害的SGMLParser)

class GetIdList(SGMLParser):
    def reset(self):
        self.IDlist = []
        self.flag = False
        self.getdata = False
        self.verbatim = 0
        SGMLParser.reset(self)
       # print "hi"
         
    def start_div(self, attrs):
        
        if self.flag == True:
            self.verbatim +=1 #进入子层div了,层数加1
            #print "div"
            return
        for k,v in attrs:#遍历div的所有属性以及其值
            if k == 'id' and v == 'Cnt-Main-Article-QQ':#确定进入了<div class='entry-content'>
                self.flag = True
               # print "jinru div"
                return
 
    def end_div(self):#遇到</div>
        if self.verbatim == 0:
            self.flag = False
        if self.flag == True:#退出子层div了,层数减1
            self.verbatim -=1
 
    def start_p(self, attrs):
        #print "p"
        if self.flag == False:
            return
        self.getdata = True
         
    def end_p(self):#遇到</p>
        if self.getdata:
            self.getdata = False
 
    def handle_data(self, text):#处理文本
        #print "nihao"
        if self.getdata:
            self.IDlist.append(text)
           # print "zhende"
             
    def printID(self):
        #print "text"
        for i in self.IDlist:
           # print "weishenme"
            print i
            




class GetIdList_163(SGMLParser):
    def reset(self):
        self.IDlist = []
        self.flag = False
        self.getdata = False
        self.verbatim = 0
        SGMLParser.reset(self)
       # print "hi"
         
    def start_div(self, attrs):
        
        if self.flag == True:
            self.verbatim +=1 #进入子层div了,层数加1
            #print "div"
            return
        for k,v in attrs:#遍历div的所有属性以及其值
            if k == 'id' and v == 'endtext':#确定进入了<div class='entry-content'>
                self.flag = True
               # print "jinru div"
                return
 
    def end_div(self):#遇到</div>
        if self.verbatim == 0:
            self.flag = False
        if self.flag == True:#退出子层div了,层数减1
            self.verbatim -=1
 
    def start_p(self, attrs):
        #print "p"
        if self.flag == False:
            return
        self.getdata = True
         
    def end_p(self):#遇到</p>
        if self.getdata:
            self.getdata = False
 
    def handle_data(self, text):#处理文本
        #print "nihao"
        if self.getdata:
            self.IDlist.append(text)
           # print "zhende"
             
    def printID(self):
        #print "text"
        for i in self.IDlist:
           # print "weishenme"
            print i
            

使用:

    #item['content']=response.body
        sel2 = response.body  #重要代码。
       # sel2=response.read()


        lister = GetIdList()
        lister.feed(sel2)
        #print 'bb'
        lister.printID()




        lister_163 = GetIdList_163()
        lister_163.feed(sel2)
        #print 'bb'
        lister_163.printID()
        

终于成功的把文本提出来了。

当然,还有一些无用的东西,这个须得我好好研究下 html,xpath,SGMLParser。。。。。明个,继续加油吧。今天太累了。







这篇关于1.12-1.17 项目进度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/673092

相关文章

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

在cscode中通过maven创建java项目

在cscode中创建java项目 可以通过博客完成maven的导入 建立maven项目 使用快捷键 Ctrl + Shift + P 建立一个 Maven 项目 1 Ctrl + Shift + P 打开输入框2 输入 "> java create"3 选择 maven4 选择 No Archetype5 输入 域名6 输入项目名称7 建立一个文件目录存放项目,文件名一般为项目名8 确定

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

SpringBoot项目是如何启动

启动步骤 概念 运行main方法,初始化SpringApplication 从spring.factories读取listener ApplicationContentInitializer运行run方法读取环境变量,配置信息创建SpringApplication上下文预初始化上下文,将启动类作为配置类进行读取调用 refresh 加载 IOC容器,加载所有的自动配置类,创建容器在这个过程

Maven创建项目中的groupId, artifactId, 和 version的意思

文章目录 groupIdartifactIdversionname groupId 定义:groupId 是 Maven 项目坐标的第一个部分,它通常表示项目的组织或公司的域名反转写法。例如,如果你为公司 example.com 开发软件,groupId 可能是 com.example。作用:groupId 被用来组织和分组相关的 Maven artifacts,这样可以避免

2. 下载rknn-toolkit2项目

官网链接: https://github.com/airockchip/rknn-toolkit2 安装好git:[[1. Git的安装]] 下载项目: git clone https://github.com/airockchip/rknn-toolkit2.git 或者直接去github下载压缩文件,解压即可。

9.8javaweb项目总结

1.主界面用户信息显示 登录成功后,将用户信息存储在记录在 localStorage中,然后进入界面之前通过js来渲染主界面 存储用户信息 将用户信息渲染在主界面上,并且头像设置跳转,到个人资料界面 这里数据库中还没有设置相关信息 2.模糊查找 检测输入框是否有变更,有的话调用方法,进行查找 发送检测请求,然后接收的时候设置最多显示四个类似的搜索结果

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令

maven发布项目到私服-snapshot快照库和release发布库的区别和作用及maven常用命令 在日常的工作中由于各种原因,会出现这样一种情况,某些项目并没有打包至mvnrepository。如果采用原始直接打包放到lib目录的方式进行处理,便对项目的管理带来一些不必要的麻烦。例如版本升级后需要重新打包并,替换原有jar包等等一些额外的工作量和麻烦。为了避免这些不必要的麻烦,通常我们

html css jquery选项卡 代码练习小项目

在学习 html 和 css jquery 结合使用的时候 做好是能尝试做一些简单的小功能,来提高自己的 逻辑能力,熟悉代码的编写语法 下面分享一段代码 使用html css jquery选项卡 代码练习 <div class="box"><dl class="tab"><dd class="active">手机</dd><dd>家电</dd><dd>服装</dd><dd>数码</dd><dd