tribune专题

爬虫及文本分析心得(For The NewYork Times, The Washington Post,Los Angeles Times, Chicago Tribune)

最近有好人相助,重新拾起了爬虫 爬爬爬爬爬爬爬… 本次爬虫用了之前学一半就半途而废的scrapy,上次用到爬虫感觉是一两年前的事了,现在已经是学校的老油条了,年龄大了就容易健忘,重新去学这些东西真是废了不少功夫,现在做的差不多了,就写点东西记录一下,防止以后忘了自己做过爬虫这件事。 之前用爬虫,就是利用request下载网页,然后解析,使用re做pattern然后去find_all,之