本文主要是介绍经常做饭却不知道要备什么材料?爬完下厨房,这张词云告诉你,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
最近待业在家,每天除了睡觉和学python,还有个最头疼的事就是一日三餐吃什么,要好吃关键是不能重样,毕竟再好吃的菜吃多了都会腻。
菜做的多了,要买的材料自然少不了,但是应该买哪些,买多少,这又是个问题。买少了不够,买多了吃不完,去超市买一大堆材料回来,做菜的时候发现该买的没买到,这就尴尬了,总不能天天都往超市跑吧。
正好学了爬虫,就想着能不能去下厨房爬点数据下来,看看食材的哪些配料用的多,看着买总是没有错的。
当然了,也不能什么菜都爬下来,我要吃的都是些家常菜,所以下厨房里的【家常菜】、【快手菜】、【下饭菜】是最适合爬取的内容。【素菜】暂时没考虑,虽然穷,但还是想每餐都尽量能吃点肉……
同时,考虑到大家做的比较多的菜,所以标签上选择【最受欢迎】一栏。翻了一下,一共就10页,每一页20条数据,所以三个加起来数据量不超过600条(要去掉重复的,实际上去掉重复以后是438道菜谱)。
重点是下厨房的爬取很简单,没有复杂的异步加载方式的,而且要爬取的内容也很简单,标题(菜名),综合评分,多少人做过这道菜,以及最关键的【用料】。
前面的数据只是为了后期使用,方便做其他的数据分析,而用料是这次的关键。
爬取的过程很简单,直接看爬取数据的代码。
'''
1.下饭菜,共10页
http://www.xiachufang.com/category/40078/pop/?page=102.家常菜,共10页
http://www.xiachufang.com/category/40076/pop/?page=103.快手菜,共10页
http://www.xiachufang.com/category/40077/pop/?page=10标题、评分、XX人做过 用料,原链接
用料://div[@class="ings"]/table/tbody/tr/td[1]/text()'''import requests
from lxml import etree
import pandas as pdURL = 'http://www.xiachufang.com/category/40076/pop/?page={}'
headers = {'Host': 'www.xiachufang.com','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3704.400 QQBrowser/10.4.3587.400'
}
items = []def get_url(content):tree = etree.HTML(content)data_list = tree.xpath('//div[2][@class="normal-recipe-list"]/ul/li')for li in data_list:food_url = li.xpath('./div/a/@href')[0]food_url = 'http://www.xiachufang.com' + food_url# print(food_url)get_data(food_url)def get_data(food_url):response
这篇关于经常做饭却不知道要备什么材料?爬完下厨房,这张词云告诉你的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!