经常做饭却不知道要备什么材料?爬完下厨房,这张词云告诉你

2024-01-19 02:48

本文主要是介绍经常做饭却不知道要备什么材料?爬完下厨房,这张词云告诉你,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近待业在家,每天除了睡觉和学python,还有个最头疼的事就是一日三餐吃什么,要好吃关键是不能重样,毕竟再好吃的菜吃多了都会腻。

菜做的多了,要买的材料自然少不了,但是应该买哪些,买多少,这又是个问题。买少了不够,买多了吃不完,去超市买一大堆材料回来,做菜的时候发现该买的没买到,这就尴尬了,总不能天天都往超市跑吧。

正好学了爬虫,就想着能不能去下厨房爬点数据下来,看看食材的哪些配料用的多,看着买总是没有错的。

当然了,也不能什么菜都爬下来,我要吃的都是些家常菜,所以下厨房里的【家常菜】、【快手菜】、【下饭菜】是最适合爬取的内容。【素菜】暂时没考虑,虽然穷,但还是想每餐都尽量能吃点肉……
在这里插入图片描述
同时,考虑到大家做的比较多的菜,所以标签上选择【最受欢迎】一栏。翻了一下,一共就10页,每一页20条数据,所以三个加起来数据量不超过600条(要去掉重复的,实际上去掉重复以后是438道菜谱)。

重点是下厨房的爬取很简单,没有复杂的异步加载方式的,而且要爬取的内容也很简单,标题(菜名),综合评分,多少人做过这道菜,以及最关键的【用料】。
在这里插入图片描述
前面的数据只是为了后期使用,方便做其他的数据分析,而用料是这次的关键。

爬取的过程很简单,直接看爬取数据的代码。


'''
1.下饭菜,共10页
http://www.xiachufang.com/category/40078/pop/?page=102.家常菜,共10页
http://www.xiachufang.com/category/40076/pop/?page=103.快手菜,共10页
http://www.xiachufang.com/category/40077/pop/?page=10标题、评分、XX人做过 用料,原链接
用料://div[@class="ings"]/table/tbody/tr/td[1]/text()'''import requests
from lxml import etree
import pandas as pdURL = 'http://www.xiachufang.com/category/40076/pop/?page={}'
headers = {'Host': 'www.xiachufang.com','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3704.400 QQBrowser/10.4.3587.400'
}
items = []def get_url(content):tree = etree.HTML(content)data_list = tree.xpath('//div[2][@class="normal-recipe-list"]/ul/li')for li in data_list:food_url = li.xpath('./div/a/@href')[0]food_url = 'http://www.xiachufang.com' + food_url# print(food_url)get_data(food_url)def get_data(food_url):response 

这篇关于经常做饭却不知道要备什么材料?爬完下厨房,这张词云告诉你的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/621052

相关文章

Temu官方宣导务必将所有的点位材料进行检测-RSL资质检测

关于饰品类产品合规问题宣导: 产品法规RSL要求 RSL测试是根据REACH法规及附录17的要求进行测试。REACH法规是欧洲一项重要的法规,其中包含许多对化学物质进行限制的规定和高度关注物质。 为了确保珠宝首饰的安全性,欧盟REACH法规规定,珠宝首饰上架各大电商平台前必须进行RSLReport(欧盟禁限用化学物质检测报告)资质认证,以确保产品不含对人体有害的化学物质。 RSL-铅,

代码随想录训练营day37|52. 携带研究材料,518.零钱兑换II,377. 组合总和 Ⅳ,70. 爬楼梯

52. 携带研究材料 这是一个完全背包问题,就是每个物品可以无限放。 在一维滚动数组的时候规定了遍历顺序是要从后往前的,就是因为不能多次放物体。 所以这里能多次放物体只需要把遍历顺序改改就好了 # include<iostream># include<vector>using namespace std;int main(){int n,m;cin>>n>>m;std::vector<i

[情商-13]:语言的艺术:何为真实和真相,所谓真相,就是别人想让你知道的真相!洞察谎言与真相!

目录 前言: 一、说话的真实程度分级 二、说谎动机分级:善意谎言、中性谎言、恶意谎言 三、小心:所谓真相:只说对自己有利的真相 四、小心:所谓真相:就是别人想让你知道的真相 五、小心:所谓善解人意:就是别人只说你想要听到的话 前言: 何为真实和真相,所谓真相,就是别人想让你知道的真相!洞察谎言与真相! 人与人交流话语中,处处充满了不真实,完全真实的只是其中一小部分,这

看病要排队这个是地球人都知道的常识

归纳编程学习的感悟, 记录奋斗路上的点滴, 希望能帮到一样刻苦的你! 如有不足欢迎指正! 共同学习交流! 🌎欢迎各位→点赞 👍+ 收藏⭐ + 留言​📝唯有付出,才有丰富的果实收获! 看病要排队这个是地球人都知道的常识。 不过经过细心的0068的观察,他发现了医院里排队还是有讲究的。0068所去的医院有三个医生(汗,这么少)同时看病。而看病的人病情有轻重,所以不能根据简单的先来

纳米材料咋设计?蛋白质模块咋用?看这里就知道啦!

大家好,今天我们来了解一项关于蛋白质纳米材料设计的研究——《Blueprinting extendable nanomaterials with standardized protein blocks》发表于《Nature》。蛋白质结构复杂,其组装体的设计颇具挑战。但近期的研究取得了新突破,通过设计标准化的蛋白质模块,如线性、曲线和转角模块等,实现了纳米材料的可扩展性和规律性。这

只有对比,才知道伊利股份半年报的高成色

投资圈有句名言:“当潮水退去的时候,才知道谁在裸泳”。大环境顺风顺水,大家看着都挺好,只有环境变化,才更容易分辨出来,谁才是真有实力。当下,在消费环境弱复苏的大背景下,高成色的半年报业绩让伊利股份的实力一览无余。 8月29日,伊利股份发布中期业绩。上半年,面对严峻复杂的市场环境,伊利直面挑战、主动调整,实现营业总收入599.15亿元,归母净利润75.31亿元,均稳居行业第一。

数业智能心大陆告诉你如何培养孩子的批判性思维?

现今的教育体系自小学起便强调培养孩子的批判性思维,这种能力被视为在复杂世界中生存和发展的关键。在当今信息爆炸的时代,它能让我们在海量信息中辨别真伪、深入思考并做出明智决策。如今,如数业智能心大陆产出的AI 心理咨询平台的出现为培养孩子批判性思维提供了新可能,其通过互动引导孩子思考,助力孩子提升批判性思维能力。 什么是批判性思维呢? 批判性思维是一种思考方式,它能够使我们在接收信

网页中经常见到的,点击菜单栏,跳转到执行元素的位置

* 点击滑动制定位置* @param scrolldom 点击的制定元素* @param scrollTime 滑动的时间*/$.scrollto = function (scrolldom,scrollTime) {//dom点击事件$(scrolldom).click(function () {//查找点击dom里的属性,要在dom元素里添加var scrolldom = $(t

当当图书福利券,满400减230,别说我没告诉你!

1024程序员节 当当网计算机图书 每满100减50! 满200减100! 满300-150! 机械工业出版社华章公司联合当当网特意为【大数据技术与架构】用户申请了一批可与满减叠加使用的“满200减30”的图书优惠码,优惠码使用后相当于: 400减230 !!!   优惠码:【YRMQMY】(注意区分大小写) 使用渠道:当当app和当当小程序 使用时间:10月22-10月31 本活动满减与礼券

从新手到大师:Java并发编程你必须知道的那些事!

文章目录 1 进程和线程的区别?2 如何创建一个线程实例并且运行它?3 Runnable 和 Callable 接口有什么区别?它们是如何使用的?4 方法定义中 synchronized 关键字的含义是什么?静态方法?在一个块之前 ? 1 进程和线程的区别? 进程是独立的执行单元,拥有自己的资源和内存,而线程是在进程内的执行单元,共享进程的资源。线程可以高效地执行任务,但需