#python学习笔记#使用python爬取拉勾网职位信息(一):环境配置及库安装

本文主要是介绍#python学习笔记#使用python爬取拉勾网职位信息(一):环境配置及库安装,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

鄙人作为一个Android开发者,经常想私下做一些小项目,需要一些后台的配合,自己的项目用servlet和sql语句也能凑合,但缺少后台数据就比较难办了(假数据看起来很违和,而且没有实际意义);听闻python可以做网络爬虫爬取数据,于是趁着这段时间开发任务不重,通过python实现了爬取网站数据的功能。

Python简介:

请自行百度...

Python安装:

1.先去官网下载python,根据自己的需要选择对应的版本:网址

2.解压下载下来的压缩包,然后根据提示进行安装。

3.设置环境变量,与java等环境变量类型,如图:

4.做完这些之后,python就算配置完成了,可以在控制行检测一下是否安装成功:

到此python就算配置成功了。

python编译工具:

python可以直接在命令行中进行编译,但是作为jetbrains的粉丝,当然不能错过jetbrains发布的python编译工作---PyCharm啦!

至此python的基本编译环境已经配置完成了,接下来需要导入一些编写爬虫程序的库了。

BeautifulSoup

在我看来,所谓爬虫就是将html抓取下来,然后分析其页面上的数据,python自带了html解析器--html parser,个人感觉用起来比较繁琐,因此推荐大家使用BeautifulSoup,功能比较强大,而且使用起来也比较方便。python安装第三方库还是比较方便的,有两种安装方式:

1.可以直接在命令行输入:pip install beautifulsoup4(python 2.0+用户)或者pip3 install beautifulsoup4(python 3.0+用户),之后等待安装完成即可。


2.去官网下载安装包,在命令行中先定位到安装包作为文件夹,执行python setup.py install即可

xlwt

xlwt是一款导出Excel表格的第三方python库,安装它是为了将获得的数据导出,方便查看,安装方法与上面类似。

好了,准备工作就都做好了,接下来,就该上代码了!


Python参考资料:

Python 基础教程 (看原文文档当然是最好,不过这个也不错,可以当字典使用)

玩蛇网(顾名思义)


这篇关于#python学习笔记#使用python爬取拉勾网职位信息(一):环境配置及库安装的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/747309

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

Centos7安装Mongodb4

1、下载源码包 curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.2.1.tgz 2、解压 放到 /usr/local/ 目录下 tar -zxvf mongodb-linux-x86_64-rhel70-4.2.1.tgzmv mongodb-linux-x86_64-rhel70-4.2.1/

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam