大数据项目:职务分析(一)——数据获取

2023-11-21 11:30

本文主要是介绍大数据项目:职务分析(一)——数据获取,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

项目介绍:该项目适合学习的时候使用,因为项目比较小,主要目的对猎聘当中的各个岗位的数据的获取和简单的分析,从多个方面分析岗位之间的关系以及薪资的差异。

采用的技术有:

python爬虫:

hadoop:hdfs存储数据

hive on spark : 进行数据分析

sqoop: 将分析的结果传输到关系型数据库当中

superset:进行数据的可视化

首先是将数据从猎聘官网当中获取:

爬取技术一栏当中的似是一个岗位对应的数据。

先获得各个岗位的url,进行跳转,在每个网页当获取有用的信息:比如:岗位,地址,薪资,公司规模,要求掌握的技术,学历要求和经验要求,最后,对这一页的数据爬取完之后,进行跳转,通过find-element-by-xpath(),来锁定到下一页的链接上,跳转到下一页再进行数据的爬取,如此往复,从而,得到所有的想要的数据。 

 话不多说,代码实现为:

from selenium import webdriver
from selenium.webdriver.chrome.webdriver import Options
from lxml import etree
import osdef share_brower():chrome_options = Options()# chrome_options.add_argument('--headless')   # 来判断浏览器的前后台运行,有图形化可以更好的展现她的活动chrome_options.add_argument('--disable-gpu')path='C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'chrome_options.binary_location = pathbrower = webdriver.Chrome(chrome_options=chrome_options)return browerdef save(source, number, name1):tree = etree.HTML(source)position = tree.xpath('//ul/li//div[@class="job-title-box"]/div[1]/text()')addr = tree.xpath('//ul/li//div[@class="job-title-box"]/div[2]/span[2]/text()')salary = tree.xpath('//ul/li//div[@class="job-detail-header-box"]/span/text()')company = tree.xpath('//ul/li//div[@class="job-company-info-box"]/span/text()')scale = tree.xpath('//ul/li//div[@class="job-company-info-box"]/div[@class="company-tags-box ellipsis-1"]/span[last()]/text()')experience = tree.xpath('//ul/li//div[@class="job-labels-box"]/span[1]/text()')xueli = tree.xpath('//ul/li//div[@class="job-labels-box"]/span[2]/text()')keyword = tree.xpath('//ul/li//div[@class="job-labels-box"]/span/text()')mi = min(len(position), len(addr), len(salary), len(company), len(scale), len(xueli), len(experience))with open('./date/' + name1.strip() + "/" + str(number) + '.csv', 'w', encoding='utf-8') as fs:for l in range(mi):new = position[l] + ',' + addr[l] + ',' + salary[l] + ',' + company[l] + ',' + scale[l]+','+experience[l]+','+xueli[l]+'\t\n'fs.write(new)fs.close()with open('./keyword.txt', 'a', encoding='utf-8') as fs:ne = ''for i in keyword:ne = ne + i + ' 'fs.write(ne)fs.close()base_url = 'https://www.liepin.com'
brower = share_brower()
brower.get('https://www.liepin.com/it/')
brower.implicitly_wait(3)
page = brower.page_source
tree = etree.HTML(page)
name = tree.xpath('//ul[@class="sidebar float-left"]/li[1]//dd/a/text()')
url = tree.xpath('//ul[@class="sidebar float-left"]/li[1]//dd/a/@href')
for i in range(len(name)):if not os.path.exists('./date/'+name[i]):os.mkdir('./date/'+name[i]) #创建文件夹brower.get(base_url+url[i])brower.implicitly_wait(3)source = brower.page_sourcenumber = 1save(source, number, name[i])print(name[i])try:for j in range(9):element = brower.find_element_by_xpath('//div[@class="list-pagination-box"]//li[last()]/a')element.click()save(brower.page_source, number, name[i])number += 1except RuntimeError:print("*"*30+"有错误,但是可以执行的哦!!")continueelse:print("文件已经存在")os.rmdir('./date/'+name[i])continue
## //ul[@class="sidebar float-left"]/li[1]//dd/a/text() 相关职业
# //ul[@class="sidebar float-left"]/li[1]//dd/a/@href  对应的连接 每个连接底下都有十个页面 、爬取当中的数据
# 数据的存放 总共有49个类别的技术岗位 分别放在49个问价夹底下,文件夹以对应的职业命名 底下十个文件,每个文件表示每一页的数据
# ,文件的命名方式以1-10.csv ,保存的时候中间以逗号隔开,保存当当前的路径底下,然后爬取成功之后同意上传到大数据集
# 群的本地文件夹下面# //ul/li//div[@class="job-title-box"]/div[1]/text()  职位
# //ul/li//div[@class="job-title-box"]/div[2]/span[2]/text()  地址
# //ul/li//div[@class="job-detail-header-box"]/span/text()   薪资
# //ul/li//div[@class="job-company-info-box"]/span/text()   企业
# //ul/li//div[@class="job-company-info-box"]/div[@class="company-tags-box ellipsis-1"]
# /span[last()]/text() 公司规模
# //ul/li//div[@class="job-labels-box"]/span[1]/text()   工作经验
# //ul/li//div[@class="job-labels-box"]/span[2]/text()  招聘学历要求
# //ul/li//div[@class="job-labels-box"]/span/text()   //用正则将数据的后序删除掉,或者在hadoop当中处理
# //div[@class="list-pagination-box"]//li[last()] 下一页的标签 循环九次brower.quit()
# 最后退出

 最后结果为:

 

 

 每一层和里面的数据保存形式,都如上所述,后序通过简单的mapreduce实现数据的处理,上传至hdfs当中,下期继续。。。。

这篇关于大数据项目:职务分析(一)——数据获取的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/402084

相关文章

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

部署Vue项目到服务器后404错误的原因及解决方案

《部署Vue项目到服务器后404错误的原因及解决方案》文章介绍了Vue项目部署步骤以及404错误的解决方案,部署步骤包括构建项目、上传文件、配置Web服务器、重启Nginx和访问域名,404错误通常是... 目录一、vue项目部署步骤二、404错误原因及解决方案错误场景原因分析解决方案一、Vue项目部署步骤

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

golang内存对齐的项目实践

《golang内存对齐的项目实践》本文主要介绍了golang内存对齐的项目实践,内存对齐不仅有助于提高内存访问效率,还确保了与硬件接口的兼容性,是Go语言编程中不可忽视的重要优化手段,下面就来介绍一下... 目录一、结构体中的字段顺序与内存对齐二、内存对齐的原理与规则三、调整结构体字段顺序优化内存对齐四、内

如何利用Java获取当天的开始和结束时间

《如何利用Java获取当天的开始和结束时间》:本文主要介绍如何使用Java8的LocalDate和LocalDateTime类获取指定日期的开始和结束时间,展示了如何通过这些类进行日期和时间的处... 目录前言1. Java日期时间API概述2. 获取当天的开始和结束时间代码解析运行结果3. 总结前言在J

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

配置springboot项目动静分离打包分离lib方式

《配置springboot项目动静分离打包分离lib方式》本文介绍了如何将SpringBoot工程中的静态资源和配置文件分离出来,以减少jar包大小,方便修改配置文件,通过在jar包同级目录创建co... 目录前言1、分离配置文件原理2、pom文件配置3、使用package命令打包4、总结前言默认情况下,