分享一段代码-用Java抓取冯小刚的微博

2023-11-07 17:40

本文主要是介绍分享一段代码-用Java抓取冯小刚的微博,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在前面

之前二胖分享的代码多是Python的,不少粉丝在公众号后台私信我爬虫相关的技术,二胖发现很多人在潜意识里认为Python就等于爬虫。

今天分享这段代码主要是想说一下:大家不要把爬虫和Python绑定,也不要把数据分析和Python绑定,不是只有Python才可以写爬虫,Java、PHP、Lua、Ruby,甚至C++都可以写爬虫

今天给学习Java的同学推荐一款Java爬虫框架-WebCollector,然后二胖也用这个框架实现了一个微博爬虫,大约有200多行Java代码,就当做例子给初学者入门吧。

因为文本表述比较困难,所以二胖会录制视频讲解相关环境的部署以及对代码进行讲解。

 

微信:代码和高清视频都放在文末的留言区,需要的同学自取。

废话不多说,Let's Go!

 

01

WebCollector初识

WebCollector是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取,也支持断点爬取。

二胖个人感觉WebCollector和Python的爬虫框架Scrapy有异曲同工之妙,在使用流程上差不多,下面这张图就是WebCollector的Github主页。

 

02

项目演示

二胖先给大家演示一下代码运行,由于这几天冯小刚比较火,那就抓取一下冯小刚的微博吧。抓取后的结果用Json保存放在文件中,下图就是抓取后的部分结果。

下面的视频是代码运行的例子,点开视频即可查看:

(微信公众号中视频可能不清晰,大家可以下载原视频查看,我已上传,链接在留言区)

 

 

03

环境部署

要编写代码,首先得部署环境,这里二胖录制了一个小视频教大家部署一下环境:

 

如视频中所言,这里二胖已经把环境依赖的库都打包好了,大家直接就能用,别忘记了Build Path。

 

04

爬虫简介&代码讲解

在下面的视频中,二胖给大家简单介绍一下爬虫的工作原理,然后再讲解一下这200多行代码是怎么运行的。

 

看完上面的视频,大家已经入门爬虫了,除了冯小刚的微博,你们还可以抓取自己想抓取的任何内容,比如马蓉的微博。

 

二胖有话说

二胖初学爬虫时用的就是WebCollector,因为那时候还不会Python,只会写一点Java,所以二胖是用Java入门爬虫的。

不过从使用感觉上来讲,Python稍微方便一些,和Java相比Python能用更短的代码实现相同的功能。

不过Java的性能比Python要好一些,怎么讲呢?

现在写爬虫基本都是多线程的,而Python的多线程和Java的多线程模型有些不一样,对于多核计算机,Python线程只使用了一个核,不同的用户线程一直在一个核上进行上下文切换,其他核就闲着,这是N:1的线程模型。

就像下图这张图一样:

而Java的多线程模型是真正意义上的多核模型,即每个CPU核心都在忙。

当然,这里要是不明白也没什么问题,大家可以持续关注二胖,在之后的日子里,二胖会慢慢和大家分享哈。

对爬虫而言,大多数情况下,限制抓取速度的瓶颈不在于CPU核心数,而在于网络延迟等待时间,所以对于个人抓取,Python和Java的区别不大。

 

本文涉及的代码,视频以及github地址放在下面的留言区了,需要的同学自取哈。

近期热文

开源一段代码-微信好友分析

从《深入理解计算机系统》谈一谈编程入门

分享一下我自学python过程中看过的那些书和那些课

这篇关于分享一段代码-用Java抓取冯小刚的微博的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/365247

相关文章

mybatis-plus 实现查询表名动态修改的示例代码

《mybatis-plus实现查询表名动态修改的示例代码》通过MyBatis-Plus实现表名的动态替换,根据配置或入参选择不同的表,本文主要介绍了mybatis-plus实现查询表名动态修改的示... 目录实现数据库初始化依赖包配置读取类设置 myBATis-plus 插件测试通过 mybatis-plu

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自

使用Dify访问mysql数据库详细代码示例

《使用Dify访问mysql数据库详细代码示例》:本文主要介绍使用Dify访问mysql数据库的相关资料,并详细讲解了如何在本地搭建数据库访问服务,使用ngrok暴露到公网,并创建知识库、数据库访... 1、在本地搭建数据库访问的服务,并使用ngrok暴露到公网。#sql_tools.pyfrom

JAVA封装多线程实现的方式及原理

《JAVA封装多线程实现的方式及原理》:本文主要介绍Java中封装多线程的原理和常见方式,通过封装可以简化多线程的使用,提高安全性,并增强代码的可维护性和可扩展性,需要的朋友可以参考下... 目录前言一、封装的目标二、常见的封装方式及原理总结前言在 Java 中,封装多线程的原理主要围绕着将多线程相关的操

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Spring Cloud之注册中心Nacos的使用详解

《SpringCloud之注册中心Nacos的使用详解》本文介绍SpringCloudAlibaba中的Nacos组件,对比了Nacos与Eureka的区别,展示了如何在项目中引入SpringClo... 目录Naacos服务注册/服务发现引⼊Spring Cloud Alibaba依赖引入Naco编程s依

java导出pdf文件的详细实现方法

《java导出pdf文件的详细实现方法》:本文主要介绍java导出pdf文件的详细实现方法,包括制作模板、获取中文字体文件、实现后端服务以及前端发起请求并生成下载链接,需要的朋友可以参考下... 目录使用注意点包含内容1、制作pdf模板2、获取pdf导出中文需要的文件3、实现4、前端发起请求并生成下载链接使

Java springBoot初步使用websocket的代码示例

《JavaspringBoot初步使用websocket的代码示例》:本文主要介绍JavaspringBoot初步使用websocket的相关资料,WebSocket是一种实现实时双向通信的协... 目录一、什么是websocket二、依赖坐标地址1.springBoot父级依赖2.springBoot依赖

如何用java对接微信小程序下单后的发货接口

《如何用java对接微信小程序下单后的发货接口》:本文主要介绍在微信小程序后台实现发货通知的步骤,包括获取Access_token、使用RestTemplate调用发货接口、处理AccessTok... 目录配置参数 调用代码获取Access_token调用发货的接口类注意点总结配置参数 首先需要获取Ac

Java逻辑运算符之&&、|| 与&、 |的区别及应用

《Java逻辑运算符之&&、||与&、|的区别及应用》:本文主要介绍Java逻辑运算符之&&、||与&、|的区别及应用的相关资料,分别是&&、||与&、|,并探讨了它们在不同应用场景中... 目录前言一、基本概念与运算符介绍二、短路与与非短路与:&& 与 & 的区别1. &&:短路与(AND)2. &:非短