分享一段代码-用Java抓取冯小刚的微博

2023-11-07 17:40

本文主要是介绍分享一段代码-用Java抓取冯小刚的微博,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

写在前面

之前二胖分享的代码多是Python的,不少粉丝在公众号后台私信我爬虫相关的技术,二胖发现很多人在潜意识里认为Python就等于爬虫。

今天分享这段代码主要是想说一下:大家不要把爬虫和Python绑定,也不要把数据分析和Python绑定,不是只有Python才可以写爬虫,Java、PHP、Lua、Ruby,甚至C++都可以写爬虫

今天给学习Java的同学推荐一款Java爬虫框架-WebCollector,然后二胖也用这个框架实现了一个微博爬虫,大约有200多行Java代码,就当做例子给初学者入门吧。

因为文本表述比较困难,所以二胖会录制视频讲解相关环境的部署以及对代码进行讲解。

 

微信:代码和高清视频都放在文末的留言区,需要的同学自取。

废话不多说,Let's Go!

 

01

WebCollector初识

WebCollector是一个无须配置、便于二次开发的Java爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取,也支持断点爬取。

二胖个人感觉WebCollector和Python的爬虫框架Scrapy有异曲同工之妙,在使用流程上差不多,下面这张图就是WebCollector的Github主页。

 

02

项目演示

二胖先给大家演示一下代码运行,由于这几天冯小刚比较火,那就抓取一下冯小刚的微博吧。抓取后的结果用Json保存放在文件中,下图就是抓取后的部分结果。

下面的视频是代码运行的例子,点开视频即可查看:

(微信公众号中视频可能不清晰,大家可以下载原视频查看,我已上传,链接在留言区)

 

 

03

环境部署

要编写代码,首先得部署环境,这里二胖录制了一个小视频教大家部署一下环境:

 

如视频中所言,这里二胖已经把环境依赖的库都打包好了,大家直接就能用,别忘记了Build Path。

 

04

爬虫简介&代码讲解

在下面的视频中,二胖给大家简单介绍一下爬虫的工作原理,然后再讲解一下这200多行代码是怎么运行的。

 

看完上面的视频,大家已经入门爬虫了,除了冯小刚的微博,你们还可以抓取自己想抓取的任何内容,比如马蓉的微博。

 

二胖有话说

二胖初学爬虫时用的就是WebCollector,因为那时候还不会Python,只会写一点Java,所以二胖是用Java入门爬虫的。

不过从使用感觉上来讲,Python稍微方便一些,和Java相比Python能用更短的代码实现相同的功能。

不过Java的性能比Python要好一些,怎么讲呢?

现在写爬虫基本都是多线程的,而Python的多线程和Java的多线程模型有些不一样,对于多核计算机,Python线程只使用了一个核,不同的用户线程一直在一个核上进行上下文切换,其他核就闲着,这是N:1的线程模型。

就像下图这张图一样:

而Java的多线程模型是真正意义上的多核模型,即每个CPU核心都在忙。

当然,这里要是不明白也没什么问题,大家可以持续关注二胖,在之后的日子里,二胖会慢慢和大家分享哈。

对爬虫而言,大多数情况下,限制抓取速度的瓶颈不在于CPU核心数,而在于网络延迟等待时间,所以对于个人抓取,Python和Java的区别不大。

 

本文涉及的代码,视频以及github地址放在下面的留言区了,需要的同学自取哈。

近期热文

开源一段代码-微信好友分析

从《深入理解计算机系统》谈一谈编程入门

分享一下我自学python过程中看过的那些书和那些课

这篇关于分享一段代码-用Java抓取冯小刚的微博的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/365247

相关文章

Java 正则表达式URL 匹配与源码全解析

《Java正则表达式URL匹配与源码全解析》在Web应用开发中,我们经常需要对URL进行格式验证,今天我们结合Java的Pattern和Matcher类,深入理解正则表达式在实际应用中... 目录1.正则表达式分解:2. 添加域名匹配 (2)3. 添加路径和查询参数匹配 (3) 4. 最终优化版本5.设计思

Java使用ANTLR4对Lua脚本语法校验详解

《Java使用ANTLR4对Lua脚本语法校验详解》ANTLR是一个强大的解析器生成器,用于读取、处理、执行或翻译结构化文本或二进制文件,下面就跟随小编一起看看Java如何使用ANTLR4对Lua脚本... 目录什么是ANTLR?第一个例子ANTLR4 的工作流程Lua脚本语法校验准备一个Lua Gramm

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字

Java Optional的使用技巧与最佳实践

《JavaOptional的使用技巧与最佳实践》在Java中,Optional是用于优雅处理null的容器类,其核心目标是显式提醒开发者处理空值场景,避免NullPointerExce... 目录一、Optional 的核心用途二、使用技巧与最佳实践三、常见误区与反模式四、替代方案与扩展五、总结在 Java

基于Java实现回调监听工具类

《基于Java实现回调监听工具类》这篇文章主要为大家详细介绍了如何基于Java实现一个回调监听工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录监听接口类 Listenable实际用法打印结果首先,会用到 函数式接口 Consumer, 通过这个可以解耦回调方法,下面先写一个

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析

Java字符串处理全解析(String、StringBuilder与StringBuffer)

《Java字符串处理全解析(String、StringBuilder与StringBuffer)》:本文主要介绍Java字符串处理全解析(String、StringBuilder与StringBu... 目录Java字符串处理全解析:String、StringBuilder与StringBuffer一、St

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法

《springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法》:本文主要介绍springboot整合阿里云百炼DeepSeek实现sse流式打印,本文给大家介绍的非常详细,对大... 目录1.开通阿里云百炼,获取到key2.新建SpringBoot项目3.工具类4.启动类5.测试类6.测

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

《SpringBoot循环依赖原理、解决方案与最佳实践(全解析)》循环依赖指两个或多个Bean相互直接或间接引用,形成闭环依赖关系,:本文主要介绍SpringBoot循环依赖原理、解决方案与最... 目录一、循环依赖的本质与危害1.1 什么是循环依赖?1.2 核心危害二、Spring的三级缓存机制2.1 三