使用Jsoup抓取数据

2024-06-24 10:18
文章标签 抓取 数据 使用 jsoup

本文主要是介绍使用Jsoup抓取数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题

最近公司的市场部分布了一个问题,到一个网站截取一下医院的数据。刚好我也被安排做。后来,我发现为何不用脚本去抓取呢?
抓取的数据如下:
这里写图片描述

Jsoup的使用实战代码

结构

Created with Raphaël 2.1.0 开始 创建线程池 jsoup读取网页 解析Element 写入sqlite 结束
  • java代码
public class GetDoctorInfo {public GetDoctorInfo() {ExecutorService threadPool = Executors.newFixedThreadPool(5);//43有问题//73有问题for (int i = 1; i <= 100; i++) {String path = "http://so.haodf.com/index/search?type=hospitalfaculty&p=" + i + "&kw=%B8%BE%B2%FA%BF%C6";threadPool.execute(new GetDoctorRun(path));}threadPool.shutdown();}public static void main(String[] arg) {new GetDoctorInfo();}public static synchronized void printInfo(String sql) {System.out.println(sql);}public static String trans(String input) {String value;value = input.replaceAll("<td>", "").replaceAll("</td>", "").replaceAll("&nbsp;", "").replaceAll(" 地址地图:", "");return value;}/*** 获取医生的线程*/public class GetDoctorRun implements Runnable {final String mURL;public GetDoctorRun(String mURL) {this.mURL = mURL;}@Overridepublic void run() {try {Document doc = null;try {
//                    doc = (Document) Jsoup.parse(new URL("http://so.haodf.com/index/search?type=hospitalfaculty&p=99&kw=%B8%BE%B2%FA%BF%C6")
//                            , 1000);doc = (Document) Jsoup.parse(new URL(mURL), 3000);} catch (IOException e) {e.printStackTrace();}//定位到列表Elements elements = doc.getElementsByClass("list");Elements childElements = elements.get(0).getAllElements();Element child = childElements.get(3);//获得所有的超链接的数据Elements aLinks = child.getElementsByTag("a");ArrayList<String> name = new ArrayList<>();ArrayList<String> address = new ArrayList<>();for (int i = 1; i <= aLinks.size(); i++) {Element e = aLinks.get(i - 1);if (e.attr("target").equals("_blank")) {//排除 科室介绍//排除 门诊时间if (!e.text().equals("科室介绍") && !e.text().equals("门诊时间")) {//                            System.out.println("--" + e.text());if (i % 2 == 0) {if (e.text().equals("") || e.text() == null) {address.add("");} else {address.add(e.text());}} else {if (e.text().equals("") || e.text() == null) {name.add("");} else {name.add(e.text());}}}}}//将长连接的内容删除child.select("a").remove();child.select("span").remove();child.select("br").remove();String tran = trans(child.toString());//                System.out.println(tran);String[] phones = tran.substring("     电  话:".length(), tran.length() - 1).split("电  话:");System.out.println();System.out.println();System.out.println();for (int i = 0; i < name.size(); i++) {//                    System.out.println(phones[i]);//                    //INSERT INTO info(hospital_name,address,phone) VALUES ('gg','hhh','ddd');StringBuffer bufferValue = new StringBuffer("INSERT INTO info(hospital_name,address,phone) VALUES (");//医院名bufferValue.append("'").append(name.get(i)).append("'");//医院地址bufferValue.append(",'").append(address.get(i)).append("'");//医院的电话bufferValue.append(",'").append(phones[i].trim()).append("');");printInfo(bufferValue.toString());}if (name.size() != 10) {System.out.println("name==" + mURL);}if (address.size() != 10) {System.out.println("address=" + mURL);}if (phones.length != 10) {System.out.println("phone=" + phones.length + " " + mURL);}} catch (Exception e) {e.printStackTrace();}}}}
  • Terminal写入sqlte

.open hospital.db
sqlite3 -init sql

总结

jsoup的使用很简单,有点像解析xml。不过结果很好的,因为5,6个人的工作就被这个简单的代码实现了。解析技巧有一个尽量清除不必要的标签。如代码:

       child.select("a").remove();child.select("span").remove();child.select("br").remove();
  • 学会用脚本收集数据
  • 注意多谢线程并发的安全,要检验,要不很易出错
  • 对于多线程的问题关键是要确保你的内容不被竞争弄乱,所以提取出来进行代码块是很重要的。

最后补充一下最终的效果如下图

这篇关于使用Jsoup抓取数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1089863

相关文章

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

深入理解Go语言中二维切片的使用

《深入理解Go语言中二维切片的使用》本文深入讲解了Go语言中二维切片的概念与应用,用于表示矩阵、表格等二维数据结构,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习吧... 目录引言二维切片的基本概念定义创建二维切片二维切片的操作访问元素修改元素遍历二维切片二维切片的动态调整追加行动态

prometheus如何使用pushgateway监控网路丢包

《prometheus如何使用pushgateway监控网路丢包》:本文主要介绍prometheus如何使用pushgateway监控网路丢包问题,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录监控网路丢包脚本数据图表总结监控网路丢包脚本[root@gtcq-gt-monitor-prome

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

SpringBoot中如何使用Assert进行断言校验

《SpringBoot中如何使用Assert进行断言校验》Java提供了内置的assert机制,而Spring框架也提供了更强大的Assert工具类来帮助开发者进行参数校验和状态检查,下... 目录前言一、Java 原生assert简介1.1 使用方式1.2 示例代码1.3 优缺点分析二、Spring Fr

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

java使用protobuf-maven-plugin的插件编译proto文件详解

《java使用protobuf-maven-plugin的插件编译proto文件详解》:本文主要介绍java使用protobuf-maven-plugin的插件编译proto文件,具有很好的参考价... 目录protobuf文件作为数据传输和存储的协议主要介绍在Java使用maven编译proto文件的插件

SpringBoot线程池配置使用示例详解

《SpringBoot线程池配置使用示例详解》SpringBoot集成@Async注解,支持线程池参数配置(核心数、队列容量、拒绝策略等)及生命周期管理,结合监控与任务装饰器,提升异步处理效率与系统... 目录一、核心特性二、添加依赖三、参数详解四、配置线程池五、应用实践代码说明拒绝策略(Rejected

C++ Log4cpp跨平台日志库的使用小结

《C++Log4cpp跨平台日志库的使用小结》Log4cpp是c++类库,本文详细介绍了C++日志库log4cpp的使用方法,及设置日志输出格式和优先级,具有一定的参考价值,感兴趣的可以了解一下... 目录一、介绍1. log4cpp的日志方式2.设置日志输出的格式3. 设置日志的输出优先级二、Window