使用Jsoup抓取数据

2024-06-24 10:18
文章标签 抓取 数据 使用 jsoup

本文主要是介绍使用Jsoup抓取数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

问题

最近公司的市场部分布了一个问题,到一个网站截取一下医院的数据。刚好我也被安排做。后来,我发现为何不用脚本去抓取呢?
抓取的数据如下:
这里写图片描述

Jsoup的使用实战代码

结构

Created with Raphaël 2.1.0 开始 创建线程池 jsoup读取网页 解析Element 写入sqlite 结束
  • java代码
public class GetDoctorInfo {public GetDoctorInfo() {ExecutorService threadPool = Executors.newFixedThreadPool(5);//43有问题//73有问题for (int i = 1; i <= 100; i++) {String path = "http://so.haodf.com/index/search?type=hospitalfaculty&p=" + i + "&kw=%B8%BE%B2%FA%BF%C6";threadPool.execute(new GetDoctorRun(path));}threadPool.shutdown();}public static void main(String[] arg) {new GetDoctorInfo();}public static synchronized void printInfo(String sql) {System.out.println(sql);}public static String trans(String input) {String value;value = input.replaceAll("<td>", "").replaceAll("</td>", "").replaceAll("&nbsp;", "").replaceAll(" 地址地图:", "");return value;}/*** 获取医生的线程*/public class GetDoctorRun implements Runnable {final String mURL;public GetDoctorRun(String mURL) {this.mURL = mURL;}@Overridepublic void run() {try {Document doc = null;try {
//                    doc = (Document) Jsoup.parse(new URL("http://so.haodf.com/index/search?type=hospitalfaculty&p=99&kw=%B8%BE%B2%FA%BF%C6")
//                            , 1000);doc = (Document) Jsoup.parse(new URL(mURL), 3000);} catch (IOException e) {e.printStackTrace();}//定位到列表Elements elements = doc.getElementsByClass("list");Elements childElements = elements.get(0).getAllElements();Element child = childElements.get(3);//获得所有的超链接的数据Elements aLinks = child.getElementsByTag("a");ArrayList<String> name = new ArrayList<>();ArrayList<String> address = new ArrayList<>();for (int i = 1; i <= aLinks.size(); i++) {Element e = aLinks.get(i - 1);if (e.attr("target").equals("_blank")) {//排除 科室介绍//排除 门诊时间if (!e.text().equals("科室介绍") && !e.text().equals("门诊时间")) {//                            System.out.println("--" + e.text());if (i % 2 == 0) {if (e.text().equals("") || e.text() == null) {address.add("");} else {address.add(e.text());}} else {if (e.text().equals("") || e.text() == null) {name.add("");} else {name.add(e.text());}}}}}//将长连接的内容删除child.select("a").remove();child.select("span").remove();child.select("br").remove();String tran = trans(child.toString());//                System.out.println(tran);String[] phones = tran.substring("     电  话:".length(), tran.length() - 1).split("电  话:");System.out.println();System.out.println();System.out.println();for (int i = 0; i < name.size(); i++) {//                    System.out.println(phones[i]);//                    //INSERT INTO info(hospital_name,address,phone) VALUES ('gg','hhh','ddd');StringBuffer bufferValue = new StringBuffer("INSERT INTO info(hospital_name,address,phone) VALUES (");//医院名bufferValue.append("'").append(name.get(i)).append("'");//医院地址bufferValue.append(",'").append(address.get(i)).append("'");//医院的电话bufferValue.append(",'").append(phones[i].trim()).append("');");printInfo(bufferValue.toString());}if (name.size() != 10) {System.out.println("name==" + mURL);}if (address.size() != 10) {System.out.println("address=" + mURL);}if (phones.length != 10) {System.out.println("phone=" + phones.length + " " + mURL);}} catch (Exception e) {e.printStackTrace();}}}}
  • Terminal写入sqlte

.open hospital.db
sqlite3 -init sql

总结

jsoup的使用很简单,有点像解析xml。不过结果很好的,因为5,6个人的工作就被这个简单的代码实现了。解析技巧有一个尽量清除不必要的标签。如代码:

       child.select("a").remove();child.select("span").remove();child.select("br").remove();
  • 学会用脚本收集数据
  • 注意多谢线程并发的安全,要检验,要不很易出错
  • 对于多线程的问题关键是要确保你的内容不被竞争弄乱,所以提取出来进行代码块是很重要的。

最后补充一下最终的效果如下图

这篇关于使用Jsoup抓取数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1089863

相关文章

springboot3.x使用@NacosValue无法获取配置信息的解决过程

《springboot3.x使用@NacosValue无法获取配置信息的解决过程》在SpringBoot3.x中升级Nacos依赖后,使用@NacosValue无法动态获取配置,通过引入SpringC... 目录一、python问题描述二、解决方案总结一、问题描述springboot从2android.x

SpringBoot整合AOP及使用案例实战

《SpringBoot整合AOP及使用案例实战》本文详细介绍了SpringAOP中的切入点表达式,重点讲解了execution表达式的语法和用法,通过案例实战,展示了AOP的基本使用、结合自定义注解以... 目录一、 引入依赖二、切入点表达式详解三、案例实战1. AOP基本使用2. AOP结合自定义注解3.

Python中Request的安装以及简单的使用方法图文教程

《Python中Request的安装以及简单的使用方法图文教程》python里的request库经常被用于进行网络爬虫,想要学习网络爬虫的同学必须得安装request这个第三方库,:本文主要介绍P... 目录1.Requests 安装cmd 窗口安装为pycharm安装在pycharm设置中为项目安装req

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

Python使用Matplotlib和Seaborn绘制常用图表的技巧

《Python使用Matplotlib和Seaborn绘制常用图表的技巧》Python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于Matplotlib和Seaborn,本篇... 目录1. 引言:数据可视化的力量2. 前置知识与环境准备2.1. 必备知识2.2. 安装所需库2.3

MySQL数据目录迁移的完整过程

《MySQL数据目录迁移的完整过程》文章详细介绍了将MySQL数据目录迁移到新硬盘的整个过程,包括新硬盘挂载、创建新的数据目录、迁移数据(推荐使用两遍rsync方案)、修改MySQL配置文件和重启验证... 目录1,新硬盘挂载(如果有的话)2,创建新的 mysql 数据目录3,迁移 MySQL 数据(推荐两

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

Linux内核定时器使用及说明

《Linux内核定时器使用及说明》文章详细介绍了Linux内核定时器的特性、核心数据结构、时间相关转换函数以及操作API,通过示例展示了如何编写和使用定时器,包括按键消抖的应用... 目录1.linux内核定时器特征2.Linux内核定时器核心数据结构3.Linux内核时间相关转换函数4.Linux内核定时

python中的flask_sqlalchemy的使用及示例详解

《python中的flask_sqlalchemy的使用及示例详解》文章主要介绍了在使用SQLAlchemy创建模型实例时,通过元类动态创建实例的方式,并说明了如何在实例化时执行__init__方法,... 目录@orm.reconstructorSQLAlchemy的回滚关联其他模型数据库基本操作将数据添