网络爬虫--HtmlUnit

2024-05-14 14:58
文章标签 html 网络 爬虫 frontend unit

本文主要是介绍网络爬虫--HtmlUnit,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、简介
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一
2、官方API文档
HtmlUnit官网API文档
3、pom文件

<dependency><groupId>net.sourceforge.htmlunit</groupId><artifactId>htmlunit</artifactId><version>2.26</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.21</version></dependency>

4、测试代码

package com.sun.htmlunit;import org.junit.Test;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.DomElement;
import com.gargoylesoftware.htmlunit.html.DomNodeList;
import com.gargoylesoftware.htmlunit.html.HtmlDivision;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSubmitInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;/*** htmlunit测试* @author sunt* @dade 2017年4月17日上午11:04:22* @version v1.0*/
public class HtmlUnitTestDemo {/*** 日志*/private static Logger logger = LoggerFactory.getLogger(HtmlUnitTestDemo.class);/*** htmlunit入门测试*/@Testpublic void test1() {//实例化web客户端WebClient client = new WebClient();try {//解析请求url页面HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.info("===========>获取请求页面的html:" + page.asXml());logger.info("=============>获取请求页面内容:" + page.asText());} catch (Exception e) {logger.error("=====HtmlUnitTestDemo===test1===>" + e.getMessage());}finally{//关闭客户端、释放内存client.close();}}/*** 模拟浏览器的请求,解决部分网址拒绝访问*/@Testpublic void test2() {//初始化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {HtmlPage page = client.getPage("http://mvnrepository.com");logger.debug("=====================>获取请求页面的html内容:" + page.asXml());} catch (Exception e) {logger.error("=======test2==========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 获取指定元素*/@Testpublic void test3() {//初始化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");//获取指定id的html内容HtmlDivision division = page.getHtmlElementById("navMenu");logger.debug("================>指定html的内容:" + division.asXml());//通过name获取html内容DomNodeList<DomElement> tagList = page.getElementsByTagName("a");for (DomElement domElement : tagList) {logger.debug("===========>byTagName:" + domElement.asXml());}} catch (Exception e) {logger.error("=====test3===========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 模拟点击事件实现搜索功能*/@Testpublic void test4() {//实例化web客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);try {//获取解析的页面HtmlPage page = client.getPage("http://blog.java1234.com/index.html");//获取提交的表单HtmlForm form = page.getFormByName("myform");//获取输入框HtmlTextInput input = form.getInputByName("q");//获取提交的按钮HtmlSubmitInput submitInput = form.getInputByName("submitButton");for (int i = 0; i < 1000; i++) {//设置输入框的值input.setValueAttribute("java" + i);//模拟点击、提交表单HtmlPage result = submitInput.click();logger.info("===========>搜索的结果:" + result.asXml());}} catch (Exception e) {logger.error("===========test4========>" + e.getMessage());}finally{//关闭客户端释放内存client.close();}}/*** 代理IP*/@Testpublic void test5() {//初始化客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52, "58.118.185.100", 8998);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.debug("=======html内容:====>" + page.asXml());} catch (Exception e) {logger.error("===========test5=========>" + e.getMessage());}finally{client.close();}}/*** 对于非js加载的页面取消js和css的解析*/@Testpublic void test6() {//实例化客户端WebClient client = new WebClient(BrowserVersion.FIREFOX_52);//取消客户端对js和css的解析client.getOptions().setCssEnabled(false);client.getOptions().setJavaScriptEnabled(false);try {HtmlPage page = client.getPage("http://blog.csdn.net/u010427935");logger.debug("==============>获取的html内容:" + page.asXml());} catch (Exception e) {logger.error("========error========test6====>" + e.getMessage());}finally{client.close();}}/*** 爬取ajax加载的页面httpclient无法抓去到数据*/@Testpublic void test7() {WebClient client = new WebClient(BrowserVersion.FIREFOX_52);HtmlPage page = null;try {page = client.getPage("https://pan.baidu.com/share/home?uk=305605848#category/type=0");//线程休眠等待js加载Thread.sleep(10000);logger.info("==========>抓去到的html内容:" + page.asXml());} catch (Exception e) {logger.error("=====error===test7=====>" + e.getMessage());}finally{client.close();}}
}

这篇关于网络爬虫--HtmlUnit的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/989059

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

【 html+css 绚丽Loading 】000046 三才归元阵

前言:哈喽,大家好,今天给大家分享html+css 绚丽Loading!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏+关注哦 💕 目录 📚一、效果📚二、信息💡1.简介:💡2.外观描述:💡3.使用方式:💡4.战斗方式:💡5.提升:💡6.传说: 📚三、源代码,上代码,可以直接复制使用🎥效果🗂️目录✍️

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

计算机毕业设计 大学志愿填报系统 Java+SpringBoot+Vue 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点赞 👍 收藏 ⭐评论 📝 🍅 文末获取源码联系 👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~Java毕业设计项目~热门选题推荐《1000套》 目录 1.技术选型 2.开发工具 3.功能

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边