java学习-GET方式抓取网页(UrlConnection和HttpClient) 参考

2024-08-30 08:58

本文主要是介绍java学习-GET方式抓取网页(UrlConnection和HttpClient) 参考,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

URL:http://www.cnblogs.com/gne-hwz/p/6952312.html


抓取网页其实就是模拟客户端(PC端,手机端。。。)发送请求,获得响应数据documentation,解析对应数据的过程。---自己理解,错误请告知

一般常用请求方式有GET,POST,HEAD三种

GET请求的数据是作为url的一部分,对于GET请求来说,附带数据长度有限制,数据安全性低

POST请求,数据作为标准数据传输给服务器,数据长度没有限制,数据通过加密传输,安全性高

HEAD类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头

闲话少说。

通过GET请求获取网页

UrlConnection下载网页通过InputStream读取数据,通过FileOutPutStream将数据写入文件

复制代码
public class DownloadHtml {/*** 方法说明:用于下载HTML页面*@param SrcPath  下载目标页面的URL*@param filePath 下载得到的HTML页面存放本地目录*@param fileName  下载页面的名字*/public static void downloadHtmlByNet(String SrcPath,String filePath,String fileName){try{URL url = new URL(SrcPath);URLConnection conn = url.openConnection();//设置超时间为3秒conn.setConnectTimeout(3*1000);//防止屏蔽程序抓取而返回403错误conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");//输出流InputStream str = conn.getInputStream();//控制流的大小为1kbyte[] bs = new byte[1024];//读取到的长度int len = 0;//是否需要创建文件夹File saveDir = new File(filePath);  if(!saveDir.exists()){  saveDir.mkdir();  }  File file = new File(saveDir+File.separator+fileName);   //实例输出一个对象FileOutputStream out = new FileOutputStream(file);//循环判断,如果读取的个数b为空了,则is.read()方法返回-1,具体请参考InputStream的read();while ((len = str.read(bs)) != -1) {//将对象写入到对应的文件中out.write(bs, 0, len);   }//刷新流
            out.flush();//关闭流
            out.close();str.close();        System.out.println("下载成功");}catch (Exception e) {e.printStackTrace();}}//测试public static void main(String[] args) {//下载网页
    url是要下载的指定网页,filepath存放文件的目录如
d:/resource/html/ ,filename指文件名如"下载的网页.html"

downloadHtmlByNet(url,filepath,filename);} }
复制代码

HttpClient是Apache Jakarta Common 下的子项目。提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包

复制代码
public static void downloadHtmlByNet(String SrcPath,String filePath,String fileName){DefaultHttpClient httpClient=new DefaultHttpClient();//初始化httpclientBasicHttpParams httpParams=new BasicHttpParams();//初始化参数
//模拟浏览器访问防止屏蔽程序抓取而返回403错误
user_agent="Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36
     

user_agent="Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)"
httpParams.setParameter("http.useragent", user_agent);httpClient.setParams(httpParams);try {HttpGet httpGet=new HttpGet(SrcPath);HttpContext httpContext=new BasicHttpContext();HttpResponse httpResponse=httpClient.execute(httpGet,httpContext);HttpEntity entity=httpResponse.getEntity();if(entity!=null){writeToFile(entity,filePath,fileName);//将entity内容输出到文件}} catch (ClientProtocolException e) {// TODO Auto-generated catch block
            e.printStackTrace();} catch (IOException e) {// TODO Auto-generated catch block
            e.printStackTrace();}finally {httpClient.getConnectionManager().shutdown();}}
复制代码
复制代码
private static void writeToFile(HttpEntity entity, String filepath, String filename) {//输出流try{InputStream str = entity.getContent();//控制流的大小为1kbyte[] bs = new byte[1024];//读取到的长度int len = 0;//是否需要创建文件夹File saveDir = new File(filePath);  if(!saveDir.exists()){saveDir.mkdir();  }File file = new File(saveDir+File.separator+fileName);//实例输出一个对象FileOutputStream out = new FileOutputStream(file);//循环判断,如果读取的个数b为空了,则is.read()方法返回-1,具体请参考InputStream的read();while ((len = str.read(bs)) != -1) {//将对象写入到对应的文件中out.write(bs, 0, len);   }//刷新流
        out.flush();//关闭流
        out.close();str.close();        System.out.println("下载成功");}catch(Exception e){e.printStackTrace();}}
复制代码



这篇关于java学习-GET方式抓取网页(UrlConnection和HttpClient) 参考的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1120362

相关文章

Java数组初始化的五种方式

《Java数组初始化的五种方式》数组是Java中最基础且常用的数据结构之一,其初始化方式多样且各具特点,本文详细讲解Java数组初始化的五种方式,分析其适用场景、优劣势对比及注意事项,帮助避免常见陷阱... 目录1. 静态初始化:简洁但固定代码示例核心特点适用场景注意事项2. 动态初始化:灵活但需手动管理代

Java使用SLF4J记录不同级别日志的示例详解

《Java使用SLF4J记录不同级别日志的示例详解》SLF4J是一个简单的日志门面,它允许在运行时选择不同的日志实现,这篇文章主要为大家详细介绍了如何使用SLF4J记录不同级别日志,感兴趣的可以了解下... 目录一、SLF4J简介二、添加依赖三、配置Logback四、记录不同级别的日志五、总结一、SLF4J

将Java项目提交到云服务器的流程步骤

《将Java项目提交到云服务器的流程步骤》所谓将项目提交到云服务器即将你的项目打成一个jar包然后提交到云服务器即可,因此我们需要准备服务器环境为:Linux+JDK+MariDB(MySQL)+Gi... 目录1. 安装 jdk1.1 查看 jdk 版本1.2 下载 jdk2. 安装 mariadb(my

SpringBoot中配置Redis连接池的完整指南

《SpringBoot中配置Redis连接池的完整指南》这篇文章主要为大家详细介绍了SpringBoot中配置Redis连接池的完整指南,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以... 目录一、添加依赖二、配置 Redis 连接池三、测试 Redis 操作四、完整示例代码(一)pom.

Java 正则表达式URL 匹配与源码全解析

《Java正则表达式URL匹配与源码全解析》在Web应用开发中,我们经常需要对URL进行格式验证,今天我们结合Java的Pattern和Matcher类,深入理解正则表达式在实际应用中... 目录1.正则表达式分解:2. 添加域名匹配 (2)3. 添加路径和查询参数匹配 (3) 4. 最终优化版本5.设计思

Java使用ANTLR4对Lua脚本语法校验详解

《Java使用ANTLR4对Lua脚本语法校验详解》ANTLR是一个强大的解析器生成器,用于读取、处理、执行或翻译结构化文本或二进制文件,下面就跟随小编一起看看Java如何使用ANTLR4对Lua脚本... 目录什么是ANTLR?第一个例子ANTLR4 的工作流程Lua脚本语法校验准备一个Lua Gramm

Java字符串操作技巧之语法、示例与应用场景分析

《Java字符串操作技巧之语法、示例与应用场景分析》在Java算法题和日常开发中,字符串处理是必备的核心技能,本文全面梳理Java中字符串的常用操作语法,结合代码示例、应用场景和避坑指南,可快速掌握字... 目录引言1. 基础操作1.1 创建字符串1.2 获取长度1.3 访问字符2. 字符串处理2.1 子字

Java Optional的使用技巧与最佳实践

《JavaOptional的使用技巧与最佳实践》在Java中,Optional是用于优雅处理null的容器类,其核心目标是显式提醒开发者处理空值场景,避免NullPointerExce... 目录一、Optional 的核心用途二、使用技巧与最佳实践三、常见误区与反模式四、替代方案与扩展五、总结在 Java

基于Java实现回调监听工具类

《基于Java实现回调监听工具类》这篇文章主要为大家详细介绍了如何基于Java实现一个回调监听工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录监听接口类 Listenable实际用法打印结果首先,会用到 函数式接口 Consumer, 通过这个可以解耦回调方法,下面先写一个

使用Java将DOCX文档解析为Markdown文档的代码实现

《使用Java将DOCX文档解析为Markdown文档的代码实现》在现代文档处理中,Markdown(MD)因其简洁的语法和良好的可读性,逐渐成为开发者、技术写作者和内容创作者的首选格式,然而,许多文... 目录引言1. 工具和库介绍2. 安装依赖库3. 使用Apache POI解析DOCX文档4. 将解析