本文主要是介绍java 抓取app数据_Java实现爬虫给App提供数据(Jsoup 网络爬虫),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一、需求
最近基于 Material Design 重构了自己的新闻 App,数据来源是个问题。
有前人分析了知乎日报、凤凰新闻等 API,根据相应的 URL 可以获取新闻的 JSON 数据。为了锻炼写代码能力,笔者打算爬虫新闻页面,自己获取数据构建 API。
二、效果图
下图是原网站的页面
爬虫获取了数据,展示到 APP 手机端
三、爬虫思路
关于App 的实现过程可以参看这几篇文章,本文主要讲解一下如何爬虫数据。
Android下录制App操作生成Gif动态图的全过程 :#/article/78236.htm
学习Android Material Design(RecyclerView代替ListView):#/article/78232.htmAndroid项目实战之仿网易新闻的页面(RecyclerView ):#/article/78230.htm
Jsoup 简介
Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。
Jsoup主要有以下功能:
- 从一个URL,文件或字符串中解析HTML;
- 使用DOM或CSS选择器来查找、取出数据;
- 对HTML元素、属性、文本进行操作;
- 清除不受信任的HTML (来防止XSS攻击)
四、爬虫过程
Get 请求获取网页 HTML
新闻网页Html的DOM树如下所示:
下面这段代码根据指定的 url,用代码获取get 请求返回的 html 源代码。
public static String doGet(String urlStr) throws CommonException {
URL url;
String html = "";
try {
url = new URL(urlStr);
HttpURLConnection connection = (HttpURLConnection) url.openConnection();
connection.setRequestMethod("GET");
connection.setConnectTimeout(5000);
connection.setDoInput(true);
connection.setDoOutput(true);
if (connection.getResponseCode() == 200) {
InputStream in = connect
这篇关于java 抓取app数据_Java实现爬虫给App提供数据(Jsoup 网络爬虫)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!