使用livy提交supermap iobjects for spark任务

2024-02-25 10:18

本文主要是介绍使用livy提交supermap iobjects for spark任务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用Livy提交SuperMap iObjects Spark任务

​ Livy是一个提供标准rest接口和spark集群交互的服务,从官网的介绍来看它具备以下特点:多用户多客户端(web/iMobile)的提交方式、支持提交多种编程语言(scala/java/python)的执行代码片段和执行Jar包、现有spark项目可立即使用Livy且无需任何项目的改动、同步或异步的返回执行结果、提供SparkContext的管理,总之通过restfull接口或RPC客户端库,它简化了与spark应用的交互。本文简单演示如何通过Livy提交超图spark组件的执行任务。

在这里插入图片描述

环境
  • spark-2.1.1-bin-hadoop2.7
  • hadoop-2.7.3
  • supermap iobjects for spark 901、supermap iobjects for java 901
  • Apache Livy 0.5.0-incubating (zip)
Livy配置
  • 前提已部署好spark,hadoop应用环境

  • 部署及启动

    # 解压zip
    unzip Livy-0.5.0-incubating.zip 
    # 添加Livy的conf及sh文件的配置
    cd /opt/livy-0.5.0-incubating-bin/conf
    # conf文件添加下面三个参数--其他参数参考官网
    vi livy.conf
    livy.server.host = 192.168.31.130
    livy.server.port = 8998
    livy.spark.master = spark://192.168.31.130:7077
    # sh文件添加下面三个参数--其他参数参考官网
    vi livy-env.sh
    JAVA_HOME=/opt/jdk1.8.0_151
    HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop
    SPARK_HOME=/opt/spark-2.1.1-bin-hadoop2.7
    # 启动livy服务前,创建log文件目录,启动spark及hadoop
    mkdir logs #与bin目录同级
    ./livy-server start 
    

在这里插入图片描述

Livy与Spark交互提供了rest接口,也提供了编程语言的接口,支持spark的local、standlone、yarn集群模式,接下来我们采用简单的rest接口进行交互,使用python的request库与livy进行交互:
  • 创建session

    #由于需要依赖supermap spark组件的库,构建session时需要将依赖的jar添加到spark的jvm进程里,可以采用livy构建session提供的“jars”键来指定需要提交的jar列表。但我们采用了一种简单的方式-把依赖库com.supermap.bdt.core-9.1.0.jar直接放入spark的jars目录。
    #构建session,是一个长连接,构建前一定要把依赖库jar放入spark的jars目录。
    import json, pprint, requests, textwrap
    host = 'http://192.168.31.130:8998'
    data = {'kind': 'spark'}
    headers = {'Content-Type': 'application/json'}
    r = requests.post(host + '/sessions', data=json.dumps(data), headers=headers)
    session_url = host + r.headers['location']
    session_url
    # 构建成功,从下图可以看见id为0的session,运行状态是运行中,在spark里也能看见启动了一个应用。
    

在这里插入图片描述

在这里插入图片描述

  • 提交读取udb的任务

    # 以执行代码判断方式提交一个任务
    # 注意:supermap iobjects spark产品提供了scala和python的api,故此任务包裹的执行代码是scala执行代码。
    statements_url = session_url + '/statements'
    data = {'code': textwrap.dedent("""val filem=\"/home/yb/opt/supermap-spark-9.0.0/data/NYCData.udb\";val roadRDD = com.supermap.bdt.io.sdx.SDXReader.readFromUDB(sc,filem,\"zones\");val str = roadRDD.count();println("记录总数"+str)""")
    }
    r = requests.post(statements_url, data=json.dumps(data), headers=headers)
    r.json()
    # 任务执行结果在log里查看如截图
    

在这里插入图片描述

  • 提交读取hdfs系统上csv任务
statements_url = session_url + '/statements'
data = {'code': textwrap.dedent("""val filem=\"hdfs://192.168.31.130:9000/test/Convert.csv\";val roadRDD = com.supermap.bdt.io.simpleCSV.SimpleCSVReader.read(sc,filem);val str = roadRDD.count();println("记录总数"+str)""")
}
r = requests.post(statements_url, data=json.dumps(data), headers=headers)
r.json()
# 任务执行结果采用rest接口(session的id加statements的id)查看

在这里插入图片描述

简单的Livy入门介绍到此,至于如何提交已打包的jar文件,可以参考livy的batches批提交里的"file"和"className "参数,如需深度使用,如获取任务状态、删除session等,自行参考livy-rest-api

这篇关于使用livy提交supermap iobjects for spark任务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/745171

相关文章

如何使用Docker部署FTP和Nginx并通过HTTP访问FTP里的文件

《如何使用Docker部署FTP和Nginx并通过HTTP访问FTP里的文件》本文介绍了如何使用Docker部署FTP服务器和Nginx,并通过HTTP访问FTP中的文件,通过将FTP数据目录挂载到N... 目录docker部署FTP和Nginx并通过HTTP访问FTP里的文件1. 部署 FTP 服务器 (

MySQL 日期时间格式化函数 DATE_FORMAT() 的使用示例详解

《MySQL日期时间格式化函数DATE_FORMAT()的使用示例详解》`DATE_FORMAT()`是MySQL中用于格式化日期时间的函数,本文详细介绍了其语法、格式化字符串的含义以及常见日期... 目录一、DATE_FORMAT()语法二、格式化字符串详解三、常见日期时间格式组合四、业务场景五、总结一、

Python中配置文件的全面解析与使用

《Python中配置文件的全面解析与使用》在Python开发中,配置文件扮演着举足轻重的角色,它们允许开发者在不修改代码的情况下调整应用程序的行为,下面我们就来看看常见Python配置文件格式的使用吧... 目录一、INI配置文件二、YAML配置文件三、jsON配置文件四、TOML配置文件五、XML配置文件

Go使用pprof进行CPU,内存和阻塞情况分析

《Go使用pprof进行CPU,内存和阻塞情况分析》Go语言提供了强大的pprof工具,用于分析CPU、内存、Goroutine阻塞等性能问题,帮助开发者优化程序,提高运行效率,下面我们就来深入了解下... 目录1. pprof 介绍2. 快速上手:启用 pprof3. CPU Profiling:分析 C

MySQL InnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据

《MySQLInnoDB引擎ibdata文件损坏/删除后使用frm和ibd文件恢复数据》mysql的ibdata文件被误删、被恶意修改,没有从库和备份数据的情况下的数据恢复,不能保证数据库所有表数据... 参考:mysql Innodb表空间卸载、迁移、装载的使用方法注意!此方法只适用于innodb_fi

Python中conda虚拟环境创建及使用小结

《Python中conda虚拟环境创建及使用小结》本文主要介绍了Python中conda虚拟环境创建及使用小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录0.前言1.Miniconda安装2.conda本地基本操作3.创建conda虚拟环境4.激活c

Spring中@Lazy注解的使用技巧与实例解析

《Spring中@Lazy注解的使用技巧与实例解析》@Lazy注解在Spring框架中用于延迟Bean的初始化,优化应用启动性能,它不仅适用于@Bean和@Component,还可以用于注入点,通过将... 目录一、@Lazy注解的作用(一)延迟Bean的初始化(二)与@Autowired结合使用二、实例解

SpringBoot使用Jasypt对YML文件配置内容加密的方法(数据库密码加密)

《SpringBoot使用Jasypt对YML文件配置内容加密的方法(数据库密码加密)》本文介绍了如何在SpringBoot项目中使用Jasypt对application.yml文件中的敏感信息(如数... 目录SpringBoot使用Jasypt对YML文件配置内容进行加密(例:数据库密码加密)前言一、J

Spring Boot 中正确地在异步线程中使用 HttpServletRequest的方法

《SpringBoot中正确地在异步线程中使用HttpServletRequest的方法》文章讨论了在SpringBoot中如何在异步线程中正确使用HttpServletRequest的问题,... 目录前言一、问题的来源:为什么异步线程中无法访问 HttpServletRequest?1. 请求上下文与线

在 Spring Boot 中使用异步线程时的 HttpServletRequest 复用问题记录

《在SpringBoot中使用异步线程时的HttpServletRequest复用问题记录》文章讨论了在SpringBoot中使用异步线程时,由于HttpServletRequest复用导致... 目录一、问题描述:异步线程操作导致请求复用时 Cookie 解析失败1. 场景背景2. 问题根源二、问题详细分