Apache Zeppelin 中 R 解释器

2024-05-23 22:48
文章标签 apache 解释器 zeppelin

本文主要是介绍Apache Zeppelin 中 R 解释器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

概述

R是用于统计计算和图形的免费软件环境。

要在Apache Zeppelin中运行R代码和可视化图形,您将需要在主节点(或您的开发笔记本电脑)上使用R。

  • 对于Centos: yum install R R-devel libcurl-devel openssl-devel
  • 对于Ubuntu: apt-get install r-base

使用简单的R命令验证安装:

- "print(1+1)" 

要享受plots,请安装附加库:

+  devtools with `R  - "install.packages('devtools', repos = '<a href="http://cran.us.r-project.org%27%29/" "="" style="text-decoration-line: none; border-radius: 0px; background: 0px center; border: 0px; bottom: auto; float: none; height: auto; left: auto; line-height: 20px; margin: 0px; outline: 0px; overflow: visible; padding: 0px; position: static; right: auto; top: auto; vertical-align: baseline; width: auto; box-sizing: content-box; min-height: inherit; color: rgb(42, 0, 255) !important;">http://cran.us.r-project.org')" `
+  knitr with `R  - "install.packages('knitr', repos = '<a href="http://cran.us.r-project.org%27%29/" "="" style="text-decoration-line: none; border-radius: 0px; background: 0px center; border: 0px; bottom: auto; float: none; height: auto; left: auto; line-height: 20px; margin: 0px; outline: 0px; overflow: visible; padding: 0px; position: static; right: auto; top: auto; vertical-align: baseline; width: auto; box-sizing: content-box; min-height: inherit; color: rgb(42, 0, 255) !important;">http://cran.us.r-project.org')" `
+  ggplot2 with `R  - "install.packages('ggplot2', repos = '<a href="http://cran.us.r-project.org%27%29/" "="" style="text-decoration-line: none; border-radius: 0px; background: 0px center; border: 0px; bottom: auto; float: none; height: auto; left: auto; line-height: 20px; margin: 0px; outline: 0px; overflow: visible; padding: 0px; position: static; right: auto; top: auto; vertical-align: baseline; width: auto; box-sizing: content-box; min-height: inherit; color: rgb(42, 0, 255) !important;">http://cran.us.r-project.org')" `
+  Other vizualisation librairies: `R  - "install.packages(c('devtools','mplot', 'googleVis'), repos = 'http://cran.us.r-project.org'); require(devtools); install_github('ramnathv/rCharts')"

我们建议您还安装以下可选的R库,用于快乐的数据分析:

  • glmnet
  • PROC
  • data.table
  • caret
  • sqldf
  • wordcloud

 

配置

要使用R解释器运行Zeppelin,SPARK_HOME必须设置环境变量。最好的方式是编辑conf/zeppelin-env.sh。如果没有设置,R解释器将无法与Spark进行接口。

你也应该复制conf/zeppelin-site.xml.templateconf/zeppelin-site.xml。这将确保齐柏林首次见到R解释器。

 

使用R解释器

默认情况下,将R解释显示为两个Zeppelin解释器,%r%knitr

%r将表现得像普通REPL。您可以像CLI中一样执行命令。

R基本绘图得到完全支持

如果您返回一个data.frame,则Zeppelin将尝试使用Zeppelin的内置可视化进行显示。

%knitr接口直接针对knitr第一行的chunk选项:

两位解释器的环境相同。如果您定义了一个变量%r,那么如果您使用一个调用,它将在范围内knitr

 

使用SparkR&语言间移动

如果SPARK_HOME设置,SparkR包将自动加载:

星火上下文和语境SQL创建并注入当地环境自动scsql

同样的情况下与共享%spark%sql%pyspark解释:

您还可以使普通的R变量在scala和Python中可访问:

反之亦然:

 

警告和故障排除

  • R解释器几乎所有的问题都是由于错误设置造成的SPARK_HOME。R解释器必须加载SparkR与运行版本的Spark匹配的软件包版本,并通过搜索来实现SPARK_HOME。如果Zeppelin未配置为与Spark接口SPARK_HOME,则R解释器将无法连接到Spark。

  • knitr环境是持久的。如果您从Zeppelin运行一个更改变量的块,则再次运行相同的块,该变量已被更改。使用不变变量。

  • (请注意,%spark.r%r是调用同一解释的两种不同的方式,因为是%spark.knitr%knitr默认情况下,Zeppelin将R解释器放在%spark.翻译组。

  • 使用%r解释器,如果你返回一个data.frame,HTML或一个图像,它将主导结果。所以如果你执行三个命令,一个是hist(),所有你会看到的是直方图,而不是其他命令的结果。这是一个Zeppelin限制。

  • 如果您从解释器返回data.frame(例如,从调用head()%spark.r,则将由Zeppelin的内置数据可视化系统进行解析。

  • 为什么knitr不是的rmarkdown?为什么没有htmlwidgets?为了支持htmlwidgets,它具有间接依赖,rmarkdown使用pandoc,这需要写入和读取光盘。这使它比knitrRAM完全运行的速度慢许多倍。

  • 为什么不ggvisshiny?支持shiny需要将反向代理集成到Zeppelin中,这是一项任务。

  • 最大的OS X和不区分大小写的文件系统。如果您尝试安装在不区分大小写的文件系统(Mac OS X默认值)上,则maven可能无意中删除安装目录,因为r它们R成为相同的子目录。

  • 错误unable to start device X11与REPL解释。检查你的shell登录脚本,看看它们是否在DISPLAY调整环境变量。这在某些操作系统上是常见的,作为ssh问题的解决方法,但可能会干扰R绘图。

  • akka库版本或TTransport错误。如果您尝试使用SPARK_HOME运行Zeppelin,该版本的Spark版本与-Pspark-1.x编译Zeppelin时指定的版本不同。


这篇关于Apache Zeppelin 中 R 解释器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/996635

相关文章

深入理解Apache Airflow 调度器(最新推荐)

《深入理解ApacheAirflow调度器(最新推荐)》ApacheAirflow调度器是数据管道管理系统的关键组件,负责编排dag中任务的执行,通过理解调度器的角色和工作方式,正确配置调度器,并... 目录什么是Airflow 调度器?Airflow 调度器工作机制配置Airflow调度器调优及优化建议最

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

Apache Tomcat服务器版本号隐藏的几种方法

《ApacheTomcat服务器版本号隐藏的几种方法》本文主要介绍了ApacheTomcat服务器版本号隐藏的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1. 隐藏HTTP响应头中的Server信息编辑 server.XML 文件2. 修China编程改错误

SpringBoot使用Apache POI库读取Excel文件的操作详解

《SpringBoot使用ApachePOI库读取Excel文件的操作详解》在日常开发中,我们经常需要处理Excel文件中的数据,无论是从数据库导入数据、处理数据报表,还是批量生成数据,都可能会遇到... 目录项目背景依赖导入读取Excel模板的实现代码实现代码解析ExcelDemoInfoDTO 数据传输

Apache Tiles 布局管理器

陈科肇 =========== 1.简介 一个免费的开源模板框架现代Java应用程序。  基于该复合图案它是建立以简化的用户界面的开发。 对于复杂的网站,它仍然最简单,最优雅的方式来一起工作的任何MVC技术。 Tiles允许作者定义页面片段可被组装成在运行一个完整的网页。  这些片段,或Tiles,可以用于为了降低公共页面元素的重复,简单地包括或嵌入在其它瓦片,制定了一系列可重复使用

Apache HttpClient使用详解

转载地址:http://eksliang.iteye.com/blog/2191017 Http协议的重要性相信不用我多说了,HttpClient相比传统JDK自带的URLConnection,增加了易用性和灵活性(具体区别,日后我们再讨论),它不仅是客户端发送Http请求变得容易,而且也方便了开发人员测试接口(基于Http协议的),即提高了开发的效率,也方便提高代码的健壮性。因此熟

开源Apache服务器安全防护技术精要及实战

Apache 服务简介   Web服务器也称为WWW服务器或HTTP服务器(HTTPServer),它是Internet上最常见也是使用最频繁的服务器之一,Web服务器能够为用户提供网页浏览、论坛访问等等服务。   由于用户在通过Web浏览器访问信息资源的过程中,无须再关心一些技术性的细节,而且界面非常友好,因而Web在Internet上一推出就得到了爆炸性的发展。现在Web服务器已

Java中WebService接口的生成、打包成.exe、设置成Windows服务、及其调用、Apache CXF调用

一、Java中WebService接口的生成: 1、在eclipse工具中新建一个普通的JAVA项目,新建一个java类:JwsServiceHello.java package com.accord.ws;import javax.jws.WebMethod;import javax.jws.WebService;import javax.xml.ws.Endpoint;/*** Ti

【虚拟机/服务器】XAMPP错误: Apache shutdown unexpectedly解决办法

XAMPP安装好之后启动,但有些用户在启动apache的时候会出现: 11:41:38 [Apache] Status change detected: running11:41:38 [Apache] Status change detected: stopped11:41:38 [Apache] Error: Apache shutdown unexpectedly.11:41:38

windows下安装apache及php需要注意的问题

1.php5.2版本不扩展模块顺序有问题 把php_mbstring.dll放在php_exif.dll上面,后者依赖前者