SolrCloud存储数据于HDFS的方法

2023-12-21 17:18

本文主要是介绍SolrCloud存储数据于HDFS的方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. 概述

  solrCloud数据存储在hdfs上的方法有两种,一是配置solr.in.sh脚本文件,比较简单的一种方式;二是配置solrconfig.xml配置文件, 比较繁琐点,需要更新到zookeeper上。

  说明:solrcloud部署是按照https://www.cnblogs.com/swordfall/p/11967385.html “Ranger安装部署 - solr安装”进行安装的,故本博文也是在此基础上进行hdfs相关配置的

2. 配置solr.in.sh文件

2.1. 索引数据存储在非HA的hdfs上

配置solr.in.sh文件,该文件位于/opt/app/ranger-solr-8.3.0-cloud/ranger_audit_server/scripts,修改内容为:

$ vim solr.in.sh
SOLR_OPTS="$SOLR_OPTS \
-Dsolr.directoryFactory=HdfsDirectoryFactory \
-Dsolr.lock.type=hdfs \
-Dsolr.hdfs.home=hdfs://bridge1:9000/solr"

 

解析:

  • solr.directoryFactory=HdfsDirectoryFactory 为固定配置;
  • solr.lock.type=hdfs 为固定配置;
  • solr.hdfs.home=hdfs://bridge1:9000/solr 为指定solr的索引数据在hdfs上的路径。

2.2. 索引数据存储在HA的hdfs上

配置solr.in.sh文件,该文件位于/opt/app/ranger-solr-8.3.0-cloud/ranger_audit_server/scripts,修改内容为:

$ vim solr.in.sh
SOLR_OPTS="$SOLR_OPTS \
-Dsolr.directoryFactory=HdfsDirectoryFactory \
-Dsolr.lock.type=hdfs \
-Dsolr.hdfs.confdir=/opt/app/hadoop-2.7.5-ha-multi/etc/hadoop \
-Dsolr.hdfs.home=hdfs://bridge/solr"

 

解析:

  • solr.hdfs.confdir=/opt/app/hadoop-2.7.5-ha-multi/etc/hadoop 为hdfs的ha配置路径;
  • solr.hdfs.home=hdfs://bridge/solr 为指定solr的索引数据在hdfs上的路径, bridge为hdfs的ha名。

3. 配置solrconfig.xml文件

3.1. solrconfig.xml配置在非HA与HA的hdfs上

3.1.1. 索引数据存储在非HA的hdfs上

配置solrconfig.xml文件,修改配置文件内容如下:

<dataDir>${solr.data.dir:}</dataDir><directoryFactory name="DirectoryFactory" class="solr.HdfsDirectoryFactory"><str name="solr.hdfs.home">hdfs://bridge1:8020/solr</str><bool name="solr.hdfs.blockcache.enabled">true</bool><int name="solr.hdfs.blockcache.slab.count">1</int><bool name="solr.hdfs.blockcache.direct.memory.allocation">true</bool><int name="solr.hdfs.blockcache.blocksperbank">16384</int><bool name="solr.hdfs.blockcache.read.enabled">true</bool><bool name="solr.hdfs.blockcache.write.enabled">true</bool><bool name="solr.hdfs.nrtcachingdirectory.enable">true</bool><int name="solr.hdfs.nrtcachingdirectory.maxmergesizemb">16</int><int name="solr.hdfs.nrtcachingdirectory.maxcachedmb">192</int>
</directoryFactory><lockType>${solr.lock.type:hdfs}</lockType>

 

解析:

  • ${solr.data.dir:} 为solr的索引数据存储的路径,一般为solr.hdfs.home的路径下面,如hdfs://bridge1:8020/solr/data,这种只适合集合的分片数量为1,即SHARDS,当分片为大于1的时候,将会报错,错误如下:
"192.168.1.11:6083_solr":"org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException:
Error from server at http://192.168.1.11:6083/solr: 
Error CREATEing SolrCore 'ranger_audits_shard1_replica_n1': Unable to create core [ranger_audits_shard1_replica_n1] 
Caused by: /solr/data/index/write.lock for client 192.168.1.11 already exists\n\tat 
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:2584)\n\tat 
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInt(FSNamesystem.java:2471)\n\tat 
org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:2355)\n\tat 
org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.create(NameNodeRpcServer.java:624)\n\tat 
org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.create(ClientNamenodeProtocolServerSideTranslatorPB.java:398)\n\tat 
org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)\n\tat
org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)\n\tat org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)\n\tat org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2217)\n\tat org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2213)\n\tat java.security.AccessController.doPrivileged(Native Method)\n\tat javax.security.auth.Subject.doAs(Subject.java:422)\n\tat org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1754)\n\tat org.apache.hadoop.ipc.Server$Handler.run(Server.java:2213)\n"

   为了解决上述错误,建议${solr.data.dir:}默认为空,不填。

  • solr.hdfs.home为solr的存储目录
  • solr.lock.type为solr的类型,指定为hdfs

3.1.2.  索引数据存储在HA的hdfs上

配置solrconfig.xml文件,修改配置文件内容如下:

<dataDir>${solr.data.dir:}</dataDir><directoryFactory name="DirectoryFactory" class="solr.HdfsDirectoryFactory">
<str name="solr.hdfs.home">hdfs://bridge1:8020/solr</str>
<str name="solr.hdfs.confdir">/opt/app/hadoop-2.7.5-ha-multi/etc/hadoop</str><bool name="solr.hdfs.blockcache.enabled">true</bool><int name="solr.hdfs.blockcache.slab.count">1</int><bool name="solr.hdfs.blockcache.direct.memory.allocation">true</bool><int name="solr.hdfs.blockcache.blocksperbank">16384</int><bool name="solr.hdfs.blockcache.read.enabled">true</bool><bool name="solr.hdfs.blockcache.write.enabled">true</bool><bool name="solr.hdfs.nrtcachingdirectory.enable">true</bool><int name="solr.hdfs.nrtcachingdirectory.maxmergesizemb">16</int><int name="solr.hdfs.nrtcachingdirectory.maxcachedmb">192</int>
</directoryFactory><lockType>${solr.lock.type:hdfs}</lockType>

 

解析:与非HA模式的配置的差别在于solr.hdfs.confdir

  • solr.hdfs.confdir为指定hdfs的配置路径

3.2. solrconfig.xml文件更新到zookeeper上

solrconfig.xml在本地机器修改,对solr不生效,只有更新到zookeeper上面才生效。这里有个更新脚本add_ranger_audits_conf_to_zk.sh,脚本路径位于/opt/app/ranger-solr-8.3.0-cloud/ranger_audit_server/scripts,如下:

function usage {echo "Error: The following properties need to be set in the script SOLR_ZK, SOLR_INSTALL_DIR and SOLR_RANGER_HOME"exit 1
}JAVA_HOME=/usr/lib/java/jdk1.8.0_151
SOLR_USER=solr
SOLR_ZK=bridge1:2181,bridge2:2181,bridge3:2181/ranger_audits
SOLR_INSTALL_DIR=/opt/app/ranger-solr-8.3.0-cloud
SOLR_RANGER_HOME=/opt/app/ranger-solr-8.3.0-cloud/ranger_audit_serverif [ "`whoami`" != "$SOLR_USER" ]; thenif [ -w /etc/passwd ]; thenecho "Running this script as $SOLR_USER..."su $SOLR_USER $0elseecho "ERROR: You need to run this script $0 as user $SOLR_USER. You are currently running it as `whoami`"fiexit 1
fiif [ "$SOLR_ZK" = "" ]; thenusage
fiif [ "$SOLR_INSTALL_DIR" = "" ]; thenusage
fiif [ "$SOLR_RANGER_HOME" = "" ]; thenusage
fiSOLR_RANGER_CONFIG_NAME=ranger_audits
SOLR_RANGER_CONFIG_LOCAL_PATH=${SOLR_RANGER_HOME}/conf
ZK_CLI=$SOLR_INSTALL_DIR/server/scripts/cloud-scripts/zkcli.shif [ ! -x $ZK_CLI ]; thenecho "Error: $ZK_CLI is not found or you don't have permission to execute it."exit 1
fi
set -x
$ZK_CLI -cmd upconfig -zkhost $SOLR_ZK -confname $SOLR_RANGER_CONFIG_NAME -confdir $SOLR_RANGER_CONFIG_LOCAL_PATH

 

解析:

  • JAVA_HOME设置JAVA_HOME路径
  • SOLR_USER solr用户
  • SOLR_ZK solr关联的zookeeper
  • SOLR_INSTALL_DIR solr安装目录
  • SOLR_RANGER_HOME solr关于ranger的安装目录
  • SOLR_RANGER_CONFIG_NAME solr的ranger集合名
  • SOLR_RANGER_CONFIG_LOCAL_PATH solrconfig.xml配置文件的路径
  • ZK_CLI zk_cli的路径

 

执行脚本:

$ pwd
/opt/app/ranger-solr-8.3.0-cloud/ranger_audit_server/scripts
$ ./add_ranger_audits_conf_to_zk.sh

4. solr集合创建脚本

create_ranger_audits_collection.sh,文件位于/opt/app/ranger-solr-8.3.0-cloud/ranger_audit_server/scripts,如下:

SOLR_HOST_URL=http://`hostname -f`:6083
SOLR_ZK=bridge1:2181,bridge2:2181,bridge3:2181/ranger_audits
SOLR_INSTALL_DIR=/opt/app/ranger-solr-8.3.0-cloud
SHARDS=2
REPLICATION=1CONF_NAME=ranger_audits
COLLECTION_NAME=ranger_auditswhich curl 2>&1 > /dev/null
if [ $? -ne 0 ]; thenecho "curl is not found. Please install it for creating the collection"exit 1
fiset -x
curl --negotiate -u : "${SOLR_HOST_URL}/solr/admin/collections?action=CREATE&name=${COLLECTION_NAME}&numShards=${SHARDS}&replicationFactor=${REPLICATION}&collection.configName=$CONF_NAME&maxShardsPerNode=100"

 

这里建议:由于数据存储在hdfs上,hdfs已有副本机制。故solr的副本REPLICATION设置为1,避免冗余。

解析:

  • SHARDS 分片根据部署的机器数量配置

5. solrconfig.xml文件是否更新成功检测

登录solr admin的网址,查看solr状态,如下,则成功将存储数据转移到hdfs上。

总结

【参考资料】

https://www.jianshu.com/p/026b5641786c Solr7.3 Cloud On HDFS搭建

https://lucene.apache.org/solr/guide/7_3/running-solr-on-hdfs.html

这篇关于SolrCloud存储数据于HDFS的方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/520843

相关文章

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

Java 方法重载Overload常见误区及注意事项

《Java方法重载Overload常见误区及注意事项》Java方法重载允许同一类中同名方法通过参数类型、数量、顺序差异实现功能扩展,提升代码灵活性,核心条件为参数列表不同,不涉及返回类型、访问修饰符... 目录Java 方法重载(Overload)详解一、方法重载的核心条件二、构成方法重载的具体情况三、不构

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

Python使用pip工具实现包自动更新的多种方法

《Python使用pip工具实现包自动更新的多种方法》本文深入探讨了使用Python的pip工具实现包自动更新的各种方法和技术,我们将从基础概念开始,逐步介绍手动更新方法、自动化脚本编写、结合CI/C... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

在Linux中改变echo输出颜色的实现方法

《在Linux中改变echo输出颜色的实现方法》在Linux系统的命令行环境下,为了使输出信息更加清晰、突出,便于用户快速识别和区分不同类型的信息,常常需要改变echo命令的输出颜色,所以本文给大家介... 目python录在linux中改变echo输出颜色的方法技术背景实现步骤使用ANSI转义码使用tpu

Conda与Python venv虚拟环境的区别与使用方法详解

《Conda与Pythonvenv虚拟环境的区别与使用方法详解》随着Python社区的成长,虚拟环境的概念和技术也在不断发展,:本文主要介绍Conda与Pythonvenv虚拟环境的区别与使用... 目录前言一、Conda 与 python venv 的核心区别1. Conda 的特点2. Python v

Spring Boot中WebSocket常用使用方法详解

《SpringBoot中WebSocket常用使用方法详解》本文从WebSocket的基础概念出发,详细介绍了SpringBoot集成WebSocket的步骤,并重点讲解了常用的使用方法,包括简单消... 目录一、WebSocket基础概念1.1 什么是WebSocket1.2 WebSocket与HTTP