使用shell脚本定时采集日志数据到hdfs分布式文件系统

本文主要是介绍使用shell脚本定时采集日志数据到hdfs分布式文件系统，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

使用shell脚本定时采集日志数据到hdfs分布式文件系统

1、首先对linux操作系统的crontab命令进行熟悉和了解：

1、crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程，与windows下的计划任务类似，当安装完成操作系统后，默认会安装此服务工具，并且会自动启动crond进程，crond进程每分钟会定期检查是否有要执行的任务，如果有要执行的任务，则自动执行该任务。
2、Linux下的任务调度分为两类，系统任务调度和用户任务调度。
　　a、系统任务调度：系统周期性所要执行的工作，比如写缓存数据到硬盘、日志清理等。在/etc目录下有一个crontab文件，这个就是系统任务调度的配置文件。
　　b、用户任务调度：用户定期要执行的工作，比如用户数据备份、定时邮件提醒等。用户可以使用 crontab 工具来定制自己的计划任务。所有用户定义的crontab 文件都被保存在 /var/spool/cron目录中。其文件名与用户名一致。
　　c、使用者权限文件：/etc/cron.deny，该文件中所列用户不允许使用crontab命令。
　　d、使用者权限文件：/etc/cron.allow，该文件中所列用户允许使用crontab命令。
　　e、使用者权限文件：/var/spool/cron/，所有用户crontab文件存放的目录,以用户名命名。
3、crontab文件的含义：
　　a、用户所建立的crontab文件中，每一行都代表一项任务，每行的每个字段代表一项设置，它的格式共分为六个字段，前五段是时间设定段，第六段是要执行的命令段，格式如下：
　　　　minute   hour   day   month   week   command；
　　b、其中：
　　　　minute：表示分钟，可以是从0到59之间的任何整数。
　　　　hour：表示小时，可以是从0到23之间的任何整数。
　　　　day：表示日期，可以是从1到31之间的任何整数。
　　　　month：表示月份，可以是从1到12之间的任何整数。
　　　　week：表示星期几，可以是从0到7之间的任何整数，这里的0或7代表星期日。
　　　　command：要执行的命令，可以是系统命令，也可以是自己编写的脚本文件。
　　c、在以上各个字段中，还可以使用以下特殊字符：
　　　　星号（*）：代表所有可能的值，例如month字段如果是星号，则表示在满足其它字段的制约条件后每月都执行该命令操作。
　　　　逗号（,）：可以用逗号隔开的值指定一个列表范围，例如，“1,2,5,7,8,9”
　　　　中杠（-）：可以用整数之间的中杠表示一个整数范围，例如“2-6”表示“2,3,4,5,6”
　　　　正斜线（/）：可以用正斜线指定时间的间隔频率，例如“0-23/2”表示每两小时执行一次。同时正斜线可以和星号一起使用，例如*/10，如果用在minute字段，表示每十分钟执行一次。
4、安装crontab：
　　[root@slaver1 hadoop]# yum install crontabs
　　[root@slaver1 hadoop]# service crond status          #查看状态
　　[root@slaver1 hadoop]# /sbin/service crond stop     #关闭服务
　　[root@slaver1 hadoop]# /sbin/service crond start    #启动服务
　　[root@slaver1 hadoop]# /sbin/service crond restart  #重启服务
　　[root@slaver1 hadoop]# /sbin/service crond reload   #重新载入配置
　　[root@slaver1 hadoop]# service crond start          #手动启动crontab服务
　　[root@slaver1 hadoop]# ntsysv                       #查看crontab服务是否已设置为开机启动，执行命令
　　[root@slaver1 hadoop]# chkconfig –level 35 crond on #加入开机自动启动
5、crontab命令详解:
　　a、命令格式：
　　　　crontab [-u user] file
　　　　crontab [-u user] [ -e | -l | -r ]
　　b、命令功能：
　　　　通过crontab 命令，我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。这个命令非常设合周期性的日志分析或数据备份等工作。
　　c、命令参数：
　　　　-u user：用来设定某个用户的crontab服务，例如，“-u ixdba”表示设定ixdba用户的crontab服务，此参数一般有root用户来运行。
　　　　file：file是命令文件的名字,表示将file做为crontab的任务列表文件并载入crontab。如果在命令行中没有指定这个文件，crontab命令将接受标准输入（键盘）上键入的命令，并将它们载入crontab。
　　　　-e：编辑某个用户的crontab文件内容。如果不指定用户，则表示编辑当前用户的crontab文件。
　　　　-l：显示某个用户的crontab文件内容，如果不指定用户，则表示显示当前用户的crontab文件内容。
　　　　-r：从/var/spool/cron目录中删除某个用户的crontab文件，如果不指定用户，则默认删除当前用户的crontab文件。
　　　　-i：在删除用户的crontab文件时给确认提示。
　　d、常用方法：
　　　　1). 创建一个新的crontab文件
　　　　　　在考虑向cron进程提交一个crontab文件之前，首先要做的一件事情就是设置环境变量EDITOR。cron进程根据它来确定使用哪个编辑器编辑crontab文件。9 9 %的UNIX和LINUX用户都使用vi，如果你也是这样，那么你就编辑$ HOME目录下的. profile文件，在其中加入这样一行：
　　　　　　EDITOR=vi; export EDITOR
　　　　　　然后保存并退出。不妨创建一个名为<user> cron的文件，其中<user>是用户名，例如， davecron。在该文件中加入如下的内容。
      　　　　# (put your own initials here)echo the date to the console every
      　　　　# 15minutes between 6pm and 6am
     　　　　 0,15,30,45 18-06 * * * /bin/echo 'date' > /dev/console
    　　　　保存并退出。确信前面5个域用空格分隔。
　　　　　　在上面的例子中，系统将每隔1 5分钟向控制台输出一次当前时间。如果系统崩溃或挂起，从最后所显示的时间就可以一眼看出系统是什么时间停止工作的。在有些系统中，用tty1来表示控制台，可以根据实际情况对上面的例子进行相应的修改。为了提交你刚刚创建的crontab文件，可以把这个新创建的文件作为cron命令的参数：
     　　　　$ crontab davecron
　　　　　　现在该文件已经提交给cron进程，它将每隔1 5分钟运行一次。
　　　　　　同时，新创建文件的一个副本已经被放在/var/spool/cron目录