OpenCSV处理反斜线 \ ,将.csv文件映射为Java对象落库clickhouse

2023-10-12 08:20

本文主要是介绍OpenCSV处理反斜线 \ ,将.csv文件映射为Java对象落库clickhouse,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、关键:RFC4180Parser

1、默认情况下,CSVReader使用双反斜线(’\’)作为其转义字符。同时,CSVWriter使用双引号(’“’)作为转义字符。
因此,反斜线字符会导致不正确的转义。在读数据时,CSVParser将忽略单个反斜线字符,因为它是转义字符。  
CSVReader使用CSVParser解析CSV数据。2、OpenCSV还提供了一个严格遵循RFC4180标准的解析器:RFC4180Parser。
使用 RFC4180Parser 解析器,CSVReader会以双引号(’“’)作为转义字符,这样就可以与CSVWriter的转义方式保持一致。

二、原始需求

使用定时任务,将用户的行为日志数据文件(.csv)解析为java对象,并批量落入clickhouse数据库(MySQL亦同理)。
行为日志包含:网站访问日志、文件上传日志等数据

三、具体方案:本文着重介绍第3点

  • 1、springboot+mybatis配置clickhouse(略) 点击前往

  • 2、spring的定时任务@Scheduled

 /*** 1、每天00:05,将当天的用户行为日志文件解压至指定文件夹*/@Scheduled(cron = "0 5 0 * * ?")public void unZipFile() {/** 1、解压当天拉取的前一天行为日志文件到指定文件夹下 **/log.info("时间:"+DateUtils.getCurrentDateStr()+",开始解压文件 filePath:" + filePath + ",unZipPath:" + unZipPath);fileUnzipService.unZip(filePath + DateUtils.getYestoday(DateUtils.YYMMDD), unZipPath + DateUtils.getYestoday(DateUtils.YY_MM_DD) + "/");}/*** 2、每天00:30,将前一天解压后的用户行为日志文件数据同步至clickhouse* 具体为clickhouse库的 xxx 表* 3、入库完成后,删除前一天(昨天)同步目录下的行为日志文件,并且删除前两天(前天)解压目录下的日志文件,减少对服务器存储资源的占用*/@Scheduled(cron = "0 30 0 * * ?")public void syncUserLogFromFileToCK() {//1、解析.csv文件映射为java对象;//2、批量入库clickhouse,并记录每天不同日志类型入库的数据条数,方便后续查看}

- 3、openCSV解析.csv映射为java对象

四、实施步骤:

.csv文件数据demo(基于文件数据创建clickhouse对应的表以及映射的java对象)
在这里插入图片描述

  • 1、openCSV jar包引入
 <dependency><groupId>com.opencsv</groupId><artifactId>opencsv</artifactId><version>4.6</version>
</dependency>
  • 2、serviceImpl代码(依次对应3种不同类型日志)
/**- @author: Lucy- @version:- @createTime: 2021/5/19 10:51- @Description: 使用opencsv解析csv文件(基于字段名的映射)并进行ORM映射为对象集合 需- 注意CSV文件中列的内容包含转义字符 "\"的问题- 指定转换类型的注解主要有@CsvCustomBindByName和@CsvCustomBindByPosition这2种,分别对应基于字段名的映射和基于字段位置的映射。*/
@Service
@Slf4j
public class CsvParseLogServiceImpl implements CsvParseLogService {@Overridepublic List<UserBehaviorsOtherLog> parseOtherByName(File file) throws IOException {InputStreamReader inputStream = new InputStreamReader(new FileInputStream(file), StandardCharsets.UTF_8);// 设置解析策略,csv的头和POJO属性的名称对应,也可以使用@CsvBindByName注解来指定名称HeaderColumnNameMappingStrategy strategy = new HeaderColumnNameMappingStrategy();strategy.setType(UserBehaviorsOtherLog.class);CsvToBean csvToBean = new CsvToBeanBuilder(inputStream).withMappingStrategy(strategy)//文件中使用的分割符 默认为逗号分割//.withSeparator(',').build();List<UserBehaviorsOtherLog> csvDTOList = csvToBean.parse();return csvDTOList;}@Overridepublic List<UserBehaviorsUpfileLog> parseUpfileByName(File file) throws IOException {InputStreamReader inputStream = new InputStreamReader(new FileInputStream(file), StandardCharsets.UTF_8);// 设置解析策略,csv的头和POJO属性的名称对应,也可以使用@CsvBindByName注解来指定名称HeaderColumnNameMappingStrategy strategy = new HeaderColumnNameMappingStrategy();strategy.setType(UserBehaviorsUpfileLog.class);CsvToBean csvToBean = new CsvToBeanBuilder(inputStream).withMappingStrategy(strategy)//文件中使用的分割符 默认为逗号分割//.withSeparator(',').build();List<UserBehaviorsUpfileLog> csvDTOList = csvToBean.parse();return csvDTOList;}/*** 默认情况下,CSVReader使用双反斜线(’\’)作为其转义字符。同时,CSVWriter使用双引号(’“’)作为转义字符。* 因此,反斜线字符会导致不正确的转义。在读数据时,CSVParser将忽略单个反斜线字符,因为它是转义字符。* CSVReader使用CSVParser解析CSV数据。OpenCSV还提供了一个严格遵循RFC4180标准的解析器:RFC4180Parser。* 使用RFC4180Parser解析器,CSVReader会以双引号(’“’)作为转义字符,这样就可以与CSVWriter的转义方式保持一致。* @param file* @return* @throws IOException*/@Overridepublic List<UserBehaviorsUrlLog> parseUrlByName(File file) throws IOException {RFC4180Parser rfc4180Parser = new RFC4180ParserBuilder().build();CSVReader inputStream = new CSVReaderBuilder(new InputStreamReader(new FileInputStream(file), StandardCharsets.UTF_8)).withCSVParser(rfc4180Parser).build();//InputStreamReader inputStream = new InputStreamReader(new FileInputStream(file), StandardCharsets.UTF_8);//CSVReader csvReader = new CSVReader();// 设置解析策略,csv的头和POJO属性的名称对应,也可以使用@CsvBindByName注解来指定名称HeaderColumnNameMappingStrategy strategy = new HeaderColumnNameMappingStrategy();strategy.setType(UserBehaviorsUrlLog.class);CsvToBean csvToBean = new CsvToBeanBuilder(inputStream).withMappingStrategy(strategy)//文件中使用的分割符 默认为逗号分割//.withSeparator(',').build();List<UserBehaviorsUrlLog> csvDTOList = csvToBean.parse();return csvDTOList;}
}
  • 4、相关mapper及配置文件
@Mapper
public interface UserBehaviorsUpfileLogMapperExt {/*** 读取行为日志信息,写入clickhouse* @param records* @return 落库条数*/int insertUpfileLog(@Param("records") List<UserBehaviorsUpfileLog> records);}
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper.dtd">
<mapper namespace="com.xxxx.mapper.ext.UserBehaviorsUpfileLogMapperExt"><sql id="Base_Column_List">(transfer_date, record_time, user, group, host_ip, dst_ip, serv, app, site, tm_type, net_action, file_name, file_size, file_type)</sql><insert id="insertUpfileLog" parameterType="com.xxxx.model.UserBehaviorsUpfileLog">INSERT INTO log.xxzx_user_behaviors_upfile_log<include refid="Base_Column_List" />VALUES<foreach collection="records" item="item" index="index"separator=",">(#{item.transfer_date,jdbcType=DATE},#{item.record_time},#{item.user},#{item.group},#{item.host_ip},#{item.dst_ip},#{item.serv},#{item.app},#{item.site},#{item.tm_type},#{item.net_action},#{item.file_name},#{item.file_size},#{item.file_type})</foreach></insert></mapper>
  • 5、clickhouse表所映射的java对象
@Data
public class UserBehaviorsUrlLog {//private String transfer_time;private Date transfer_date;@CsvBindByName(column = "record_time",required = false)private String record_time;@CsvBindByName(column = "user",required = false)private String user;@CsvBindByName(column = "group",required = false)private String group;@CsvBindByName(column = "host_ip",required = false)private String host_ip;@CsvBindByName(column = "dst_ip",required = false)private String dst_ip;@CsvBindByName(column = "serv",required = false)private String serv;@CsvBindByName(column = "app",required = false)private String app;@CsvBindByName(column = "site",required = false)private String site;@CsvBindByName(column = "tm_type",required = false)private String tm_type;@CsvBindByName(column = "net_action",required = false)private String net_action;@CsvBindByName(column = "url",required = false)private String url;@CsvBindByName(column = "DNS",required = false)private String dns;@CsvBindByName(column = "title",required = false)private String title;@CsvBindByName(column = "snapshot",required = false)private String snapshot;
}
  • 6、调用代码
.......File file = new File(fileName);//根据解压后的文件目录名称判断当前文件的类型if(fileName.indexOf(URL_LOG) != -1) {List<UserBehaviorsUrlLog> urlLogList = csvParseLogService.parseUrlByName(file);for (List<UserBehaviorsUrlLog> listSub : lists) {upfileLogMapperExt.insertUpfileLog(upfileLogList);}}......

欢迎补充,完毕!!!

这篇关于OpenCSV处理反斜线 \ ,将.csv文件映射为Java对象落库clickhouse的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/194544

相关文章

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

Spring Security--Architecture Overview

1 核心组件 这一节主要介绍一些在Spring Security中常见且核心的Java类,它们之间的依赖,构建起了整个框架。想要理解整个架构,最起码得对这些类眼熟。 1.1 SecurityContextHolder SecurityContextHolder用于存储安全上下文(security context)的信息。当前操作的用户是谁,该用户是否已经被认证,他拥有哪些角色权限…这些都被保

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

Java进阶13讲__第12讲_1/2

多线程、线程池 1.  线程概念 1.1  什么是线程 1.2  线程的好处 2.   创建线程的三种方式 注意事项 2.1  继承Thread类 2.1.1 认识  2.1.2  编码实现  package cn.hdc.oop10.Thread;import org.slf4j.Logger;import org.slf4j.LoggerFactory

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听