TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览

2024-03-23 22:08

本文主要是介绍TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=gif




一年一届的数据库领域顶级会议VLDB 2018即将于当地时间8月27日-8月31日在巴西里约热内卢召开。


在本届大会上,腾讯公司TDSQL团队携手中国人民大学、武汉大学共同投中一篇Demo Paper,该工作旨在分布式数据库TDSQL上高效地实现相似查询。


TDSQL团队一直在努力为用户提供丰富的功能、高效的性能和便捷的服务。


在大会召开之际,腾讯TDSQL团队对本届大会的论文佳作进行了分析,萃取了精华之精华以飨读者,分享技术,让我们一起共同成长。

640?wx_fmt=png


VLDB

VLDB 会议全称Very Large Data Bases Conferences,是由VLDB Endowment主办的数据库领域学术会议,旨在推广全世界数据库及相关领域的研究成果、促进领域内学术交流。


VLDB是数据库及相关领域研究者、供应商、参与者、应用开发者所广泛关注的主要国际会议,也是公认的数据库领域三大顶级会议 (SIGMOD、VLDB、ICDE) 之一,并且在发表论文难度和受关注程度上,与SIGMOD可谓并驾齐驱。


本次VLDB会议,腾讯公司也设立了展台,欢迎各位与会嘉宾、专家莅临交流。


VLDB 2018 概览

VLDB 2018会议历时5天,其中首尾日是Workshop(子研讨会),正会3天。


今年VLDB非常重视学术界和工业界交流。除12篇Industrial Paper之外,在Research Paper中也有大量工作由企业主导和参与。大会程序委员会中也有很多来自企业的Track Chair和审稿人。国内包括腾讯、阿里、华为等在内的多个企业都将在大会上设置展台与参会者进行交流。


今年VLDB上,中国高校和企业发表的论文数量超过20篇,但主要集中在图数据、空间和轨迹数据、数据挖掘与机器学习等领域,传统关系数据库 (RDBMS) 的研究工作较少。实际上RDBMS作为重要的基础软件,广泛应用在关系国计民生的各行各业,其核心技术的研发和突破也具有重要的意义(鹅厂的Demo paper就是基于腾讯的分布式数据库TDSQL实现的)。国内的一些企业,如腾讯、阿里、华为等正在大力投入RDBMS方面的研发。


本文主要从论文分布、技术发展动向、奇思妙想三个方面寻找今年VLDB论文中的看点。


640?wx_fmt=png


1.看论文分布

首先,我们看一下今年VLDB论文的分布情况。


各领域论文分布

尽管大会将论文按照主题分成了30个Research Session,但由于每个Session中论文报告个数的限制(4-5个),Session的划分比较简单粗暴,Session间的界限和层级关系并不非常清晰。因此我们阅读了全部论文的内容,根据论文所针对的应用和数据类型,将论文进行了更加细致的分类,便于大家了解各个领域的研究热度。

640?wx_fmt=jpeg

VLDB 2018各领域论文分布图


从上图可以看出,关系数据库 (RDBMS) 的研究仍然是主流,共包含42篇论文,占到论文总数近1/3。图数据相关论文数量也保持稳定(去年VLDB也有20多篇图数据相关论文)。在很多实际的业务中,关系数据和图数据也是最重要的数据类型。据可靠消息,今年VLDB最佳论文也来自图数据领域。而流数据、众包、空间和轨迹数据相关的研究比去年有明显减少,但论文数量的浮动并不完全说明领域的热度。


RDBMS中各子领域论文分布

在RDBMS中,我们进一步对各个子领域进行细分,参见图2。可见存储优化和查询优化是研究热点,占到了RDBMS中近一半的论文数量。而在同样核心但研究难度更大的事务处理、容错恢复领域,研究工作相对较少。

640?wx_fmt=jpeg

关系数据库各个子领域论文分布图


良好的架构也是RDBMS系统研发的关键。在面向分析的数据库中,用户交互和可视化也是关键的技术。几乎每年VLDB都有这些方面的看点。此外,云数据库、UDF等方面也有相关论文。


来自工业界的论文

据不完全统计,今年会议上企业独立发表论文14篇,企业与高校合作发表论文30篇,总共44篇,占到论文总数的近1/3,可见工业界在数据库研究中参与度之高。实际上,由于企业有更多的机会接触实际业务和生产系统,而高校有更多的新思路和更低的试错成本,企业和高校深入合作经常可以产出高质量的研发工作,这在今年的VLDB上也有体现,很多有看点的论文都来自企业和高校合作。


今年VLDB上,工业界的论文来自Microsoft、SAP、IBM、Google、Amazon、阿里、华为、Facebook、Twitter、HP、Yahoo等企业。在大会接收的48篇Demo中,也有来自微软、腾讯、IBM等企业的系统性研究工作。


2.看数据库技术发展动向

从VLDB的论文中,可以观察数据库领域的技术发展方向。我们对论文中的研究内容进行了思考,在这里罗列我们观察到的6个数据库技术发展动向。


新硬件

由于新的存储和计算硬件,如大内存、NVM、SSD、现代CPU、专用处理器和协处理器(GPU、FPGA等)的发展,除了Scale Out之外,数据库系统的Scale Up也是一个方向。如何利用好新的硬件资源、提高数据库系统的性能是本次大会中的研究热点之一。


 NoSQL向SQL融合

NoSQL曾经是一个火热的方向,而最近几年来却被提及得越来越少,相关研究工作也逐渐减少。那么NoSQL真的过时或者消失了吗?其实NoSQL的特性主要的是高吞吐、低延迟的数据写入与更新,而SQL仍然是开发者和数据分析师所钟爱的查询接口,很多NoSQL所欠缺的强一致性也是很多应用场景所必须的。


于是NoSQL逐渐向SQL融合,成为关系数据库的底层存储,向SQL回归。


在RocksDB、BigTable等分布式NoSQL存储上支持SQL的事务处理或者数据分析,对于SQL和NoSQL取长补短是数据库发展的一个重要方向。


 存算分离

高带宽、低延迟网络技术的发展,逐渐降低了分布式系统中的网络开销,数据和计算的绑定不再那么严格,而存储和计算本身的效率得到了重新的思考。


在云数据库中,存储和计算分离于是成为一个新的发展方向。存储和计算的分离提高了系统架构的灵活度,也便于针对存储和计算分别进行优化,更加充分地发挥硬件的性能、提高存储的可用性和效率。


分布式事务处理

分布式事务处理可以说是数据库领域的珠穆朗玛峰。要支持大规模的分布式事务处理,分布式数据一致性、并发控制等方面的研究挑战都非常大。在高吞吐的分布式数据库系统中,事务处理模块往往也是性能开销最大的部分。


In-database Computation

在数据库内支持复杂计算也是一个发展方向。目前数据分析人员通常需要从数据库中提取数据,再将查询结果导入到各种计算引擎中进一步处理。如果在数据库中可以执行复杂的计算,就可以节省数据拷贝、传输和转换的代价,也降低了维护和学习多套系统的成本。其实UDF也算是一种In-database Computation的形式。


图数据库

图数据在很多实际应用中也是非常重要的数据类型,图数据相关领域多年以来都是研究热点。据可靠消息,今年VLDB的最佳论文就是来自图数据领域的The Ubiquity of Large Graphs and Surprising Challenges of Graph Processing,作者是来自滑铁卢大学的Siddhartha Sahu等人。


3.看奇思妙想

除了技术的主要发展方向,在一些具体的技术点上,今年的VLDB大会也有一些有意思的论文。这里介绍几个。


 大数据中间件

数据库中间件、消息队列中间件相信大家并不陌生,但是大数据中间件是什么?这只是一个形象的比喻。


 数据库社区如何做区块链

区块链是当前的热门话题,那么做数据库的人会怎么做区块链呢?可以看看本次大会上新加坡国立大学、北京理工大学、浙江大学合作的论文ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications.


 压缩数据的直接分析

 在大数据分析中,从序列化和压缩的数据中将数据解压并解析成应用程序可处理的数据对象的开销很大。


把多表连接优化用在CEP上

复杂事件处理 (CEP) 根据预定义的模式制定执行计划,将流数据中的多个基本的数据项组合起来,识别出复杂的事件。这是一个研究多年的领域,在流数据处理和实时数据分析中有很多应用。


帮数据分析找代码

数据分析人员要分析数据时,首先需要编写脚本和查询去各种数据源中抽取和转换数据。这是一个非常辛苦、非常无聊的过程。那么有人想过如何帮助分析师编写数据预处理的代码吗?


以上介绍了这么多,大家对VLDB是不是有了更多的了解呢?此时此刻,TDSQL团队仍在巴西里约热内卢,沐着和煦的冬风参加VLDB大会。相信接下来团队与会人员将会有更多的收获!在后续的文章中,他二哥也会继续为大家带来更多的现场报道和技术分享,期待大家继续关注今年VLDB的动态哦!


640?wx_fmt=png

这篇关于TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/839647

相关文章

数据库oracle用户密码过期查询及解决方案

《数据库oracle用户密码过期查询及解决方案》:本文主要介绍如何处理ORACLE数据库用户密码过期和修改密码期限的问题,包括创建用户、赋予权限、修改密码、解锁用户和设置密码期限,文中通过代码介绍... 目录前言一、创建用户、赋予权限、修改密码、解锁用户和设置期限二、查询用户密码期限和过期后的修改1.查询用

mysql数据库分区的使用

《mysql数据库分区的使用》MySQL分区技术通过将大表分割成多个较小片段,提高查询性能、管理效率和数据存储效率,本文就来介绍一下mysql数据库分区的使用,感兴趣的可以了解一下... 目录【一】分区的基本概念【1】物理存储与逻辑分割【2】查询性能提升【3】数据管理与维护【4】扩展性与并行处理【二】分区的

IDEA如何切换数据库版本mysql5或mysql8

《IDEA如何切换数据库版本mysql5或mysql8》本文介绍了如何将IntelliJIDEA从MySQL5切换到MySQL8的详细步骤,包括下载MySQL8、安装、配置、停止旧服务、启动新服务以及... 目录问题描述解决方案第一步第二步第三步第四步第五步总结问题描述最近想开发一个新应用,想使用mysq

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Java读取InfluxDB数据库的方法详解

《Java读取InfluxDB数据库的方法详解》本文介绍基于Java语言,读取InfluxDB数据库的方法,包括读取InfluxDB的所有数据库,以及指定数据库中的measurement、field、... 首先,创建一个Java项目,用于撰写代码。接下来,配置所需要的依赖;这里我们就选择可用于与Infl

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发