活动回顾 | 矩阵起源 CEO 王龙:与大数据结合,是大模型成熟的必经之路

本文主要是介绍活动回顾 | 矩阵起源 CEO 王龙:与大数据结合,是大模型成熟的必经之路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导读

近日,由数据猿和上海大数据联盟主办,上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”在上海市四行仓库举行,吸引了数百位业界精英的参与。

本次论坛以“小趋势·大未来”为主题,围绕大数据产业的各个领域进行分享。矩阵起源创始人及 CEO 王龙,受邀参与“大数据 + 大模型,挖掘数据智能‘金矿’”圆桌论坛,与另外四位嘉宾一同深入探讨了 4 个问题,本文整理了王龙的分享内容,他就数据集质量、大模型对大数据产业的影响、2024年大模型应用爆点以及大模型与大数据融合面临的问题和挑战进行了盘点与分析。

Q1 数据集的质量和规模如何影响大模型性能?如果要构建良好的行业大模型,对于数据集会有什么要求?

大模型是用户可以采集到的所有训练数据集的一张缩略图。数据集的内容和质量对于大模型的训练质量会有根本性影响。另一方面,在例如金融、证券、能源和制造等很多传统行业落地时,大模型生成的内容需要是精准而实时的。在这些行业,如何和知识图谱、训练数据、结构化数据结合,避免大模型出现幻觉与错误是至关重要的问题。大模型需要和外部大数据结合,形成链路闭环,这样才既能在平时“一本正经的胡说八道”,又能够在需要时给出实时和精准的信息。

Q2 大模型对大数据产业和大数据的各个环节有新的影响?

大模型是一个利用 transformer 架构来预测、推断和决策的概率系统,而基于检索的传统大数据会带来既可控又准确的结果,大部分情况下概率系统和精确系统的结合是有必要的。矩阵起源团队很早就开始思考大模型与大数据的结合点,DB for AI、AI for DB、AI in DB、AI with DB, 存在多种合作模式,数据库智能运维,用户交互,知识库与智能问答,训练和推理都是一些可行的方向。用户可以使用大模型运用预处理的日志进行数据库的故障诊断;使用大模型按照场景写出所需要的 SQL 语句;运用大模型帮助企业建立知识库与BOT,但这些落地也都有各自的挑战。例如在构建企业知识库时,有可能回答出现产生10,000条数据时期中1条数据是错误的情况,糟糕的是用户并不知道错误的是哪条,也不知道到底什么时候出错。矩阵起源的一个思路是使用 RAG 模式或者使用大模型给出直接答案的时候,对输入和输出进行评估,如果需要精确实时信息而大模型自身又无法判断的时候,我们就会重定向到知识图谱或是结构化数据库中寻找精准的答案,即一个能实现大模型诊断的数据管理系统。这个技术难度非常高,但者也是大模型在行业落地中最关键的难题之一。

Q3 2024年大模型应用的爆点是什么?

我认为爆点会出现在大模型的上下游,从上游的角度考虑,一定会有一种新型的 Platform 或者 Infra 来解决大模型的训练和推理成本以及效率和幻觉问题,当然我希望在20年后回头看时,矩阵起源就是是这么一家公司。从下游角度来看,我认为爆点是多模态的内容生产,短视频、AR、VR 这类对内容有强需求的领域,大模型如果能够帮助其打破内容创作的瓶颈,会有很大的机会。也许未来的抖音、微信已经在酝酿之中了。

Q4 如果要将大模型和大数据进行融合,会遇到哪些问题和挑战?

难点在于需要有标杆型的行业应用出现,很多公司会发现大模型在行业落地成本极高,算一下账发现,还不如使用传统手段。这需要企业客户以及厂商对大模型的价值边界和局限性,以及自身的应用场景有较为清晰的认知,做好落地准备和执行,同时也要意识到企业的管理和运营策略也需要做相应的变化,才能最大化的发掘大模型的价值。

关于矩阵起源

矩阵起源是是业界领先的大数据及数据库管理系统(DBMS)技术和服务提供商,主要团队成员来自国内外知名科技公司,具备强大的创新能力。矩阵起源的目标是打造并使用世界一流的数据基础设施技术和产品,协助企业实现从信息化、数字化到智能化的转型和升级。矩阵起源在云计算、数据库、大数据及人工智能相关领域拥有核心竞争力,具备广阔的行业和国际视野以及前瞻性,能够快速有效的将先进技术在不同领域实用化并规模化扩展。

MatrixOne

矩阵起源的核心产品MatrixOne,是基于云原生技术,可同时在公有云和私有云部署的多模数据库。该产品使用存算分离、读写分离、冷热分离的原创技术架构,能够在一套存储和计算系统下同时支持事务、分析、流、时序和向量等多种负载,并能够实时、按需的隔离或共享存储和计算资源。MatrixOne能够帮助用户大幅简化日益复杂的IT架构,提供极简、极灵活、高性价比和高性能的数据服务。

关键词:超融合数据库、多模数据库、云原生数据库、国产数据库

MatrixOrigin 官网:新一代超融合异构开源数据库-矩阵起源(深圳)信息科技有限公司 MatrixOne

Github 仓库:GitHub - matrixorigin/matrixone: Hyperconverged cloud-edge native database

这篇关于活动回顾 | 矩阵起源 CEO 王龙:与大数据结合,是大模型成熟的必经之路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/666659

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个

SpringBoot整合jasypt实现重要数据加密

《SpringBoot整合jasypt实现重要数据加密》Jasypt是一个专注于简化Java加密操作的开源工具,:本文主要介绍详细介绍了如何使用jasypt实现重要数据加密,感兴趣的小伙伴可... 目录jasypt简介 jasypt的优点SpringBoot使用jasypt创建mapper接口配置文件加密