活动回顾 | 矩阵起源 CEO 王龙:与大数据结合,是大模型成熟的必经之路

本文主要是介绍活动回顾 | 矩阵起源 CEO 王龙:与大数据结合,是大模型成熟的必经之路,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

导读

近日,由数据猿和上海大数据联盟主办,上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”在上海市四行仓库举行,吸引了数百位业界精英的参与。

本次论坛以“小趋势·大未来”为主题,围绕大数据产业的各个领域进行分享。矩阵起源创始人及 CEO 王龙,受邀参与“大数据 + 大模型,挖掘数据智能‘金矿’”圆桌论坛,与另外四位嘉宾一同深入探讨了 4 个问题,本文整理了王龙的分享内容,他就数据集质量、大模型对大数据产业的影响、2024年大模型应用爆点以及大模型与大数据融合面临的问题和挑战进行了盘点与分析。

Q1 数据集的质量和规模如何影响大模型性能?如果要构建良好的行业大模型,对于数据集会有什么要求?

大模型是用户可以采集到的所有训练数据集的一张缩略图。数据集的内容和质量对于大模型的训练质量会有根本性影响。另一方面,在例如金融、证券、能源和制造等很多传统行业落地时,大模型生成的内容需要是精准而实时的。在这些行业,如何和知识图谱、训练数据、结构化数据结合,避免大模型出现幻觉与错误是至关重要的问题。大模型需要和外部大数据结合,形成链路闭环,这样才既能在平时“一本正经的胡说八道”,又能够在需要时给出实时和精准的信息。

Q2 大模型对大数据产业和大数据的各个环节有新的影响?

大模型是一个利用 transformer 架构来预测、推断和决策的概率系统,而基于检索的传统大数据会带来既可控又准确的结果,大部分情况下概率系统和精确系统的结合是有必要的。矩阵起源团队很早就开始思考大模型与大数据的结合点,DB for AI、AI for DB、AI in DB、AI with DB, 存在多种合作模式,数据库智能运维,用户交互,知识库与智能问答,训练和推理都是一些可行的方向。用户可以使用大模型运用预处理的日志进行数据库的故障诊断;使用大模型按照场景写出所需要的 SQL 语句;运用大模型帮助企业建立知识库与BOT,但这些落地也都有各自的挑战。例如在构建企业知识库时,有可能回答出现产生10,000条数据时期中1条数据是错误的情况,糟糕的是用户并不知道错误的是哪条,也不知道到底什么时候出错。矩阵起源的一个思路是使用 RAG 模式或者使用大模型给出直接答案的时候,对输入和输出进行评估,如果需要精确实时信息而大模型自身又无法判断的时候,我们就会重定向到知识图谱或是结构化数据库中寻找精准的答案,即一个能实现大模型诊断的数据管理系统。这个技术难度非常高,但者也是大模型在行业落地中最关键的难题之一。

Q3 2024年大模型应用的爆点是什么?

我认为爆点会出现在大模型的上下游,从上游的角度考虑,一定会有一种新型的 Platform 或者 Infra 来解决大模型的训练和推理成本以及效率和幻觉问题,当然我希望在20年后回头看时,矩阵起源就是是这么一家公司。从下游角度来看,我认为爆点是多模态的内容生产,短视频、AR、VR 这类对内容有强需求的领域,大模型如果能够帮助其打破内容创作的瓶颈,会有很大的机会。也许未来的抖音、微信已经在酝酿之中了。

Q4 如果要将大模型和大数据进行融合,会遇到哪些问题和挑战?

难点在于需要有标杆型的行业应用出现,很多公司会发现大模型在行业落地成本极高,算一下账发现,还不如使用传统手段。这需要企业客户以及厂商对大模型的价值边界和局限性,以及自身的应用场景有较为清晰的认知,做好落地准备和执行,同时也要意识到企业的管理和运营策略也需要做相应的变化,才能最大化的发掘大模型的价值。

关于矩阵起源

矩阵起源是是业界领先的大数据及数据库管理系统(DBMS)技术和服务提供商,主要团队成员来自国内外知名科技公司,具备强大的创新能力。矩阵起源的目标是打造并使用世界一流的数据基础设施技术和产品,协助企业实现从信息化、数字化到智能化的转型和升级。矩阵起源在云计算、数据库、大数据及人工智能相关领域拥有核心竞争力,具备广阔的行业和国际视野以及前瞻性,能够快速有效的将先进技术在不同领域实用化并规模化扩展。

MatrixOne

矩阵起源的核心产品MatrixOne,是基于云原生技术,可同时在公有云和私有云部署的多模数据库。该产品使用存算分离、读写分离、冷热分离的原创技术架构,能够在一套存储和计算系统下同时支持事务、分析、流、时序和向量等多种负载,并能够实时、按需的隔离或共享存储和计算资源。MatrixOne能够帮助用户大幅简化日益复杂的IT架构,提供极简、极灵活、高性价比和高性能的数据服务。

关键词:超融合数据库、多模数据库、云原生数据库、国产数据库

MatrixOrigin 官网:新一代超融合异构开源数据库-矩阵起源(深圳)信息科技有限公司 MatrixOne

Github 仓库:GitHub - matrixorigin/matrixone: Hyperconverged cloud-edge native database

这篇关于活动回顾 | 矩阵起源 CEO 王龙:与大数据结合,是大模型成熟的必经之路的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/666659

相关文章

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

SpringBoot集成Milvus实现数据增删改查功能

《SpringBoot集成Milvus实现数据增删改查功能》milvus支持的语言比较多,支持python,Java,Go,node等开发语言,本文主要介绍如何使用Java语言,采用springboo... 目录1、Milvus基本概念2、添加maven依赖3、配置yml文件4、创建MilvusClient

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入