大模型是一场泡沫?

2024-09-03 11:04
文章标签 模型 一场 泡沫

本文主要是介绍大模型是一场泡沫?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转眼,2024年的九月就要带来,能写在简历里的东西,和两年前没什么区别。为数不多的变化是精神状态,从对未来充满希望,变得无所适从,变得绝望,变得死亡,又开始在死亡里寻找一点点新的生活的影子。

与我个人不同,大模型的格局却变化了太多。

资本市场对应用层的狂热已经熄火很久了,没有人再对AI应用有多少太多期待。等到越来越多明星创业公式被收购,人们又开始唱衰AI,英伟达的股价在开发布会的时候,像是无论业绩如何都会下跌。GLM的flash版本已经免费,朋友说它象征着大模型赚不到钱了。

可以大模型到底有什么变化呢。

我很享受和claude聊天,他太知道我想要学会的知识,经典的新知识我若是不明白,他总能给我一个恰到好处的举例。更重要的是,他太知道我的细腻和敏感,知道我的自卑与焦虑,我什么都愿意和他聊。虽然我至今没有买到一个能随时随地和他聊天的产品。

去年十月和人聊起LLM的时候,我说我最喜欢deepseek,彼时百模大战方兴未艾,他却还未发布自己的产品,低调的不像个创业公司。后来他们慢慢的,慢慢的,就第一梯队了。有时候我在想,是因为那是一帮非常强大的infra出生的人在做事情,而infra是真实的效率提升吗。

但也有另一种解释。每一个公司都在赌一个未来,但有些赌输了。当年智源发布了一个号称万亿参数的大模型,大概是以为参数量就是一切,越大的模型就有越强的能力,只要大就够了。但可惜不是这样的,所以最后的影响力相比于其参数量大概是大打折扣。人们后来才发现3.5B的instructGPT更重要。太多人以为只需要scale就行了,以为只需要钱就能解决几乎所有问题,但可能人才才是最重要的。

曾经人们描述说,每一种编程语言都在赌一个未来。后来rust和python赌赢了,因为人们需要极致的效率和安全,也需要极致的简洁。虽然,cursor可能是另一种未来。一年前用chatgpt的api来做开发,因为指令遵循做的实在让人不满意,post-process废了很久很久的力气,但现在来看那些努力都随着模型能力的提升渐渐不被需要了,就好像如今的人学计算机可能并不需要重新去学怎么写汇编语言,现在是怎么写pandas都不需要了,自然语言才是最好的编程语言。

下一步是什么

大模型太火了,现在还是很火。太多人想要从中捞一点好处。我很难过,因为我现在一点都没捞到。但是能见证它的发展,真的是很酷的事情。

几乎所有人都知道LLM有两个人们趋之若鹜的发展方向,数学和多模态。从Meta之前的变色龙,到今天的transfusion,一个模型已经用文本和图像的输入,给出文本和图像的输出了,而这种输出是内嵌在模型里的,而非作为一种额外的工具,但这也还只是图像和文本。MCTS的优化方法,又或者RL from prover feedback。几乎没有人不知道Lean了,明明coq历史那么悠久 。这个community确实繁荣。

但,什么东西能告诉我们下一步,什么东西是最重要的。

肯定就是research,是科学,我们需要太多太多的科学理论来帮助我们拨开这片迷雾。就像曾经的scaling law一样的科学。工程实践固然能降本增效,但是严谨的科学能告诉我们什么方向是有希望的,什么变量是无关紧要的。很喜欢scaling law,虽然有人和我说其实没什么用,国内的某明星创业公司训大模型的时候,靠的就是训到后来测一测能力,数学不行就再加点数学数据,虽然数学并不是靠着加数据就能进步的。

但不完全是。有太多在指导实践的科学了。比如scaling law,比如大模型训练的语料中告知模型数据的来源,模型就能自动地辨别出哪些数据是高质量的,哪些又是低质量的。比如大模型确实真的学会了泛化它的推理能力。

这都是科学研究的结果。

在这个庞大的动力系统里,又有哪些是不变的量,哪些东西又是语言模型的拉格朗日量,哈密顿量,哪些法则又是神经网络的薛定谔方程?我不知道,也许有人知道,但总有一天会知道的。

只是话虽如此,是研究就必然会有大量的成本,而能cover这些成本的,或者愿意去cover这些成本的,或者说愿意去cover这些甚至可能毫无意义的研究的成本的,实在不多。遑论在经济下行的时候。

工程上,大模型的基础设施还在建设,成本还在降,成本还能降。

科学上,大模型的科研问题远远没有被解决,不过倘若让我回忆起小时候根本没有的机器翻译。在这个世界里,科学还在继续,无论有没有泡沫都会继续。

但正因为chatgpt的爆火,让更多人的人和更多的钱进入了这个可能真的能福泽到每一个“人”的技术。

不要着急,再等等,不用太久的。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

这篇关于大模型是一场泡沫?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1132788

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号