建模杂谈系列239 AI研究的推进方向与方式思考

2024-03-18 11:12

本文主要是介绍建模杂谈系列239 AI研究的推进方向与方式思考,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

说明

回顾一下过去这些年对AI的一些经历,以及明确一下未来几年的方向、突破口。

内容

1 AI的定义

AI其实是一个很有意思的名词,在很多介绍人工智能的书里都有提到,这也是大众最能接受的一种说法。

所以这里不过多的去纠结严格的学术定义,而是以一种稍微工程化的语言来明确这里提到AI的定义,也是我最接受的一种说法。

AI就是脑力劳动自动化

AI = 人工智能 = 先人工,再智能

要研究自动化,显然是按照人工的方法一步步分解,然后再把他们抽象成一个个步骤,最后串起来。其实看看transformers,最后变的很好用的一瞬间也就是pipeline(流水线)的应用。所以,我认为AI是脑力劳动自动化的产物,应该是一个运行中的服务(提供了流水线)。

2 AI价值变现的历史

有一个误区是认为AI很难落地,从来没有落地。这是因为有些深度学习的部分太让非技术人Impressive了,觉得那种高级才叫AI,其实不对。

以我的经验来看,AI早就落地了,而且基本上每个人都深刻体验过:信用卡的申请。信用评分卡技术,应该是最简单,且最广泛应用在世界各银行中的一项基础技术,至今仍在使用。它使得信贷审批变得异常简单。

如果信贷行业容易完全规范(不出现过去裸贷那样的事),且不需要牌照的话,这项AI技术应该是最容易被更多实体用于实现AI价值的途径。理想中的信贷是可以和AI完美结合的,但是这个场景就不讨论了,反正不work。

后来又有一个场景是AI落地的:图像识别。

这个就更完美,因为深度神经网络,第一次很完美的解决了图像识别问题,可以应用在很多场景啊,比如用于安检、车辆识别、工厂的产品检验等等。至少开车的朋友们都熟悉,现在停车场基本都自动了吧?

但问题是什么?方法过于好,根本都不需要迭代。随便一个小公司做的分类结果,可能和头部几家的差不多(99.9%和98%的区别)。然后这件事情就结束了,从技术的提出到完全的覆盖,这速度是相当快。

甚至都不用维护。因为车牌号就是车牌号,不需要再改边了,而银行的信用评分卡还得随着形式变化调整参数呢…

然后就到了最近这一波,大语言模型。这个的确是了不起,很奇妙的一个变化。

先说有没有用? 当然有。这波的大语言模型,甚至改变了古早人们认为计算机无法理解人类语言的观点。
好不好用?这里要“呃”一下,然后回答:在很多场景下还是挺好用的。(那么哪里又不好用呢?)
有没有商业价值? 当然有,这可不是技术热点,而是商业热点。客服是第一波试验田,第二波搞不好都是码农自己,哦不对,哪些媒体影视行业的更要颤颤发抖。
好搞吗? 一点都不好搞。要训练大尺寸的模型,别说公司,一个国家都不一定搞的起来,可能也就美国能搞。小尺寸模型倒是多,但是效果不好。想调整吗?全参调的话你也得有个好几张A100才能想,微调的话也就摸着石头过河。
有没有潜力(想象空间)? 太有了。一个个的码农、客服、家居机器人,面向全球老龄化市场,各种生产力升级。

可以说,软硬件发展结合算法还有今天的经济,大语言模型简直是一个巨大的信息球:谁都知道很厉害,懂的且能搞的真不太多。我现在甚至想象不出来这波技术的商业终点在哪。

反正以目前来看,因为大语言模型不完美,它需要调整的地方(随应用场景)是非常多的:也就是意味着这不是图片识别那种,一杆子买卖。另外它又不好调,不好调的地方除了技术,还有硬件。这里人力的占比可就高了,但是光有人还不够,还要显卡,gpu,这时候硬件又戴起来了,你说神奇不?

关键有些问题,它很真解决了。对自然语言的理解,甚至有点能举一反三。

3 我对于AI的认知

与前面提到的定义不同的是,这里不是谈结果,而是追溯原因。AI是如何能够帮助我们做到脑力劳动自动化的。

AI从模拟人脑的功能上,分为推理和感知两个流派, 嗯,有点像气宗和剑宗。现在大放光彩的是剑宗,也就是感知流。

怎么去区分这两种流派呢?

如果我们在桌上放着几种水果,A和B各拿起一个苹果吃了起来。然后我们问A,你为什么拿苹果,而不是其他水果呢?

A回答:我也不清楚,但感觉上就是想吃苹果。 感知流。

然后问B,那么你呢?

B回答:因为苹果里铁和锌的含量最高,最近我感觉造血能力和记忆力不够好,吃这个水果对我最合适。推理流。

到这里,我觉得大家应该可以区分出推理和感知的差别了。

推理流曾经的巅峰是贝叶斯网络,感知流就不说了。

再来说他们的在应用上的差别与意义。

目前大语言模型这么牛,核心的金融商是不是可以把所有的交易都交给大语言模型做呢?我看是不敢的。不说说时间还不够,即使再过几十年,这件事还是不可能(但没准会有几朵昙花)。

因为人类信赖的决策,大多是推理型的。例如孙子兵法就是超有逻辑的推理,大多数将军估计是会认真拜读的。很少有将军敢说我感觉行,上吧,兄弟们。但凡是都有例外,据说霍去病就是这样一个神奇的例子。

但主流还是通过严密的推理才能让我们show hand。 至于信息不完全博弈又是另一个问题,不讨论。

所以感知类的技术无论再怎么发展,推理类的不跟上,时代都很难说进步了。倒也不是说感知类就不如推理类,他们就像是人的神经和大脑,在一起才最好。现在强调推理,是因为感知已经过强了。光练剑,不练气,这最后也是不行啊。

嗯,我大概记反了,华山派后来是气宗赢了,风清扬没赶上大pk,不然不一定。反正就是那么个意思。

说一段的主要目的还是要提醒自己坚持初心,独立思考,不要盲目跟风,要把握度。协调练剑与练气的关系。

4 对我来说,AI的机会

4.1 我的路是一条自研的路

我觉得我与同行们的差别可能在于:特别异想天开,然后又愿意从底层开始研究。这源于一个信念:使用现成的产品,可以轻松实现你80%的需求,但最核心的20%需求你将无法实现。 大语言模型不也是一个很好的例子吗?(所以我应该是会尝试从头训练一个,但不必是那么大的尺寸)

事实是我会对常用的算法进行剖析,最终会将其转为矩阵计算为止。以逻辑回归为例,sklearn里提供了标准方法,但是我还是愿意自己按照算法原理,用矩阵去实现建模杂谈系列195 逻辑回归的矩阵计算。这有什么好处呢?那就是可以用显卡一次性的对数千,乃至数万个LR进行同时拟合啊。
那么为什么要对数万了LR同时拟合呢? 因为要进行优化啊,和遗传算法结合。每次的拟合不就是一次演进吗?Python 运筹优化9 再次拆解基本的遗传算法, 遗传算法最烦的不就是对新生成的大量种群进行计算和评估吗?

所以即使是一个简单的基础算法变体,都能够产生很不一样的结果。

一个题外话:深度学习为什么强? 因为算力强了。算力算的是什么?矩阵。Attention为什么强,因为它用了矩阵来表达两两token间的邻接关系,这是一个完美的矩阵存储利用。然后在用矩阵进行特征计算,用大量的算力。所以,归根到底,如果我们能够将矩阵利用到极致,一定可以取得不弱于深度学习效果的(所以不要顺着OpenAI那种暴力路线一直走,这和优化算法一个原理(真要比起来,任何一个暴力优化都可以瞬间崩掉99%主机的内存和显存),可以动态规划,迅速减少计算规模)。

除了在算法方法,我还尝试建立一个完全自由的分布式计算机系统。这是支持AI的基础体系,在2020年以前,我这块几乎为0,然后一点点搭建起来的。大概也是我自己觉得如果我不去搞,老要求别人太烦了(社恐)。而且有些事过于疯狂,需要投入的时间成本太大,我没理由拉着别人一起疯。
不管怎样,到现在我已经搭建了好了这样一个系统,我称之为算网(CalNet),超级方便。从买零件组装台式机,到刻录操作系统,到安装ubuntu,设置ssh, 建立frp,到使用docker搭建微服务,构造数据库,前端,后端以及一些辅助工具等一系列的工具,现在的算网已经停不错的了。可以支撑非常大的数据吞吐、存储与处理。当然,算网需要至少一台云主机。我甚至还申请了一个10年的域名,一度我都感觉我是不是都算是半个运维工程师了。

如果说算法是无形的核心,算网就是有形的载体。最初算法超过了算网的能力,现在算网又超过了算法,所以我又在重新投入算法。

4.2 基于算网的AI机会

由于算法或者说AI过于善变,就像是一个个的火花。所以我认为,未来我的竞争力核心是算网(独特的,自研的)。
算网不仅是几台机器,而是同时容纳了大量的微服务,用于构建一个高效系统。在拓展性方便,包括现在的租用算力是很容易作为算网的拓展的,不管是传输还是计算。所以如果有必要,算网的算力可以拓展到一个比较夸张的程度(只要付不多的钱)。
长期维持运行的算网机只要保持足够大的存储,特别是固态硬盘就够了。目的是为了空间换时间,或者是进行长周期研究。最近固态涨价很疯狂,本来国产的一些牌子价格是很不错的。不过现在的消费级主板,内存太小也是个问题。以后最好一台消费级主机可以挂2T内存,80T或者160T固态的样子。

嗯,不多说算网了,这是另一个主题,明确了我的AI路是绑定算网推进这件事就够了。

有哪些AI机会呢?

我觉得要 market oriented的来看这件事,从如何能让产品、服务卖出去来看。

4.2.1 免费服务

免费可以说是IT行业的一项特色了。以前的行业应该没有这么玩的,包括现在我用的操作系统,docker,各种数据库都是免费的,当然也有收费的版本,但是免费的通常都足够好用。

所以问题来了,为什么都是聪明人的行业,要做免费这么“傻”的事呢?

假设一个B2B的场景,客户如果要买你的产品,一定是客户的业务端有需求,然后通过广告或者啥关系找到了你,接下来你要给客户解释说你的产品如何work,如何稳定,如何划算。客户听的很满意,然后就回去和业务说了,业务感觉也不错,就要求poc。poc完了之后就开始谈价格,签合同,最后你就赚钱了。

后来由于行业发展过快,门槛不断降低,就开始“卷”了。到最后这个链条被嫌弃太长了,与其搞半天流程,还不如我就把poc直接做好,你觉得ok就买。这就相当于跳过中间商,直接和用户对接了。现在的LLM在这块做的算比较炉火纯青了,免费的chatgpt3.5, 付费的4.0。免费的手机端,收费的API。

而搭建微服务对我来说几乎是一个例行过程,唯一需要的可能是一点点的公网带宽,租一个云服务器就可以了。类似大语言模型做的那样,用gradio或者streamlit,甚至是我自己的那套bootstrap做一个模板,让用户通过页面进行相对低频的操作。这个可以不需要鉴权。

同时也可以提供接口服务,但是加上鉴权和token,限制每用户的使用次数。

我想背后的逻辑可以是:

通过受限的免费服务,用户最终会有一个认知:这个功能靠不靠谱。当用户用的足够多时,他们会认识到,这一套功能能够节约他们的时间,或者解决一些问题,这些是有价值的,值得付费去专门购买。反之,用户用的即使不多,或者没有那么强的需求,他可能也因为受到一些便利而愿意将这个服务介绍给别人(相当于在做免费推广)。

我有些东西是觉得还蛮不错的,比如时间转换问题。时间转换是一个不那么高频的需求,但是当你需要使用时,这又是一个需要你几分钟,甚至十几分钟才能重新get回来的问题。以python为例,有datetime和time包,里面功能还挺多的,但是乍一看有点烦,仔细一看还有点绕。
我自己写了一个新的对象Python一些可能用的到的函数系列123 ATimer2-时间偏移并封装为了接口服务,里面就解决正常的字符与时间戳的互转,以及时间偏移(间隔)计算,用起来非常简单。而且更重要的是,即使是效率上,也比原版的time包和datetime包快非常多。

对于更广泛的函数,我做了一个GlobalFunc服务,未来,我也打算把这个发布为免费服务使用。在这之前,我似乎应该起一个反向代理,然后把这个通用的GlobalFunc部署在多个弹性算力机上。

4.2.2 产品增强

还有一个很直接的点就是产品增强。

一类是被动型的,一种是主动型的。

被动型的典型需求是反爬虫,主动型的则是推荐。以一款通用的toC产品为例,有哪些地方可以进行增强的:

  • 1 反爬取。识别哪些用户是爬虫,然后予以拒绝,甚至给予误导。
  • 2 目标引导。假设用户因为某个特定需求来使用产品的,算法将尽快帮助用户找到合适的信息,从而减少用户使用产品的成本,提高ROI。
    • 减少输入时间
    • 减少跳转步骤
    • 减少为明确用户意图的步骤
    • 提供匹配度更高的答案
  • 3 精准营销。为某个特定的产品,用最小的代价(例如只推向极少客户)来获得最大收益。
  • 4 交叉销售。通过推荐算法,既扩大产品销售,又让用户满意。
  • 5 自动优化。通过自动化的n次细微的AB Test来优化产品的资源配置。

这种逻辑就很简单,通过before/after,可以很快度量算法的效果,即使不会单调增强,但是也必然会提升效果,带来可直接度量的经济效益。
例如提升了用户体验,所以日活高了,这本身就是钱(广告费)。

我认为,会有一个理想的终点:有一组特征向量来代表用户,一组特征向量代表产品体验,以及一组特征向量代表用户行为,还有一组代表运营特征。通过多目标优化,我们最终将结果稳定在某个理想状态。

4.2.3 量化决策

量化一定是个非常好的方向。可以利用指数的统计稳定性来构造稳定的获利工具。这对于个人来说是最好的检验真理并收获真金的绝佳场所。

这里不多提了,内容过于多。

4.2.4 chat及衍生(Agent)

关于chat类应用,有两个方向。

首先,chat解决了很多NLP领域的疑难问题,号称一站式解决方案。所以可以利用这个原生的特点来解决很多细碎的小问题。当然,这里还是有很多重要问题值得解决的。

要真的走向工业化,我们必须能够进行细微控制。

LLM是一个很大的机器,我们可以调整成不同的形状使用。但是当我们觉得某个形状好,要固定下来时,它应该是可以固定住,并且可以被大批量并行调用的。并行是指在数据处理层面是矩阵并行的。过去BERT可以,但GPT就是不行,多显卡没有意义。

或者退而求其次,如果GPT本身不行,那么它是不是可以通过语言引导,调出我要的BERT?

这是属于原生的应用价值,通过稳定和并行化有用的形态,来达到工业化效果。现在串行且随机是不可能工业化的。

其次,基于chat的agent。

过去可能要通过任务调度,或者规则指定才会像流水线一样执行的n个步骤,有没有可能通过chat来完成。这样的意义可能更大,在程序开发上会节约大量的时间和精力。

问题的模式也是类似的:可以通过chat直接实现,还是只能用chat做一半,然后再用传统的规则引擎之类的做另一半?

5 过去求全,现在求专

AI的推进方向有了,那么就是推进方式了。

前面有提到,因为我自己的经历,从古早的机器学习,到现在的大语言模型,我算是在全面的维持、了解、跟进或者再次自研的;后来又把架构和运维的一些东西捋了一遍。

确保了我能够作出一些东西,以及这些东西不是虚幻,是可以进行长效服务的。

所以现在的关键点不再要求多头并进,每个地方都要埋个点,快速验证可实现性。可以认为,连通性问题是已经解决掉的,现在最关键的是有效性问题。

要能够有效,或者超级有效,无非就是专一。

我可以把精力集中在当前最具有价值的领域,然后突破,然后用上面提到的方式进行最后的商业价值变现。在这个过程中,“浪费”并行时间可能是必须的。能够把这个过程搞定了,那么就都值得,“浪费”的时间是用来保障成功和保证高度的。

就这么多,希望2024大有收获。

这篇关于建模杂谈系列239 AI研究的推进方向与方式思考的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/822155

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

内核启动时减少log的方式

内核引导选项 内核引导选项大体上可以分为两类:一类与设备无关、另一类与设备有关。与设备有关的引导选项多如牛毛,需要你自己阅读内核中的相应驱动程序源码以获取其能够接受的引导选项。比如,如果你想知道可以向 AHA1542 SCSI 驱动程序传递哪些引导选项,那么就查看 drivers/scsi/aha1542.c 文件,一般在前面 100 行注释里就可以找到所接受的引导选项说明。大多数选项是通过"_

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言