建模杂谈系列239 AI研究的推进方向与方式思考

2024-03-18 11:12

本文主要是介绍建模杂谈系列239 AI研究的推进方向与方式思考,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

说明

回顾一下过去这些年对AI的一些经历,以及明确一下未来几年的方向、突破口。

内容

1 AI的定义

AI其实是一个很有意思的名词,在很多介绍人工智能的书里都有提到,这也是大众最能接受的一种说法。

所以这里不过多的去纠结严格的学术定义,而是以一种稍微工程化的语言来明确这里提到AI的定义,也是我最接受的一种说法。

AI就是脑力劳动自动化

AI = 人工智能 = 先人工,再智能

要研究自动化,显然是按照人工的方法一步步分解,然后再把他们抽象成一个个步骤,最后串起来。其实看看transformers,最后变的很好用的一瞬间也就是pipeline(流水线)的应用。所以,我认为AI是脑力劳动自动化的产物,应该是一个运行中的服务(提供了流水线)。

2 AI价值变现的历史

有一个误区是认为AI很难落地,从来没有落地。这是因为有些深度学习的部分太让非技术人Impressive了,觉得那种高级才叫AI,其实不对。

以我的经验来看,AI早就落地了,而且基本上每个人都深刻体验过:信用卡的申请。信用评分卡技术,应该是最简单,且最广泛应用在世界各银行中的一项基础技术,至今仍在使用。它使得信贷审批变得异常简单。

如果信贷行业容易完全规范(不出现过去裸贷那样的事),且不需要牌照的话,这项AI技术应该是最容易被更多实体用于实现AI价值的途径。理想中的信贷是可以和AI完美结合的,但是这个场景就不讨论了,反正不work。

后来又有一个场景是AI落地的:图像识别。

这个就更完美,因为深度神经网络,第一次很完美的解决了图像识别问题,可以应用在很多场景啊,比如用于安检、车辆识别、工厂的产品检验等等。至少开车的朋友们都熟悉,现在停车场基本都自动了吧?

但问题是什么?方法过于好,根本都不需要迭代。随便一个小公司做的分类结果,可能和头部几家的差不多(99.9%和98%的区别)。然后这件事情就结束了,从技术的提出到完全的覆盖,这速度是相当快。

甚至都不用维护。因为车牌号就是车牌号,不需要再改边了,而银行的信用评分卡还得随着形式变化调整参数呢…

然后就到了最近这一波,大语言模型。这个的确是了不起,很奇妙的一个变化。

先说有没有用? 当然有。这波的大语言模型,甚至改变了古早人们认为计算机无法理解人类语言的观点。
好不好用?这里要“呃”一下,然后回答:在很多场景下还是挺好用的。(那么哪里又不好用呢?)
有没有商业价值? 当然有,这可不是技术热点,而是商业热点。客服是第一波试验田,第二波搞不好都是码农自己,哦不对,哪些媒体影视行业的更要颤颤发抖。
好搞吗? 一点都不好搞。要训练大尺寸的模型,别说公司,一个国家都不一定搞的起来,可能也就美国能搞。小尺寸模型倒是多,但是效果不好。想调整吗?全参调的话你也得有个好几张A100才能想,微调的话也就摸着石头过河。
有没有潜力(想象空间)? 太有了。一个个的码农、客服、家居机器人,面向全球老龄化市场,各种生产力升级。

可以说,软硬件发展结合算法还有今天的经济,大语言模型简直是一个巨大的信息球:谁都知道很厉害,懂的且能搞的真不太多。我现在甚至想象不出来这波技术的商业终点在哪。

反正以目前来看,因为大语言模型不完美,它需要调整的地方(随应用场景)是非常多的:也就是意味着这不是图片识别那种,一杆子买卖。另外它又不好调,不好调的地方除了技术,还有硬件。这里人力的占比可就高了,但是光有人还不够,还要显卡,gpu,这时候硬件又戴起来了,你说神奇不?

关键有些问题,它很真解决了。对自然语言的理解,甚至有点能举一反三。

3 我对于AI的认知

与前面提到的定义不同的是,这里不是谈结果,而是追溯原因。AI是如何能够帮助我们做到脑力劳动自动化的。

AI从模拟人脑的功能上,分为推理和感知两个流派, 嗯,有点像气宗和剑宗。现在大放光彩的是剑宗,也就是感知流。

怎么去区分这两种流派呢?

如果我们在桌上放着几种水果,A和B各拿起一个苹果吃了起来。然后我们问A,你为什么拿苹果,而不是其他水果呢?

A回答:我也不清楚,但感觉上就是想吃苹果。 感知流。

然后问B,那么你呢?

B回答:因为苹果里铁和锌的含量最高,最近我感觉造血能力和记忆力不够好,吃这个水果对我最合适。推理流。

到这里,我觉得大家应该可以区分出推理和感知的差别了。

推理流曾经的巅峰是贝叶斯网络,感知流就不说了。

再来说他们的在应用上的差别与意义。

目前大语言模型这么牛,核心的金融商是不是可以把所有的交易都交给大语言模型做呢?我看是不敢的。不说说时间还不够,即使再过几十年,这件事还是不可能(但没准会有几朵昙花)。

因为人类信赖的决策,大多是推理型的。例如孙子兵法就是超有逻辑的推理,大多数将军估计是会认真拜读的。很少有将军敢说我感觉行,上吧,兄弟们。但凡是都有例外,据说霍去病就是这样一个神奇的例子。

但主流还是通过严密的推理才能让我们show hand。 至于信息不完全博弈又是另一个问题,不讨论。

所以感知类的技术无论再怎么发展,推理类的不跟上,时代都很难说进步了。倒也不是说感知类就不如推理类,他们就像是人的神经和大脑,在一起才最好。现在强调推理,是因为感知已经过强了。光练剑,不练气,这最后也是不行啊。

嗯,我大概记反了,华山派后来是气宗赢了,风清扬没赶上大pk,不然不一定。反正就是那么个意思。

说一段的主要目的还是要提醒自己坚持初心,独立思考,不要盲目跟风,要把握度。协调练剑与练气的关系。

4 对我来说,AI的机会

4.1 我的路是一条自研的路

我觉得我与同行们的差别可能在于:特别异想天开,然后又愿意从底层开始研究。这源于一个信念:使用现成的产品,可以轻松实现你80%的需求,但最核心的20%需求你将无法实现。 大语言模型不也是一个很好的例子吗?(所以我应该是会尝试从头训练一个,但不必是那么大的尺寸)

事实是我会对常用的算法进行剖析,最终会将其转为矩阵计算为止。以逻辑回归为例,sklearn里提供了标准方法,但是我还是愿意自己按照算法原理,用矩阵去实现建模杂谈系列195 逻辑回归的矩阵计算。这有什么好处呢?那就是可以用显卡一次性的对数千,乃至数万个LR进行同时拟合啊。
那么为什么要对数万了LR同时拟合呢? 因为要进行优化啊,和遗传算法结合。每次的拟合不就是一次演进吗?Python 运筹优化9 再次拆解基本的遗传算法, 遗传算法最烦的不就是对新生成的大量种群进行计算和评估吗?

所以即使是一个简单的基础算法变体,都能够产生很不一样的结果。

一个题外话:深度学习为什么强? 因为算力强了。算力算的是什么?矩阵。Attention为什么强,因为它用了矩阵来表达两两token间的邻接关系,这是一个完美的矩阵存储利用。然后在用矩阵进行特征计算,用大量的算力。所以,归根到底,如果我们能够将矩阵利用到极致,一定可以取得不弱于深度学习效果的(所以不要顺着OpenAI那种暴力路线一直走,这和优化算法一个原理(真要比起来,任何一个暴力优化都可以瞬间崩掉99%主机的内存和显存),可以动态规划,迅速减少计算规模)。

除了在算法方法,我还尝试建立一个完全自由的分布式计算机系统。这是支持AI的基础体系,在2020年以前,我这块几乎为0,然后一点点搭建起来的。大概也是我自己觉得如果我不去搞,老要求别人太烦了(社恐)。而且有些事过于疯狂,需要投入的时间成本太大,我没理由拉着别人一起疯。
不管怎样,到现在我已经搭建了好了这样一个系统,我称之为算网(CalNet),超级方便。从买零件组装台式机,到刻录操作系统,到安装ubuntu,设置ssh, 建立frp,到使用docker搭建微服务,构造数据库,前端,后端以及一些辅助工具等一系列的工具,现在的算网已经停不错的了。可以支撑非常大的数据吞吐、存储与处理。当然,算网需要至少一台云主机。我甚至还申请了一个10年的域名,一度我都感觉我是不是都算是半个运维工程师了。

如果说算法是无形的核心,算网就是有形的载体。最初算法超过了算网的能力,现在算网又超过了算法,所以我又在重新投入算法。

4.2 基于算网的AI机会

由于算法或者说AI过于善变,就像是一个个的火花。所以我认为,未来我的竞争力核心是算网(独特的,自研的)。
算网不仅是几台机器,而是同时容纳了大量的微服务,用于构建一个高效系统。在拓展性方便,包括现在的租用算力是很容易作为算网的拓展的,不管是传输还是计算。所以如果有必要,算网的算力可以拓展到一个比较夸张的程度(只要付不多的钱)。
长期维持运行的算网机只要保持足够大的存储,特别是固态硬盘就够了。目的是为了空间换时间,或者是进行长周期研究。最近固态涨价很疯狂,本来国产的一些牌子价格是很不错的。不过现在的消费级主板,内存太小也是个问题。以后最好一台消费级主机可以挂2T内存,80T或者160T固态的样子。

嗯,不多说算网了,这是另一个主题,明确了我的AI路是绑定算网推进这件事就够了。

有哪些AI机会呢?

我觉得要 market oriented的来看这件事,从如何能让产品、服务卖出去来看。

4.2.1 免费服务

免费可以说是IT行业的一项特色了。以前的行业应该没有这么玩的,包括现在我用的操作系统,docker,各种数据库都是免费的,当然也有收费的版本,但是免费的通常都足够好用。

所以问题来了,为什么都是聪明人的行业,要做免费这么“傻”的事呢?

假设一个B2B的场景,客户如果要买你的产品,一定是客户的业务端有需求,然后通过广告或者啥关系找到了你,接下来你要给客户解释说你的产品如何work,如何稳定,如何划算。客户听的很满意,然后就回去和业务说了,业务感觉也不错,就要求poc。poc完了之后就开始谈价格,签合同,最后你就赚钱了。

后来由于行业发展过快,门槛不断降低,就开始“卷”了。到最后这个链条被嫌弃太长了,与其搞半天流程,还不如我就把poc直接做好,你觉得ok就买。这就相当于跳过中间商,直接和用户对接了。现在的LLM在这块做的算比较炉火纯青了,免费的chatgpt3.5, 付费的4.0。免费的手机端,收费的API。

而搭建微服务对我来说几乎是一个例行过程,唯一需要的可能是一点点的公网带宽,租一个云服务器就可以了。类似大语言模型做的那样,用gradio或者streamlit,甚至是我自己的那套bootstrap做一个模板,让用户通过页面进行相对低频的操作。这个可以不需要鉴权。

同时也可以提供接口服务,但是加上鉴权和token,限制每用户的使用次数。

我想背后的逻辑可以是:

通过受限的免费服务,用户最终会有一个认知:这个功能靠不靠谱。当用户用的足够多时,他们会认识到,这一套功能能够节约他们的时间,或者解决一些问题,这些是有价值的,值得付费去专门购买。反之,用户用的即使不多,或者没有那么强的需求,他可能也因为受到一些便利而愿意将这个服务介绍给别人(相当于在做免费推广)。

我有些东西是觉得还蛮不错的,比如时间转换问题。时间转换是一个不那么高频的需求,但是当你需要使用时,这又是一个需要你几分钟,甚至十几分钟才能重新get回来的问题。以python为例,有datetime和time包,里面功能还挺多的,但是乍一看有点烦,仔细一看还有点绕。
我自己写了一个新的对象Python一些可能用的到的函数系列123 ATimer2-时间偏移并封装为了接口服务,里面就解决正常的字符与时间戳的互转,以及时间偏移(间隔)计算,用起来非常简单。而且更重要的是,即使是效率上,也比原版的time包和datetime包快非常多。

对于更广泛的函数,我做了一个GlobalFunc服务,未来,我也打算把这个发布为免费服务使用。在这之前,我似乎应该起一个反向代理,然后把这个通用的GlobalFunc部署在多个弹性算力机上。

4.2.2 产品增强

还有一个很直接的点就是产品增强。

一类是被动型的,一种是主动型的。

被动型的典型需求是反爬虫,主动型的则是推荐。以一款通用的toC产品为例,有哪些地方可以进行增强的:

  • 1 反爬取。识别哪些用户是爬虫,然后予以拒绝,甚至给予误导。
  • 2 目标引导。假设用户因为某个特定需求来使用产品的,算法将尽快帮助用户找到合适的信息,从而减少用户使用产品的成本,提高ROI。
    • 减少输入时间
    • 减少跳转步骤
    • 减少为明确用户意图的步骤
    • 提供匹配度更高的答案
  • 3 精准营销。为某个特定的产品,用最小的代价(例如只推向极少客户)来获得最大收益。
  • 4 交叉销售。通过推荐算法,既扩大产品销售,又让用户满意。
  • 5 自动优化。通过自动化的n次细微的AB Test来优化产品的资源配置。

这种逻辑就很简单,通过before/after,可以很快度量算法的效果,即使不会单调增强,但是也必然会提升效果,带来可直接度量的经济效益。
例如提升了用户体验,所以日活高了,这本身就是钱(广告费)。

我认为,会有一个理想的终点:有一组特征向量来代表用户,一组特征向量代表产品体验,以及一组特征向量代表用户行为,还有一组代表运营特征。通过多目标优化,我们最终将结果稳定在某个理想状态。

4.2.3 量化决策

量化一定是个非常好的方向。可以利用指数的统计稳定性来构造稳定的获利工具。这对于个人来说是最好的检验真理并收获真金的绝佳场所。

这里不多提了,内容过于多。

4.2.4 chat及衍生(Agent)

关于chat类应用,有两个方向。

首先,chat解决了很多NLP领域的疑难问题,号称一站式解决方案。所以可以利用这个原生的特点来解决很多细碎的小问题。当然,这里还是有很多重要问题值得解决的。

要真的走向工业化,我们必须能够进行细微控制。

LLM是一个很大的机器,我们可以调整成不同的形状使用。但是当我们觉得某个形状好,要固定下来时,它应该是可以固定住,并且可以被大批量并行调用的。并行是指在数据处理层面是矩阵并行的。过去BERT可以,但GPT就是不行,多显卡没有意义。

或者退而求其次,如果GPT本身不行,那么它是不是可以通过语言引导,调出我要的BERT?

这是属于原生的应用价值,通过稳定和并行化有用的形态,来达到工业化效果。现在串行且随机是不可能工业化的。

其次,基于chat的agent。

过去可能要通过任务调度,或者规则指定才会像流水线一样执行的n个步骤,有没有可能通过chat来完成。这样的意义可能更大,在程序开发上会节约大量的时间和精力。

问题的模式也是类似的:可以通过chat直接实现,还是只能用chat做一半,然后再用传统的规则引擎之类的做另一半?

5 过去求全,现在求专

AI的推进方向有了,那么就是推进方式了。

前面有提到,因为我自己的经历,从古早的机器学习,到现在的大语言模型,我算是在全面的维持、了解、跟进或者再次自研的;后来又把架构和运维的一些东西捋了一遍。

确保了我能够作出一些东西,以及这些东西不是虚幻,是可以进行长效服务的。

所以现在的关键点不再要求多头并进,每个地方都要埋个点,快速验证可实现性。可以认为,连通性问题是已经解决掉的,现在最关键的是有效性问题。

要能够有效,或者超级有效,无非就是专一。

我可以把精力集中在当前最具有价值的领域,然后突破,然后用上面提到的方式进行最后的商业价值变现。在这个过程中,“浪费”并行时间可能是必须的。能够把这个过程搞定了,那么就都值得,“浪费”的时间是用来保障成功和保证高度的。

就这么多,希望2024大有收获。

这篇关于建模杂谈系列239 AI研究的推进方向与方式思考的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/822155

相关文章

如何突破底层思维方式的牢笼

我始终认为,牛人和普通人的根本区别在于思维方式的不同,而非知识多少、阅历多少。 在这个世界上总有一帮神一样的人物存在。就像读到的那句话:“人类就像是一条历史长河中的鱼,只有某几条鱼跳出河面,看到世界的法则,但是却无法改变,当那几条鱼中有跳上岸,进化了,改变河道流向,那样才能改变法则。”  最近一段时间一直在不断寻在内心的东西,同时也在不断的去反省和否定自己的一些思维模式,尝试重

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

AI儿童绘本创作

之前分享过AI儿童绘画的项目,但是主要问题是角色一致要花费很长的时间! 今天发现了这款,非常奈斯! 只需输入故事主题、风格、模板,软件就会自动创作故事内容,自动生成插画配图,自动根据模板生成成品,测试效果如下图。 变现方式:生成儿童绘本发布到各平台,吸引宝妈群体进私域。  百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全

idea lanyu方式激活

访问http://idea.lanyus.com/这个地址。根据提示将0.0.0.0 account.jetbrains.com添加到hosts文件中,hosts文件在C:\Windows\System32\drivers\etc目录下。点击获得注册码即可。

关于如何更好管理好数据库的一点思考

本文尝试从数据库设计理论、ER图简介、性能优化、避免过度设计及权限管理方面进行思考阐述。 一、数据库范式 以下通过详细的示例说明数据库范式的概念,将逐步规范化一个例子,逐级说明每个范式的要求和变换过程。 示例:学生课程登记系统 初始表格如下: 学生ID学生姓名课程ID课程名称教师教师办公室1张三101数学王老师101室2李四102英语李老师102室3王五101数学王老师101室4赵六103物理陈

以canvas方式绘制粒子背景效果,感觉还可以

这个是看到项目中别人写好的,感觉这种写法效果还可以,就存留记录下 就是这种的背景效果。如果想改背景颜色可以通过canvas.js文件中的fillStyle值改。 附上demo下载地址。 https://download.csdn.net/download/u012138137/11249872

vue同页面多路由懒加载-及可能存在问题的解决方式

先上图,再解释 图一是多路由页面,图二是路由文件。从图一可以看出每个router-view对应的name都不一样。从图二可以看出层路由对应的组件加载方式要跟图一中的name相对应,并且图二的路由层在跟图一对应的页面中要加上components层,多一个s结尾,里面的的方法名就是图一路由的name值,里面还可以照样用懒加载的方式。 页面上其他的路由在路由文件中也跟图二是一样的写法。 附送可能存在

vue子路由回退后刷新页面方式

最近碰到一个小问题,页面中含有 <transition name="router-slid" mode="out-in"><router-view></router-view></transition> 作为子页面加载显示的地方。但是一般正常子路由通过 this.$router.go(-1) 返回到上一层原先的页面中。通过路由历史返回方式原本父页面想更新数据在created 跟mounted

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达