建模杂谈系列239 AI研究的推进方向与方式思考

本文主要是介绍建模杂谈系列239 AI研究的推进方向与方式思考，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

说明

回顾一下过去这些年对AI的一些经历，以及明确一下未来几年的方向、突破口。

内容

1 AI的定义

AI其实是一个很有意思的名词，在很多介绍人工智能的书里都有提到，这也是大众最能接受的一种说法。

所以这里不过多的去纠结严格的学术定义，而是以一种稍微工程化的语言来明确这里提到AI的定义，也是我最接受的一种说法。

AI就是脑力劳动自动化

AI = 人工智能 = 先人工，再智能

要研究自动化，显然是按照人工的方法一步步分解，然后再把他们抽象成一个个步骤，最后串起来。其实看看transformers,最后变的很好用的一瞬间也就是pipeline(流水线）的应用。所以，我认为AI是脑力劳动自动化的产物，应该是一个运行中的服务（提供了流水线）。

2 AI价值变现的历史

有一个误区是认为AI很难落地，从来没有落地。这是因为有些深度学习的部分太让非技术人Impressive了，觉得那种高级才叫AI，其实不对。

以我的经验来看，AI早就落地了，而且基本上每个人都深刻体验过：信用卡的申请。信用评分卡技术，应该是最简单，且最广泛应用在世界各银行中的一项基础技术，至今仍在使用。它使得信贷审批变得异常简单。

如果信贷行业容易完全规范(不出现过去裸贷那样的事)，且不需要牌照的话，这项AI技术应该是最容易被更多实体用于实现AI价值的途径。理想中的信贷是可以和AI完美结合的，但是这个场景就不讨论了，反正不work。

后来又有一个场景是AI落地的：图像识别。

这个就更完美，因为深度神经网络，第一次很完美的解决了图像识别问题，可以应用在很多场景啊，比如用于安检、车辆识别、工厂的产品检验等等。至少开车的朋友们都熟悉，现在停车场基本都自动了吧？

但问题是什么？方法过于好，根本都不需要迭代。随便一个小公司做的分类结果，可能和头部几家的差不多（99.9%和98%的区别）。然后这件事情就结束了，从技术的提出到完全的覆盖，这速度是相当快。

甚至都不用维护。因为车牌号就是车牌号，不需要再改边了，而银行的信用评分卡还得随着形式变化调整参数呢…

然后就到了最近这一波，大语言模型。这个的确是了不起，很奇妙的一个变化。

先说有没有用？ 当然有。这波的大语言模型，甚至改变了古早人们认为计算机无法理解人类语言的观点。
好不好用？这里要“呃”一下，然后回答：在很多场景下还是挺好用的。（那么哪里又不好用呢？）
有没有商业价值？ 当然有，这可不是技术热点，而是商业热点。客服是第一波试验田，第二波搞不好都是码农自己，哦不对，哪些媒体影视行业的更要颤颤发抖。
好搞吗？ 一点都不好搞。要训练大尺寸的模型，别说公司，一个国家都不一定搞的起来，可能也就美国能搞。小尺寸模型倒是多，但是效果不好。想调整吗？全参调的话你也得有个好几张A100才能想，微调的话也就摸着石头过河。
有没有潜力(想象空间)？ 太有了。一个个的码农、客服、家居机器人，面向全球老龄化市场，各种生产力升级。

可以说，软硬件发展结合算法还有今天的经济，大语言模型简直是一个巨大的信息球：谁都知道很厉害，懂的且能搞的真不太多。我现在甚至想象不出来这波技术的商业终点在哪。

反正以目前来看，因为大语言模型不完美，它需要调整的地方（随应用场景）是非常多的：也就是意味着这不是图片识别那种，一杆子买卖。另外它又不好调，不好调的地方除了技术，还有硬件。这里人力的占比可就高了，但是光有人还不够，还要显卡，gpu，这时候硬件又戴起来了，你说神奇不？

关键有些问题，它很真解决了。对自然语言的理解，甚至有点能举一反三。

3 我对于AI的认知

与前面提到的定义不同的是，这里不是谈结果，而是追溯原因。AI是如何能够帮助我们做到脑力劳动自动化的。

AI从模拟人脑的功能上，分为推理和感知两个流派，嗯，有点像气宗和剑宗。现在大放光彩的是剑宗，也就是感知流。

怎么去区分这两种流派呢？

如果我们在桌上放着几种水果，A和B各拿起一个苹果吃了起来。然后我们问A，你为什么拿苹果，而不是其他水果呢？

A回答：我也不清楚，但感觉上就是想吃苹果。感知流。

然后问B,那么你呢？

B回答：因为苹果里铁和锌的含量最高，最近我感觉造血能力和记忆力不够好，吃这个水果对我最合适。推理流。

到这里，我觉得大家应该可以区分出推理和感知的差别了。

推理流曾经的巅峰是贝叶斯网络，感知流就不说了。

再来说他们的在应用上的差别与意义。

目前大语言模型这么牛，核心的金融商是不是可以把所有的交易都交给大语言模型做呢？我看是不敢的。不说说时间还不够，即使再过几十年，这件事还是不可能（但没准会有几朵昙花）。

因为人类信赖的决策，大多是推理型的。例如孙子兵法就是超有逻辑的推理，大多数将军估计是会认真拜读的。很少有将军敢说我感觉行，上吧，兄弟们。但凡是都有例外，据说霍去病就是这样一个神奇的例子。

但主流还是通过严密的推理才能让我们show hand。至于信息不完全博弈又是另一个问题，不讨论。

所以感知类的技术无论再怎么发展，推理类的不跟上，时代都很难说进步了。倒也不是说感知类就不如推理类，他们就像是人的神经和大脑，在一起才最好。现在强调推理，是因为感知已经过强了。光练剑，不练气，这最后也是不行啊。

嗯，我大概记反了，华山派后来是气宗赢了，风清扬没赶上大pk,不然不一定。反正就是那么个意思。

说一段的主要目的还是要提醒自己坚持初心，独立思考，不要盲目跟风，要把握度。协调练剑与练气的关系。

4 对我来说，AI的机会

4.1 我的路是一条自研的路

我觉得我与同行们的差别可能在于：特别异想天开，然后又愿意从底层开始研究。这源于一个信念：使用现成的产品，可以轻松实现你80%的需求，但最核心的20%需求你将无法实现。 大语言模型不也是一个很好的例子吗？(所以我应该是会尝试从头训练一个，但不必是那么大的尺寸)

事实是我会对常用的算法进行剖析，最终会将其转为矩阵计算为止。以逻辑回归为例，sklearn里提供了标准方法，但是我还是愿意自己按照算法原理，用矩阵去实现建模杂谈系列195 逻辑回归的矩阵计算。这有什么好处呢？那就是可以用显卡一次性的对数千，乃至数万个LR进行同时拟合啊。
那么为什么要对数万了LR同时拟合呢？因为要进行优化啊，和遗传算法结合。每次的拟合不就是一次演进吗？Python 运筹优化9 再次拆解基本的遗传算法, 遗传算法最烦的不就是对新生成的大量种群进行计算和评估吗？

所以即使是一个简单的基础算法变体，都能够产生很不一样的结果。

一个题外话：深度学习为什么强？ 因为算力强了。算力算的是什么？矩阵。Attention为什么强，因为它用了矩阵来表达两两token间的邻接关系，这是一个完美的矩阵存储利用。然后在用矩阵进行特征计算，用大量的算力。所以，归根到底，如果我们能够将矩阵利用到极致，一定可以取得不弱于深度学习效果的（所以不要顺着OpenAI那种暴力路线一直走，这和优化算法一个原理(真要比起来，任何一个暴力优化都可以瞬间崩掉99%主机的内存和显存)，可以动态规划，迅速减少计算规模）。

除了在算法方法，我还尝试建立一个完全自由的分布式计算机系统。这是支持AI的基础体系，在2020年以前，我这块几乎为0，然后一点点搭建起来的。大概也是我自己觉得如果我不去搞，老要求别人太烦了（社恐）。而且有些事过于疯狂，需要投入的时间成本太大，我没理由拉着别人一起疯。
不管怎样，到现在我已经搭建了好了这样一个系统，我称之为算网(CalNet),超级方便。从买零件组装台式机，到刻录操作系统，到安装ubuntu，设置ssh, 建立frp，到使用docker搭建微服务，构造数据库，前端，后端以及一些辅助工具等一系列的工具，现在的算网已经停不错的了。可以支撑非常大的数据吞吐、存储与处理。当然，算网需要至少一台云主机。我甚至还申请了一个10年的域名，一度我都感觉我是不是都算是半个运维工程师了。

如果说算法是无形的核心，算网就是有形的载体。最初算法超过了算网的能力，现在算网又超过了算法，所以我又在重新投入算法。

4.2 基于算网的AI机会

由于算法或者说AI过于善变，就像是一个个的火花。所以我认为，未来我的竞争力核心是算网（独特的，自研的）。
算网不仅是几台机器，而是同时容纳了大量的微服务，用于构建一个高效系统。在拓展性方便，包括现在的租用算力是很容易作为算网的拓展的，不管是传输还是计算。所以如果有必要，算网的算力可以拓展到一个比较夸张的程度（只要付不多的钱）。
长期维持运行的算网机只要保持足够大的存储，特别是固态硬盘就够了。目的是为了空间换时间，或者是进行长周期研究。最近固态涨价很疯狂，本来国产的一些牌子价格是很不错的。不过现在的消费级主板，内存太小也是个问题。以后最好一台消费级主机可以挂2T内存，80T或者160T固态的样子。

嗯，不多说算网了，这是另一个主题，明确了我的AI路是绑定算网推进这件事就够了。

有哪些AI机会呢？

我觉得要 market oriented的来看这件事，从如何能让产品、服务卖出去来看。

4.2.1 免费服务

免费可以说是IT行业的一项特色了。以前的行业应该没有这么玩的，包括现在我用的操作系统，docker,各种数据库都是免费的，当然也有收费的版本，但是免费的通常都足够好用。

所以问题来了，为什么都是聪明人的行业，要做免费这么“傻”的事呢？

假设一个B2B的场景，客户如果要买你的产品，一定是客户的业务端有需求，然后通过广告或者啥关系找到了你，接下来你要给客户解释说你的产品如何work,如何稳定，如何划算。客户听的很满意，然后就回去和业务说了，业务感觉也不错，就要求poc。poc完了之后就开始谈价格，签合同，最后你就赚钱了。

后来由于行业发展过快，门槛不断降低，就开始“卷”了。到最后这个链条被嫌弃太长了，与其搞半天流程，还不如我就把poc直接做好，你觉得ok就买。这就相当于跳过中间商，直接和用户对接了。现在的LLM在这块做的算比较炉火纯青了，免费的chatgpt3.5, 付费的4.0。免费的手机端，收费的API。

而搭建微服务对我来说几乎是一个例行过程，唯一需要的可能是一点点的公网带宽，租一个云服务器就可以了。类似大语言模型做的那样，用gradio或者streamlit，甚至是我自己的那套bootstrap做一个模板，让用户通过页面进行相对低频的操作。这个可以不需要鉴权。

同时也可以提供接口服务，但是加上鉴权和token,限制每用户的使用次数。

我想背后的逻辑可以是：

通过受限的免费服务，用户最终会有一个认知：这个功能靠不靠谱。当用户用的足够多时，他们会认识到，这一套功能能够节约他们的时间，或者解决一些问题，这些是有价值的，值得付费去专门购买。反之，用户用的即使不多，或者没有那么强的需求，他可能也因为受到一些便利而愿意将这个服务介绍给别人（相当于在做免费推广）。

我有些东西是觉得还蛮不错的，比如时间转换问题。时间转换是一个不那么高频的需求，但是当你需要使用时，这又是一个需要你几分钟，甚至十几分钟才能重新get回来的问题。以python为例，有datetime和time包，里面功能还挺多的，但是乍一看有点烦，仔细一看还有点绕。
我自己写了一个新的对象Python一些可能用的到的函数系列123 ATimer2-时间偏移并封装为了接口服务，里面就解决正常的字符与时间戳的互转，以及时间偏移(间隔）计算，用起来非常简单。而且更重要的是，即使是效率上，也比原版的time包和datetime包快非常多。

对于更广泛的函数，我做了一个GlobalFunc服务，未来，我也打算把这个发布为免费服务使用。在这之前，我似乎应该起一个反向代理，然后把这个通用的GlobalFunc部署在多个弹性算力机上。

4.2.2 产品增强

还有一个很直接的点就是产品增强。

一类是被动型的，一种是主动型的。

被动型的典型需求是反爬虫，主动型的则是推荐。以一款通用的toC产品为例，有哪些地方可以进行增强的：

1 反爬取。识别哪些用户是爬虫，然后予以拒绝，甚至给予误导。
2 目标引导。假设用户因为某个特定需求来使用产品的，算法将尽快帮助用户找到合适的信息，从而减少用户使用产品的成本，提高ROI。
- 减少输入时间
- 减少跳转步骤
- 减少为明确用户意图的步骤
- 提供匹配度更高的答案
3 精准营销。为某个特定的产品，用最小的代价（例如只推向极少客户）来获得最大收益。
4 交叉销售。通过推荐算法，既扩大产品销售，又让用户满意。
5 自动优化。通过自动化的n次细微的AB Test来优化产品的资源配置。

这种逻辑就很简单，通过before/after，可以很快度量算法的效果，即使不会单调增强，但是也必然会提升效果，带来可直接度量的经济效益。
例如提升了用户体验，所以日活高了，这本身就是钱（广告费）。

我认为，会有一个理想的终点：有一组特征向量来代表用户，一组特征向量代表产品体验，以及一组特征向量代表用户行为，还有一组代表运营特征。通过多目标优化，我们最终将结果稳定在某个理想状态。

4.2.3 量化决策

量化一定是个非常好的方向。可以利用指数的统计稳定性来构造稳定的获利工具。这对于个人来说是最好的检验真理并收获真金的绝佳场所。

这里不多提了，内容过于多。

4.2.4 chat及衍生(Agent)

关于chat类应用，有两个方向。

首先，chat解决了很多NLP领域的疑难问题，号称一站式解决方案。所以可以利用这个原生的特点来解决很多细碎的小问题。当然，这里还是有很多重要问题值得解决的。

要真的走向工业化，我们必须能够进行细微控制。

LLM是一个很大的机器，我们可以调整成不同的形状使用。但是当我们觉得某个形状好，要固定下来时，它应该是可以固定住，并且可以被大批量并行调用的。并行是指在数据处理层面是矩阵并行的。过去BERT可以，但GPT就是不行，多显卡没有意义。

或者退而求其次，如果GPT本身不行，那么它是不是可以通过语言引导，调出我要的BERT？

这是属于原生的应用价值，通过稳定和并行化有用的形态，来达到工业化效果。现在串行且随机是不可能工业化的。

其次，基于chat的agent。

过去可能要通过任务调度，或者规则指定才会像流水线一样执行的n个步骤，有没有可能通过chat来完成。这样的意义可能更大，在程序开发上会节约大量的时间和精力。

问题的模式也是类似的：可以通过chat直接实现，还是只能用chat做一半，然后再用传统的规则引擎之类的做另一半？

5 过去求全，现在求专

AI的推进方向有了，那么就是推进方式了。

前面有提到，因为我自己的经历，从古早的机器学习，到现在的大语言模型，我算是在全面的维持、了解、跟进或者再次自研的；后来又把架构和运维的一些东西捋了一遍。

确保了我能够作出一些东西，以及这些东西不是虚幻，是可以进行长效服务的。

所以现在的关键点不再要求多头并进，每个地方都要埋个点，快速验证可实现性。可以认为，连通性问题是已经解决掉的，现在最关键的是有效性问题。

要能够有效，或者超级有效，无非就是专一。

我可以把精力集中在当前最具有价值的领域，然后突破，然后用上面提到的方式进行最后的商业价值变现。在这个过程中，“浪费”并行时间可能是必须的。能够把这个过程搞定了，那么就都值得，“浪费”的时间是用来保障成功和保证高度的。

就这么多，希望2024大有收获。

这篇关于建模杂谈系列239 AI研究的推进方向与方式思考的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

建模杂谈系列239 AI研究的推进方向与方式思考

说明

内容

1 AI的定义

2 AI价值变现的历史

3 我对于AI的认知

4 对我来说，AI的机会

4.1 我的路是一条自研的路

4.2 基于算网的AI机会

4.2.1 免费服务

4.2.2 产品增强

4.2.3 量化决策

4.2.4 chat及衍生(Agent)

5 过去求全，现在求专

相关文章

使用Sentinel自定义返回和实现区分来源方式

Springboot处理跨域的实现方式(附Demo)

springboot security使用jwt认证方式

springboot security之前后端分离配置方式

SpringBoot中封装Cors自动配置方式

Flutter打包APK的几种方式小结

在C#中调用Python代码的两种实现方式

基于Flask框架添加多个AI模型的API并进行交互

Vue中组件之间传值的六种方式（完整版）

Python实现Microsoft Office自动化的几种方式及对比详解