关于机器学习,我们忽视的东西

2024-06-21 09:08
文章标签 学习 机器 东西 忽视

本文主要是介绍关于机器学习,我们忽视的东西,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”


作者:Ilja Moisejevs

编译:ronghuaiyang

导读

新功能不是免费的。

我们生活在一个疯狂的时代。我记得当我还是个孩子的时候,我在看《星球大战》的时候,我在想,要过多久我们的厨房里才会有会说话的机器人。事实证明,这段时间并不长。实际上不到 10 年。

人工智能,更具体地说,是机器学习将科幻小说变成了现实 —— 没有其他的方式来表达它。每次我浏览技术评论或 TechCrunch 时,我都被我们现在可以“随意”做的事情所震撼。

透视墙壁?很容易。通过视频猜测材料的物理性质?实现了。从键盘声音预测按了哪个键?如何生成逼真的面孔、身体或诗歌?或者教机器画画?或者教机器打《星际争霸》游戏?

还有,你见没见过这种东西在街上晃来晃去?

疯狂。

现在,如果你真的去和 AI/ML 领域工作的人聊一聊,你可能会得到两种回答中的一种。要么对于 AI 可以做什么和下一个大的愿景/ NLP /强化学习问题超级兴奋,要么他们对我们这些愚蠢的人类构件的人工智能非常恐惧,相信不久人工总体智会将人类转化为一个无用的东西。在我看来,这就像今天社区的普遍分裂 —— 50%的人认为人工智能是我们的未来,50%的人认为它是我们的末日。

关于人工智能和机器学习是什么,我想提供第三种观点 —— 或许是一种更世俗的观点:为对手提供一个新的攻击面。

让我们探索一下。

新发明的黑暗面

每当一项新发明出现时,大多数人都倾向于认为这项发明带来了新的惊人的能力。但是,哪里有光明,哪里就会有阴影,因此新功能不经意间就会带来新的“漏洞”,供黑客利用。然后利用它们。

让我们上一节历史课,重访 PC 市场。第一台个人电脑(Altair 8800)于 1975 年发布,随后在接下来的 10 年里进行了一系列的创新,最终在 1984 年推出了 Apple Macintosh。随之而来的是一波爆炸性的采用浪潮,在整个 90 年代一直持续到 2000 年:

然而,大多数用户并不知道,在恶意软件或“恶意软件”市场也发生了类似的爆炸。

1989 年,Robert Morris 尝试使用 Unix sendmail,并构建了一个可以自我复制的蠕虫,然后将其发送到 internet 上。一开始只是一个简单的实验,结果变成了第一次 DoS 攻击,造成的损失估计在 10 万到 1000 万美元之间,并使整个互联网慢了好几天(当然现在是不可想象的)。随后,1989 年发生了第一次勒索软件攻击,1996 年出现了第一个 Linux 病毒(“Staog”),1998 年出现了第一个 AOL 木马。

后来,同样的事情也发生在移动领域:2007 年的 iPhone 时刻,随之而来的是智能手机的爆炸式增长:

紧随其后的是手机恶意软件的爆炸式增长:

那么,机器学习呢?

尽管如此,机器学习的产品化仍处于萌芽阶段。许多真正前沿的工作仍然局限于研究实验室和大学 —— 但即使是研究,我们也可以开始看到一些相同的趋势出现。

机器学习研究论文按年份和地区分类:

…vs对抗机器学习(ML 的恶意软件版本)研究论文计数:

事情正在发生。开始恐慌了吗?

安全问题

还没有那么快。好消息是,随着个人电脑占据了我们的日常生活,黑客开始入侵,另一个与之并行的市场开始发展 ——安全解决方案市场。

1987 年,Andreas Luning 和 Kai Figge 为 Atari ST 平台开发了第一个抗病毒产品。同年,McAffee、NOD、Flu Shot 和 Anti4us 都出生了 —— 在接下来的 20 年里,更多的安全类产品诞生了:

很快,VCs 就意识到了大型网络安全将会发生什么,资本将开始流动:

  • Kleiner Perkins 对 Symantec 投资 3M

  • McAffee 从 Summit Partners 拿到了融资

  • BitDefender 融资 7 百万美元

数百万美元的收购:

  • McAffee700 万美元买了 solomon

  • Symantec 同意以 787.8 亿美元购买 Axent

  • 微软从 GeCAD 软件中获取杀毒技术

随着手机恶意软件的快速增长,安全玩家也出现了类似的爆炸式增长:

安全邻域的融资:

  • Bluebox 从 Andreessen Horowitz 融资$9.5M

  • France Telecom 对 Lookout 投资达到$20M

  • Zimperium 在移动安全领域融资$8M

安全领域的收购:

  • 移动安全初创公司被 Rapid7 收购

  • Apple 以$356M 购买了三星安卓安全合作伙伴

  • AVG 以$220M 购买了移动安全公司 Location Labs

那么机器学习呢?

机器学习需要安全吗?

在过去的某个时候,我曾为英国最大的金融科技公司之一进行过反欺诈和反洗钱工作。我的团队每年监管的交易额超过 100 亿美元,我们一直在努力阻止骗子进入 GC 的循环系统。很自然地——在某种程度上,我们屈服于这种炒作,决定尝试机器学习。

令我当时感到惊讶的是,它居然奏效了。事实上,它很有效。从传统的启发式,我们设法减少了 80%的金钱损失到欺诈和提高了 20 倍的检测可疑的帐户洗钱。

只有一个问题。

我们在我认为“关键”的能力上部署了机器学习。我们给了这个算法一项任务,但这项任务不允许它失败——如果失败了—— 我们要么损失大量金钱,要么被吊销金融执照。对我这个直接负责 GC 安全的产品经理来说,这两者听起来都不是什么好事。

所以我需要知道 ML 如何以及何时会失败。如何利用我们的模式?它内在的弱点在哪里?我如何知道 GoCardless 是否受到攻击?

在花了太多的夜晚阅读 ML 的文件和在暗网上寻找之后,我终于找到了我所寻找的。我在 ML 上了解到中毒攻击,攻击者可以通过在训练中注入损坏的数据来影响模型的思维。我发现了对抗性的例子,以及在测试时模型是如何容易被精心设计的扰动的输入误导的。最后,我了解到隐私攻击,底层数据和模型本身都不是真正的私有。

然后,我发现了这个……

我吓坏了。

到 2019 年底,1/3 的企业都将部署机器学习。这是你、我、我们的朋友和亲人每天使用的所有产品的三分之一 —— 在任何知道 ML 工作原理的攻击者面前全裸。

是的,机器学习需要安全。

迈出第一步

ML 安全是一个非常新兴的领域 —— 到今天基本上还不存在。如果说我从上面的研究中学到了什么,那就是任何没有数学博士学位的人都很难弄清楚如何保证他们的 ML 的安全(现在几乎没有解决方案,只有大量的数学研究论文)。

考虑到我们的生活中有多少是要托付给算法的 —— 我认为这是我们的责任 —— 你、我和整个 ML 社区的责任是确保安全不被抛在脑后。今天有很多我们可以做的来构建更健壮的 ML 模型 —— 正如我解释我的帖子逃税,中毒和隐私攻击。但更重要的是,我们需要转变思维模式——从“不惜一切代价的准确性”转向更平衡的准确性与稳健性:

C1和C2是两个模型。 很明显,C1一开始并不是很准确,但是随着攻击强度的增加,它在抵抗攻击方面也做得更好。 你选择C1还是C2作为ML模型?

这篇文章和上面的文章是我尝试迈出的第一步,迈向一个更健壮的 ML 未来。如果你发现它的洞察力-一定要分享的洞察力前进。

确保每个人的安全。

—END—

英文原文: https://medium.com/@iljamoisejevs/what-everyone-forgets-about-machine-learning-974752543849

请长按或扫描二维码关注本公众号

喜欢的话,请给我个好看吧

这篇关于关于机器学习,我们忽视的东西的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1080796

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

线性代数|机器学习-P36在图中找聚类

文章目录 1. 常见图结构2. 谱聚类 感觉后面几节课的内容跨越太大,需要补充太多的知识点,教授讲得内容跨越较大,一般一节课的内容是书本上的一章节内容,所以看视频比较吃力,需要先预习课本内容后才能够很好的理解教授讲解的知识点。 1. 常见图结构 假设我们有如下图结构: Adjacency Matrix:行和列表示的是节点的位置,A[i,j]表示的第 i 个节点和第 j 个

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件