阿里知识图谱首度曝光:用机器学习构建推理引擎

2024-05-07 14:48

本文主要是介绍阿里知识图谱首度曝光:用机器学习构建推理引擎,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

阿里知识图谱每天保持千万级别的拦截量,亿级别的全量智能审核次数,在滥发、侵权、合规、假货、经营范围等多个场景全面与问题卖家正面交锋,实时对弈,最大限度地保护知识产权,保护消费者权益。

什么是知识图谱?

在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会反馈它认为与这个关键词最相关的网页。

直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案。

从杂乱的网页到结构化的实体知识,搜索引擎利用知识图谱能够为用户提供更具条理的信息,甚至顺着知识图谱可以探索更深入、广泛和完整的知识体系,让用户发现他们意想不到的知识。谷歌高级副总裁艾米特·辛格博士一语道破知识图谱的重要意义所在:“构成这个世界的是实体(things),而非字符串(not strings)”。

阿里知识图谱

阿里的主要业务是电商。它的知识图谱以商品、标准产品、 标准品牌、 标准条码、标准分类为核心, 利用实体识别、实体链指和语义分析技术,整合关联了例如舆情、百科、国家行业标准等9大类一级本体,包含了百亿级别的三元组,形成了巨大的知识网。雷锋网AI科技评论到,这些海量的数据来源于淘宝、天猫、1688、AliExpress等多个市场,同时品牌商、行业运营、治理运营、消费者、国家机构、物流商等多种角色参与其中,贡献着、校正着这样一个庞大的商品库。这个知识图谱对无论是知识产权保护,还是提升消费者购物体验,实现商品数据的标准化(商品规范的统一和商品信息的确定性), 以及与内外部数据之间的深度互联,意义都非常重大。比如商品标准化可以让我们知道哪些商品是同样一件产品,我们才能确切地知道一个品牌是否被授权,品牌下的产品卖到了哪些市场。

阿里知识图谱运用

阿里的商品知识图谱广泛地应用于搜索、前端导购、平台治理、智能问答、品牌商运营等核心、创新业务。其中最明显的应用之一体现在阿里电商平台的管控上。过去只能通过人工“巡检”来对商品发布进行审核,而现在面对海量的商品发布量,“巡检”模式显然已不太现实。根据阿里技术的官方介绍,

“阿里知识图谱就像一张过滤网,最大可能地借助大数据、人工智能阻止不良商家、问题商品进入阿里生态。面临问题商家实时的对弈、变异和恶意攻击等诸多挑战,阿里知识图谱可以保持每天千万级别的拦截量,亿级别的全量智能审核次数,在滥发、侵权、合规、假货、经营范围等多个场景全面与问题卖家正面交锋,实时对弈。”

根据阿里技术的介绍,为了最大限度地保护知识产权,保护消费者权益,阿里知识图谱团队对知识图谱推理引擎技术提出了智能化、自学习、毫秒级响应、可解释等更高的技术要求。

阿里知识图谱首度曝光:用机器学习构建推理引擎,让千万黑心商家无处可逃

张伟 (花名:览图)博士, 阿里巴巴商品知识图谱负责人

引入机器学习算法搭建推理引擎

据了解,阿里知识图谱研究团队设计了一套框架来实现知识表示和推理。此外:知识图谱实体、关系、词林(同义词、上下位词)、垂直知识图谱(例如地理位置图谱、材质图谱)、机器学习算法模型等都纳入进来做统一的描述。

按照不同场景把推理分为:上下位和等价推理;不一致性推理;知识发现推理;本体概念推理等。例如:

 1.   上下位和等价推理。检索父类时,通过上下位推理把子类的对象召回,同时利用等价推理(实体的同义词、变异词、同款模型等),扩大召回。 例如,为保护消费者我们需要拦截 “产地为某核污染区域的食品”,推理引擎翻译为 “找到产地为该区域,且属性项与“产地”同义,属性值是该区域下位实体的食品,以及与命中的食品是同款的食品”。

2.   不一致推理。在与问题卖家对弈过程中,我们需要对商品标题、属性、图片、商品资质、卖家资质中的品牌、材质、成分等基础信息,做一致性校验。比如说标题中的品牌是Nike而属性或者吊牌中品牌是Nake,如下图所示,左边描述了商品标题、属性、吊牌上的品牌信息是一致的,推理为一致。右边为吊牌和商品品牌不一致的商品,被推理引擎判断为有问题的商品。


阿里知识图谱首度曝光:用机器学习构建推理引擎,让千万黑心商家无处可逃

3.   知识发现推理。一致性推理的目的是确保信息的确定性,例如通过一致性推理我们能确保数据覆盖到的食品配料表正确。但消费者购物时很少看配料表那些繁杂的数字。消费者真正关心的是无糖、无盐等强感知的知识点。为了提高消费者购物体验,知识发现推理通过底层配料表数据和国家行业标准例如:

  • 无糖:碳水化合物≤ 0.5 g /100 g(固体)或100 mL(液体)

  • 无盐:钠≤5mg /100 g 或100 mL

可以把配料表数据转化为“无糖”“无盐”等知识点。从而真正地把数据变成了知识。通过AB test验证,类似知识点在前端导购中极大地改善了消费者购物体验。

推理引擎背后技术框架

阿里知识图谱首度曝光:用机器学习构建推理引擎,让千万黑心商家无处可逃

首先,推理引擎把自然语言通过语义解析(semantic parsing)转换为逻辑表达式(logical form)。语义解析采用了结合神经网络和符号逻辑执行的方式:自然语言经过句法、语法分析、 NER、 Entity Linking, 被编码为分布式表示(distributed representation),句子的分布式表示被进一步转义为逻辑表达式。

在分布式表示转换为逻辑表达式的过程中,首先面临表示和谓词逻辑(predicate)操作之间映射的问题。我们把谓词当做动作,通过训练执行symbolicoperation,类似neural programmer中利用attention机制选择合适的操作,即选择最有可能的谓词操作,最后根据分析的句法等把谓词操作拼接为可能的逻辑表达式,再把逻辑表达式转换为查询等。过程示意如下图所示。

阿里知识图谱首度曝光:用机器学习构建推理引擎,让千万黑心商家无处可逃

其次,逻辑表达式会触发后续的逻辑推理和图推理。逻辑表达式在设计过程中遵循以下几个原则:逻辑表达式接近人的自然语言,同时便于机器和人的理解。表达能力满足知识图谱数据、知识表示的要求。应该易于扩展,能够非常方便的增加新的类、实体和关系,能够支持多种逻辑语言和体系,如Datalog、OWL等,即这些语言及其背后的算法模块是可插拔的,通过可插拔的功能,推理引擎有能力描述不同的逻辑体系。 

以上下位和等价推理为例:“产地为中国的食品”

用逻辑表达式描述为:

∀x: 食物(x) ⊓ (∀ y: 同义词(y,产地)) (x, (∀ z: 包括下位实体(中国, z)))

随后找同款:

∀t, x: ($ c:属于产品(x, c) ⊓属于产品(t, c)) 

此外,推理引擎还用于知识库自动补全。是基于embedding做知识库补全。主要思路是把知识库中的结构信息等加入embedding,考虑了Trans系列的特征,还包括边、相邻点、路径、实体的文本描述 (如详情)、图片等特征,用于新关系的预测和补全。

雷锋网(公众号:雷锋网)AI科技评论小结:以上就是关于阿里知识图谱团队以及业务介绍。这个团队已成立三年,目前已经形成了巨大的知识图谱和海量的标准数据,同时与浙江大学陈华钧教授团队成立联合项目组,引入了前沿的自然语言处理、知识表示和逻辑推理技术。通过NLP、语义推理和深度学习等技术,阿里知识图谱团队将会以更强大的技术体系保障消费者的权益。

这篇关于阿里知识图谱首度曝光:用机器学习构建推理引擎的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967659

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

嵌入式QT开发:构建高效智能的嵌入式系统

摘要: 本文深入探讨了嵌入式 QT 相关的各个方面。从 QT 框架的基础架构和核心概念出发,详细阐述了其在嵌入式环境中的优势与特点。文中分析了嵌入式 QT 的开发环境搭建过程,包括交叉编译工具链的配置等关键步骤。进一步探讨了嵌入式 QT 的界面设计与开发,涵盖了从基本控件的使用到复杂界面布局的构建。同时也深入研究了信号与槽机制在嵌入式系统中的应用,以及嵌入式 QT 与硬件设备的交互,包括输入输出设

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了