【金猿技术展】专利智能语义检索——基于预训练的语义排序

2023-10-13 09:50

本文主要是介绍【金猿技术展】专利智能语义检索——基于预训练的语义排序,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

19127f8928c535b61b990b80e7a83be4.png

智慧芽技术

本项目由智慧芽投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜榜单及奖项”评选。

eff775e0c358169320d9b0939ff78898.png




数据智能产业创新服务媒体

——聚焦数智 · 改变商业



通过深度学习、自然语言处理以及预训练语言模型等前沿人工智能技术的运用,实现在海量全球多语言专利文本中进行自动化、智能化的数据分析与文本挖掘,进一步实现深层次语义分析,为用户提供更加精准地语义检索服务。

从不同的数据源入手,智慧芽进行了细粒度地文本实体抽取、实体关联、问题关联、领域关联、特征选择等方面的数据治理,通过领域语义图谱、文本/图片训练样本和预训练模型等,通过自研机器翻译引擎系统,智慧芽打通了不同专利文本之间的语言壁垒,使得面向全球TB级专利文本的分析、检索以及语义挖掘成为可能。

专利智能语义检索系统,主要在专利预训练语言模型的基础上,基于DSSM架构采用BERT孪生网络来获取文本的浅层语义信息,在检索层面,采用传统关键词检索以及向量检索相结合的方式,既保证了检索结果的覆盖率,也保证了检索结果的相关性。通过基于预训练语言模型的智能语义排序方法的应用,智慧芽专利智能语义检索系统取得了巨大的技术突破以及商业价值。

同时,相关技术已经获得了专利授权:CN112800779B。

技术说明

智慧芽智能语义检索系统,包含了三个主要的技术环节:(1)搭建面向专利领域的多语言翻译系统;(2)搭建面向专利文本的实体知识库;(3)搭建面向专利领域的语义排序系统。通过深度学习、自然语言处理等AI技术的综合应用,实现了智能语义检索系统各个环节的有序结合、相互依赖,同时又互为补充。

(1)搭建面向专利领域的多语言翻译系统

首先,在专利平行语料构建阶段,智慧芽深入挖掘了专利领域的可比语料,进一步利用自研的句对齐算法构建了千万级专利领域平行句对,同时,基于Transformer架构,我们通过引入专利词典以及采用回译等数据增强技术,构建了专利领域的多语言翻译系统,打通了不同语言专利文本的挖掘障碍。在实际翻译系统上线阶段,为了进一步提升翻译速度,同时减少显卡的利用,我们进一步优化了Transformer的模型架构,从而保证了翻译质量的专业与速度。

(2)搭建面向专利文本的实体知识库

专利文本是一种非常专业的文本,但是其表述也有一定的专业性与隐晦性,通过综合采用自研分词系统、TextRank、依存句法分析、词性标注以及TransE等主流自然语言处理算法与模型,我们实现了对专利文本的智能化、自动化解析,从而基于专利文本构建了包含同义词关系、上下位关系以及相似关系等专利实体关系的知识库。更进一步,依据专利文本的特点,智慧芽基于BERT模型,自研了专利IPC/CPC分类系统,同时扩展了原始专利文本的IPC/CPC类别,针对用户输入的纯文本信息,自动预测其IPC/CPC分类号。通过以上技术的综合应用,我们保证了尽可能多的召回潜在专利候选集合。

(3)搭建面向专利领域的语义排序系统

为了进一步保证智慧芽智能语义检索系统搜索结果的准确性,智慧芽利用海量专利数据重新训练了面向专利领域的预训练语言模型,同时,为了更加深入地挖掘专利文本之间的语义关系,在专利领域预训练语言模型的基础上,我们利用图神经网络进一步扩展了专利文本的语义内涵。最后,在数据采样方面,我们基于DSSM架构采用多LOSS融合的方式,使得排序模型的泛化能力更强,从而保证了篇章语义关系挖掘的准确性。在检索工程优化方面,为了保证搜索的实时性,智慧芽自研了向量检索平台,同时对原有语义生成模型进行了多模型融合与蒸馏。

在语义检索的最终RANK部分,智慧芽采用实体检索分数与向量检索分数向融合的方式,同时嵌入LTR,保证了语义检索结果的快、准、全。

智慧芽一直行走在专利领域AI技术应用与研究的最前沿,通过对专利智能语义检索的深耕、打磨与上线,智慧芽获得多项国家级资质荣誉,包括:世界知识产权组织第四批技术与创新支持中心(TISC)筹建机构、第三批“全国知识产权服务品牌机构”、“国家高新技术企业”、承担科技部的“国家重点研发计划”子课题任务等。

开发团队

·带队负责人:屠昶旸

屠昶旸,智慧芽技术副总裁。拥有20多年高科技、互联网行业从业经验,曾在思科、网迅等公司任职。

长期从事为企业级用户提供协作开放云平台的技术运营服务,负责云平台的技术运营和相关云管理软件的开发。

·团队其他重要成员:王为磊、王超超、夏宇彬

·隶属机构:智慧芽

智慧芽(PatSnap)是科技创新情报SaaS服务商,聚焦科技创新情报和知识产权信息化服务两大板块。通过机器学习、计算机视觉、自然语言处理(NLP)等人工智能技术,智慧芽为遍布全球科技公司、高校和科研机构、金融机构等提供大数据情报服务。智慧芽围绕科技创新与知识产权已经构建产品矩阵,旗下产品包括PatSnap全球专利数据库、Innosnap知识产权管理系统、Insights英策专利分析系统、Discovery创新情报系统等。

智慧芽已经服务全球50多个国家超1万家客户,涵盖了高校和科研院所、生物医药、化学、汽车、新能源、通信、电子等50多个高科技行业。国内客户包括清华大学、北京大学、中科院、中国石化、海尔、美的、小米、宁德时代、小鹏汽车、大疆、药明康德、商汤科技、华大等;国际客户包括麻省理工学院、牛津大学、陶氏化学、戴森、Spotify等。

相关评价

相信科技的力量能改变世界,我们看到智慧芽在大数据和人工智能上拥有全球领先的技术实力,这无疑是非常令人激动的。创新和知识产权情报服务正在帮助全球创新能力迈上新台阶,能帮助全球更多企业创新发展,我们坚信这一点。

管理合伙人 陈恂
——软银愿景基金(SoftBank Investment Advisers)

中国企业对创新和知识产权服务的需求正在迅速增长。智慧芽作为这一领域的头部厂商,深耕十多年,拥有对创新和知识产权领域前瞻性的洞察,积累了大数据和人工智能丰富的能力。

董事总经理 姚磊文
——腾讯投资

f5e82014c30f7c9a8ea9a5120b27f9e9.png

55ea10e1ef1c9c333e232bbe838f8222.png

《2021企业数智化转型升级服务全景图/产业图谱1.0版》

89240e97c9c41680af3be18aeb9e0c78.png

《2021中国数据智能产业图谱3.0升级版》

9c5a04a55248ddee89182c105f69309b.png

《2021中国企业数智化转型升级发展研究报告》

47888396f32fafb0b321c786b7830674.png

《2021中国数据智能产业发展研究报告》

6994966d6646fcbc27f334899aa996ce.png

❷ 创新服务企业榜 

❸ 创新服务产品榜

❸ 最具投资价值榜 

❺ 创新技术突破榜

8977eb5d6b42b387b4295ac6cd6bcd8c.png

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》

联系数据猿

北京区负责人:Summer

电话:18500447861(微信)

邮箱:summer@datayuan.cn

全国区负责人:Yaphet

电话:18600591561(微信)

邮箱:yaphet@datayuan.cn

这篇关于【金猿技术展】专利智能语义检索——基于预训练的语义排序的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/202386

相关文章

C++快速排序超详细讲解

《C++快速排序超详细讲解》快速排序是一种高效的排序算法,通过分治法将数组划分为两部分,递归排序,直到整个数组有序,通过代码解析和示例,详细解释了快速排序的工作原理和实现过程,需要的朋友可以参考下... 目录一、快速排序原理二、快速排序标准代码三、代码解析四、使用while循环的快速排序1.代码代码1.由快

使用Python实现表格字段智能去重

《使用Python实现表格字段智能去重》在数据分析和处理过程中,数据清洗是一个至关重要的步骤,其中字段去重是一个常见且关键的任务,下面我们看看如何使用Python进行表格字段智能去重吧... 目录一、引言二、数据重复问题的常见场景与影响三、python在数据清洗中的优势四、基于Python的表格字段智能去重

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

Python3脚本实现Excel与TXT的智能转换

《Python3脚本实现Excel与TXT的智能转换》在数据处理的日常工作中,我们经常需要将Excel中的结构化数据转换为其他格式,本文将使用Python3实现Excel与TXT的智能转换,需要的可以... 目录场景应用:为什么需要这种转换技术解析:代码实现详解核心代码展示改进点说明实战演练:从Excel到

Spring排序机制之接口与注解的使用方法

《Spring排序机制之接口与注解的使用方法》本文介绍了Spring中多种排序机制,包括Ordered接口、PriorityOrdered接口、@Order注解和@Priority注解,提供了详细示例... 目录一、Spring 排序的需求场景二、Spring 中的排序机制1、Ordered 接口2、Pri

Redis存储的列表分页和检索的实现方法

《Redis存储的列表分页和检索的实现方法》在Redis中,列表(List)是一种有序的数据结构,通常用于存储一系列元素,由于列表是有序的,可以通过索引来访问元素,因此可以很方便地实现分页和检索功能,... 目录一、Redis 列表的基本操作二、分页实现三、检索实现3.1 方法 1:客户端过滤3.2 方法

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常

Python中lambda排序的六种方法

《Python中lambda排序的六种方法》本文主要介绍了Python中使用lambda函数进行排序的六种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录1.对单个变量进行排序2. 对多个变量进行排序3. 降序排列4. 单独降序1.对单个变量进行排序

关于Java内存访问重排序的研究

《关于Java内存访问重排序的研究》文章主要介绍了重排序现象及其在多线程编程中的影响,包括内存可见性问题和Java内存模型中对重排序的规则... 目录什么是重排序重排序图解重排序实验as-if-serial语义内存访问重排序与内存可见性内存访问重排序与Java内存模型重排序示意表内存屏障内存屏障示意表Int