项目总结笔记系列 Autonomy IDOL Server KT Session1

2024-02-12 04:20

本文主要是介绍项目总结笔记系列 Autonomy IDOL Server KT Session1,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在说上面这个图之前,先说一下背景知识。

Autonomy地址:

http://www.autonomy.com.cn

http://www.autonomy.com.cn/content/home/index.zh.html

  先说说我的理解:我们利用Autonomy可以做什么。比如在一个电商网站中,我们在某个电商网站中搜索了苹果6,Autonomy会迅速地在返回的页面中,给用户提供产品的配件以及辅助产品的信息。比如,苹果6的手机壳、充电器、耳机线;相关其他的苹果产品,如ipad等。又或者当用户查找iphone 6,但是电商的库存为零了。这时候,Autonomy会自动选择替代的产品并返回给用户。并且,Autonomy会分析大量的用户购物数据及购物兴趣,各种隐性显性的关联因素,来引导用户来浏览其他的商品。这样,为电商引入了流量,增加了交叉促销,为促成交易贡献了自己的力量。Autonomy同时可以根据用户的喜好对销售需求做出迅速反应。最后,Autonomy 的情绪分析技术还能够使电商对其客户服务情况进行监控(包括各种facebook twitter weibo QQ),以提供最高标准的服务。你也许会想,这些操作其实在淘宝,天猫等中已经对它做了应用。其实,电商平台只是Autonomy使用的冰山一角,它对各种类型(结构化 非结构化)数据的整合,处理,过滤,模式匹配,情感分析,在金融、制造业、媒体、电商、医药等行业都有成功过的使用案例。这个可以在官网中,参考看到它的案例介绍及其其中的一些牛逼的技术的介绍。

1.Autonomy:autonomy,提供了一种能够理解任何文件格式的全面软件基础架构解决方案。无论数据是文字还是语音,是结构化还是非结构化,采用何种创建和存储手段,相关的应用程序为何,Autonomy 都能进行处理。这样无需人工建立复杂的连接器或使用元数据,也可实现应用程序之间的通讯。Autonomy的技术使企业应用系统独立于数据类型而运作,同时借助将手工操作自动化而提升了效率。

2.IDOL Server:智能数据操作层 (Intelligent Data Operating LayerTM,IDOL) 服务器位于 Autonomy软件的核心地位。IDOL Server 收集来自各连接器的数据,并以其能够实现快速处理和检索的独特结构储存它们。在处理信息时,IDOL 能够联系概念和语境来理解企业中所有的内容,对超过一千种不同格式的信息乃至使用者的兴趣进行自动的分析。IDOL 允许对数据资源进行超过 500种操作,包括超链接、代理、摘要、分类、聚类、结构化信息抽取、档案建立、个性化信息提醒以及检索。“安全性是 IDOL 体现出自己独到之处的一个重要方面。它提供了映射式的安全架构以及几乎实时的安全权限同步功能,因此,非常适用于对安全性要求较高的搜索应用场合”。

更多的文档参考:http://c0049920.itcs.hp.com:9000/action=help

3.ASOA:Autonomy 的基础架构产品在设计时尤其重视重复利用性、模块化、组件化、互用性以及性能等原则。而 Autonomy面向服务的架构 (ASOA) 则是这些设计原则的延伸。Autonomy 的所有模块都属于可选用的服务,并使用标准的 SOAP 作为其接口,这样大量基于语义的功能都能作为服务提供给用户。

4.Autonomy的实践:两家投资银行合并后不久,决定建立一个统一的研究系统平台,以便其客户可以即时访问合并后的银行的所有与研究资料。这包括全球范围内的 PDF 文件、Lotus Domino 服务器站点,以及存储在文档管理系统和网络上的大量 Microsoft Office 格式文档,形式参杂混合。要将所有这些数据合并到一个系统的前端,传统上需要开发多个接口,每个接口连接一个不同的数据源。相反,如果新合并的银行部署 IDOL 整合所有的数据源,IDOL 可简单为每个数据源配置相应的数据采集器。当各种类型的信息导入到 IDOL 后,一个单一的 JSP 前端就能够提供所有数据的检索、自动超链接(相似文档自动推送) - 无论数据格式是什么,也不管它存储在哪里。

 

  我们的Social Hub项目的底层是基于Autonomy的,Autonomy从各个平台上搜索到了各种各样的数据(通过连接器connector),Autonomy提供了各种基于.xml .htm .jsp .mp3 .rmvb .sql .war等等的connector,他们用于抓数据,Connector Framework Server则接受从connector传送过来的数据,然后将它们导向IDOL Server。(我们的conncector也许只是返回了一个file的address,CFS则要extracts文件,并且从文件中提取出metadata and file content把它们加到CFS的document中,你想,这样我们的IDOL server到时候可以直接搜索分析数据,而不需要再从原文件格式中取数据。可见,我们增加了CFS这一层,是将所需要的数据提供了一个统一的入口)相当于,你需要水,我从各种管道接来了水,放在一个水瓮中,供你来用。或者你需要钱,我从各个地方弄到了钱,放在了保险柜中,等你来用。

Autonomy的技术优势总结:

1.关键词和布尔表达式搜索

  当处理大量数据并且用户也完全明了其需要寻找的特定信息时,关键词和布尔值搜索的准确性是可以保证的。Autonomy 对这种方法也提供完全的支持。但是,尽管关键词搜索能够找出文档中匹配的字词,它却不能告诉我们整篇文档与所关注的主题之间有多大的相关程度。

  如“那晚我走在一条街上。这条街又长又黑。等我走到街的尽头时,有个抢劫犯跳出来袭击了我”,虽然句中多次出现“街”,但整段内容描述的却是一起犯罪事件。用关键词和布尔值方法搜索“街”时,该段内容很可能会被返回到搜索结果中,因此,这些方法有时并不准确。针对这一点,关键词搜索方法常采用权重来对搜索结果进行排列。当对比关键词出现在不同位置的两篇文档,其中一篇关键词出现在文档中的显著位置,例如标题,另一篇关键词出现在文档末尾,搜索方法会认为前者的重要性比后者高,并给予其较高的权重值。此外关键词出现多次的文档得到的权重值也会比较高。
  对于格式规范一致的数据,例如医学报告来说,权重关键词搜索技术表现会有所改善,当然Autonomy对此亦提供全面支持。但从另一个角度说,这种方法依然没有考虑字词的所处的语境以及文字所论述的主题,它排序的依据是:如果字词位于标题中或是常常被提到,那么整个文档的相关度必然较高。而Autonomy则通过精密的模式匹配技术来从语境上理解文档并提供概念类似的文档,无需依赖于关键词,从而避免了这一问题。

  人工调节,“有的关键词搜索引擎提供了人工调节结果的方法,包括复杂的布尔值表达式、关键词标记、关键词关联及/或类别。同样,Autonomy 也支持这些广为使用的技术。但是无论关键词搜索引擎如何复杂,它的本质也只是查找匹配字词。这需要人工管理关键词的关联或类别。举例而言:关键词方法需要最终用户能够以复杂的特定表述方式(亦称为布尔表达式)来编写查询内容。这意味着用户需要掌握晦涩的搜索“规则”。一开始的规则可能是这样的: <以色列AND 巴基斯坦> <以色列AND 巴基斯坦> OR <以色列 OR  巴基斯坦> <以色列 OR 巴基斯坦> 这看上去好像足够了。但是如果用户特别关注以色列和巴勒斯坦之间冲突的升级,那么上述规则返回的文档有可能与这个关注内容无关,例如:以色列:20世纪初居住在巴基斯坦的犹太人数量很少;该数字在1845年为12,000,到1914年增长了85,000。此外,有些文章在编写时都假设读者已经了解一些背景资料,因此,可能并不包含上面的关键词“以色列”或“巴勒斯坦”,例如:针对这次自杀式攻击,阿拉法特先生宣布在加沙和西岸各地实行紧急状态,并且逮捕了75名激进分子。为了在搜索结果中包含这些文档,必须对规则进行修改:<阿拉法特 OR "自杀式攻击" OR "紧急状态" OR "西岸">但是,根据这种规则搜索,其结果也会返回其它自杀性袭击信息,因此,可能会导致遗漏与主体直接相关的有价值的文档,例如:相关团体对此的反应(如美国政府)。因此,必须对规则进行多次修改,确保搜索之返回相关结果。<("阿拉法特" OR "沙龙" OR "布什") AND ("自杀式攻击" OR "紧急状态" OR "炸弹攻击") AND ("以色列" OR "巴勒斯坦" OR "西岸" OR "耶路撒冷")>这只是最初的规则。如果我们再考虑需要对各种类别进行的持续不断的维护,那么情况将更加复杂。上面的例子需要文档包含全部三个类别(姓名、暴力事件以及位置)中的匹配内容。如果文档并未包含全部三种内容,那么查询就会忽略这些文档。因此,这种方法需要详尽深入的人工劳动,而得出结果的准确性仍然无法保证。相反,Autonomy  可以自动了解文档的主题,在无需用户进行任何手动输入的情况下为他们提供相关材料。关键词搜索引擎不能随着使用进行“学习”。您也很难通过提供示例来查找内容。如用户在使用“与这个类似”功能时,在搜索框中提供一段示例文档,想要找到与这段文档描述的概念类似的文档——这样将增加查询关键词的个数,因为它是根据示例文档中最经常出现的术语而确定搜索关键词的。然后再根据该关键词进行匹配,将含有该关键词的文档反馈给用户。Autonomy 在支持这种方法的同时,其技术能够根据示例文档的概念找出匹配文档,因此,更为有益。举例而言,某用户关心曼联足球俱乐部的经济状况。那么如果使用传统的“与这个类似...”功能,他可能会得到有关其他运动项目的文章,例如高尔夫球、网球甚至橄榄球。但 Autonomy 能够了解用户关心的是某个特定俱乐部的经济状况,从而提供相应的文档。

  Autonomy 能够理解任何页面的内容,并在语境上建立不同页面、文档以及查询之间建立联系。这样保证了用户得以找到最适合他们的信息。Autonomy 无需依赖关键词搜索,也不靠链接表来判定哪些页面是否与查询相关。

 

转载于:https://www.cnblogs.com/RunForLove/p/4366062.html

这篇关于项目总结笔记系列 Autonomy IDOL Server KT Session1的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/701654

相关文章

部署Vue项目到服务器后404错误的原因及解决方案

《部署Vue项目到服务器后404错误的原因及解决方案》文章介绍了Vue项目部署步骤以及404错误的解决方案,部署步骤包括构建项目、上传文件、配置Web服务器、重启Nginx和访问域名,404错误通常是... 目录一、vue项目部署步骤二、404错误原因及解决方案错误场景原因分析解决方案一、Vue项目部署步骤

golang内存对齐的项目实践

《golang内存对齐的项目实践》本文主要介绍了golang内存对齐的项目实践,内存对齐不仅有助于提高内存访问效率,还确保了与硬件接口的兼容性,是Go语言编程中不可忽视的重要优化手段,下面就来介绍一下... 目录一、结构体中的字段顺序与内存对齐二、内存对齐的原理与规则三、调整结构体字段顺序优化内存对齐四、内

配置springboot项目动静分离打包分离lib方式

《配置springboot项目动静分离打包分离lib方式》本文介绍了如何将SpringBoot工程中的静态资源和配置文件分离出来,以减少jar包大小,方便修改配置文件,通过在jar包同级目录创建co... 目录前言1、分离配置文件原理2、pom文件配置3、使用package命令打包4、总结前言默认情况下,

查询SQL Server数据库服务器IP地址的多种有效方法

《查询SQLServer数据库服务器IP地址的多种有效方法》作为数据库管理员或开发人员,了解如何查询SQLServer数据库服务器的IP地址是一项重要技能,本文将介绍几种简单而有效的方法,帮助你轻松... 目录使用T-SQL查询方法1:使用系统函数方法2:使用系统视图使用SQL Server Configu

python实现简易SSL的项目实践

《python实现简易SSL的项目实践》本文主要介绍了python实现简易SSL的项目实践,包括CA.py、server.py和client.py三个模块,文中通过示例代码介绍的非常详细,对大家的学习... 目录运行环境运行前准备程序实现与流程说明运行截图代码CA.pyclient.pyserver.py参

SQL Server数据库迁移到MySQL的完整指南

《SQLServer数据库迁移到MySQL的完整指南》在企业应用开发中,数据库迁移是一个常见的需求,随着业务的发展,企业可能会从SQLServer转向MySQL,原因可能是成本、性能、跨平台兼容性等... 目录一、迁移前的准备工作1.1 确定迁移范围1.2 评估兼容性1.3 备份数据二、迁移工具的选择2.1

Python中连接不同数据库的方法总结

《Python中连接不同数据库的方法总结》在数据驱动的现代应用开发中,Python凭借其丰富的库和强大的生态系统,成为连接各种数据库的理想编程语言,下面我们就来看看如何使用Python实现连接常用的几... 目录一、连接mysql数据库二、连接PostgreSQL数据库三、连接SQLite数据库四、连接Mo

Git提交代码详细流程及问题总结

《Git提交代码详细流程及问题总结》:本文主要介绍Git的三大分区,分别是工作区、暂存区和版本库,并详细描述了提交、推送、拉取代码和合并分支的流程,文中通过代码介绍的非常详解,需要的朋友可以参考下... 目录1.git 三大分区2.Git提交、推送、拉取代码、合并分支详细流程3.问题总结4.git push

IDEA运行spring项目时,控制台未出现的解决方案

《IDEA运行spring项目时,控制台未出现的解决方案》文章总结了在使用IDEA运行代码时,控制台未出现的问题和解决方案,问题可能是由于点击图标或重启IDEA后控制台仍未显示,解决方案提供了解决方法... 目录问题分析解决方案总结问题js使用IDEA,点击运行按钮,运行结束,但控制台未出现http://

解决IDEA使用springBoot创建项目,lombok标注实体类后编译无报错,但是运行时报错问题

《解决IDEA使用springBoot创建项目,lombok标注实体类后编译无报错,但是运行时报错问题》文章详细描述了在使用lombok的@Data注解标注实体类时遇到编译无误但运行时报错的问题,分析... 目录问题分析问题解决方案步骤一步骤二步骤三总结问题使用lombok注解@Data标注实体类,编译时