Watson Explorer 入门(3):创建搜寻器(crawler,数据爬虫)

2023-10-21 16:59

本文主要是介绍Watson Explorer 入门(3):创建搜寻器(crawler,数据爬虫),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

(许野平的 Watson Explorer 笔记)

创建集合后,可以看到如下界面:

这里写图片描述

我们可以看到三个面板:1-搜寻与导入;2-解析和索引;3-搜索和内容分析。本练习讨论搜寻器的创建和配置,以及如何导入数据。

“搜寻器”的英文是 crawler,俗称爬虫,用于从网络、硬盘等数据源自动抓取数据。因为创建界面很直观,步骤不一一细说了,这里说一下几个需要注意的问题。

数据源问题

前几天在一次培训课程中,不少同学提到这个问题。实际上,Watson Explorer 有些类似数据库,能从很多类型数据源获取数据。还没仔细研究它的系统架构设计,但是我想,这个架构中一定会提供一个开放式接口处理这件事情。

NHTSA数据

在这个练习中,我们选择了 NHTSA 投诉数据,数据是 XML 格式的。所以,数据源类型在这个练习中选择的是 Windows 本地文件系统。但是我翻遍了所有可能的位置,都没能找到这些文档。最后找到一份Excel格式的文件,里面的数据正是 NHTSA 投诉数据,内容很多,于是这里就拿来做练习。

这里写图片描述

为了确保兼容性,我把数据存成了 .csv 格式。

数据源文件夹设置

Web操作界面,有些不太习惯。反复操作了几遍,发现熟悉后还是挺方便操作。操作要点如下:

  • 可以指定子文件夹的搜索层次。我找到的这些文件分布在用日期命名的多个子文件夹内,导入的时候,只需要指定他们的根文件夹和子文件夹搜索深度就行了,这个确实很方便。
  • 可以指定文件类型。这里,我直接指定 .csv 扩展名。

数据直接导入

.csv 格式的文件可以直接导入,这样就不需要爬虫来做这个任务了。这个练习中,因为没有XML数据,所以我选择了直接导入的方式建立的集合(Collection)。

小结

本练习设定了搜寻器。但是我们只设定了数据来源,目标数据还没设定。接下来设定目标数据后,就可以启动搜寻器,自动抓取并上传数据了。

(未完待续 … …)

这篇关于Watson Explorer 入门(3):创建搜寻器(crawler,数据爬虫)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/255717

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

JAVA中整型数组、字符串数组、整型数和字符串 的创建与转换的方法

《JAVA中整型数组、字符串数组、整型数和字符串的创建与转换的方法》本文介绍了Java中字符串、字符数组和整型数组的创建方法,以及它们之间的转换方法,还详细讲解了字符串中的一些常用方法,如index... 目录一、字符串、字符数组和整型数组的创建1、字符串的创建方法1.1 通过引用字符数组来创建字符串1.2

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

手把手教你idea中创建一个javaweb(webapp)项目详细图文教程

《手把手教你idea中创建一个javaweb(webapp)项目详细图文教程》:本文主要介绍如何使用IntelliJIDEA创建一个Maven项目,并配置Tomcat服务器进行运行,过程包括创建... 1.启动idea2.创建项目模板点击项目-新建项目-选择maven,显示如下页面输入项目名称,选择

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines

Mybatis拦截器如何实现数据权限过滤

《Mybatis拦截器如何实现数据权限过滤》本文介绍了MyBatis拦截器的使用,通过实现Interceptor接口对SQL进行处理,实现数据权限过滤功能,通过在本地线程变量中存储数据权限相关信息,并... 目录背景基础知识MyBATis 拦截器介绍代码实战总结背景现在的项目负责人去年年底离职,导致前期规

Redis KEYS查询大批量数据替代方案

《RedisKEYS查询大批量数据替代方案》在使用Redis时,KEYS命令虽然简单直接,但其全表扫描的特性在处理大规模数据时会导致性能问题,甚至可能阻塞Redis服务,本文将介绍SCAN命令、有序... 目录前言KEYS命令问题背景替代方案1.使用 SCAN 命令2. 使用有序集合(Sorted Set)