新技术对传统学科的颠覆:系谱网使用大数据寻亲问祖

2024-02-11 17:40

本文主要是介绍新技术对传统学科的颠覆:系谱网使用大数据寻亲问祖,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

摘要:追本溯源似乎是人类的天性,由于互联网和大数据等技术的发展,系谱学取得了很多进展,寻找并图表描绘家族史已变成一种潮流。Ancestry是系谱学领域有名的企业,近日添加了将孤立的事件整合成完整档案的功能模块。

家谱网爱好者可能认为在Ancestry网上通过人口普查记录、出生证明和其他文件来寻找亲属的信息这件事很有趣。当向朋友和亲属来炫耀自己的个人记录时,就显得不那么有说服力了,而且讲述一个祖先的社会档案并不简单。

Ancestry.com服务幕后的人已经意识到了这一点。现在,他们正在最大限度的利用其4PB的数据库(包括官方的个人记录,用户提交的信息和其它有新特征的数据),为用户提供由计算机生成但是可编辑的祖先信息摘要。

Ancestry网推出的这项服务名为Story View,本季度早些时候只针对一小部分客户,现在10%的客户都可以享受这一服务了。该公司的产品执行副总裁Eric Shoup在最近一次采访中表示,他们计划在正式发布Story View功能前,将对比Stroy View功能使用前后的情况,以进一步完善Story View。通过允许用户围绕一个单页的文档图像以及编辑文件中的文本部分,Ancestry已经增强了这项功能的互动性。

它是如何工作的

Story View功能基于一个比较成熟的工具,该工具可以对亲属数据包括一些手写的记录进行数据挖掘。但是有时只有关键字段,如姓名和居住地。客户可以访问手写记录,定位到一个亲属被描述的位置,查看未被处理的数据,比如那个人的职业。

通过逐步指导"keyers"解析手写记录,并将记录转换为可搜索的文本,Ancestry正在试图通过手写记录获取更多信息。街道地址已经通过这种方式添加进去,其它的字段以后也会添加。同时,由于Ancestry在不断扩充其资料库,社会档案也会有更多的来源。

 

为了从多个文档中提取信息生成一个段落总结,Ancestry求助于Narrative Science,该公司成立于2010年,专注于使用机器生成可读的拷贝(传说中会让我们小编都失业的技术)。早期应用于体育赛事的报道和上市公司的收益报告,现在Narrative Science技术被更多的用于个人信息处理。

Ancestry叙事(narrative)和内容(context)服务团队的首席开发人员Reed McGrew说,当Ancestry第一次采用Narrative Science技术时,只能分批地产生数据。它们会生成大量的财务报告,这并不是我们试图提供的,因为这种批处理确实很慢。

几个月内,Narrative Science开发了一个新的API,这个API可以在更精细的水平上工作。McGrew说:“它们基于单个用户生成社会档案”。

Ancestry精于处理家谱信息,该公司的编辑提供编辑的标准,或“规则”,规定了narratives收发数据的格式。McGrew解释了Ancestry标准:“比如遇到孩子只比母亲小10岁的记录,这更像是输入错误,虽然现实情况中也会发生,但多数情况下不会,所以我们会把这条记录当成错误的来处理”。

包含Shoup某个亲属信息的记录

在Story View中,一个祖先的图片和生活摘要下面是一个缩放的文档图片,而不是结构化文本的离散字段。图片的旁边,Ancestry会提供从文档信息中生成的导语。一旦Ancestry发现所有的记录都和一个人有关,就会根据Ancestry的编辑规则选择出特定的事实组装成完整的句子。一旦基于文档的导语显示在浏览器中,用户就可以在共享前编辑和保存它们。

很难共享

Ancestry的CIO Scott Sorenson说,我们面临的挑战并不在于创建和存储用户的新数据和网页。存储会变得越来越便宜,精确的手写记录处理也不是问题。通常keyers都在中国找,中国的字符集比我们的字母表要大很多,他们很擅长键入这些记录。

真正困难的部分是确保服务的高可用性,数以百万的用户提供正确的文档和文本,并确保网站流量高峰时不致崩溃,但是Story View的目标之一是让更多的人浏览网站内容并最终注册。

www.itbole.net

转载于:https://www.cnblogs.com/itbole/archive/2013/05/29/3105742.html

这篇关于新技术对传统学科的颠覆:系谱网使用大数据寻亲问祖的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/700418

相关文章

C语言中联合体union的使用

本文编辑整理自: http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=179471 一、前言 “联合体”(union)与“结构体”(struct)有一些相似之处。但两者有本质上的不同。在结构体中,各成员有各自的内存空间, 一个结构变量的总长度是各成员长度之和。而在“联合”中,各成员共享一段内存空间, 一个联合变量

乐鑫 Matter 技术体验日|快速落地 Matter 产品,引领智能家居生态新发展

随着 Matter 协议的推广和普及,智能家居行业正迎来新的发展机遇,众多厂商纷纷投身于 Matter 产品的研发与验证。然而,开发者普遍面临技术门槛高、认证流程繁琐、生产管理复杂等诸多挑战。  乐鑫信息科技 (688018.SH) 凭借深厚的研发实力与行业洞察力,推出了全面的 Matter 解决方案,包含基于乐鑫 SoC 的 Matter 硬件平台、基于开源 ESP-Matter SDK 的一

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

Vim使用基础篇

本文内容大部分来自 vimtutor,自带的教程的总结。在终端输入vimtutor 即可进入教程。 先总结一下,然后再分别介绍正常模式,插入模式,和可视模式三种模式下的命令。 目录 看完以后的汇总 1.正常模式(Normal模式) 1.移动光标 2.删除 3.【:】输入符 4.撤销 5.替换 6.重复命令【. ; ,】 7.复制粘贴 8.缩进 2.插入模式 INSERT

持久层 技术选型如何决策?JPA,Hibernate,ibatis(mybatis)

转自:http://t.51jdy.cn/thread-259-1-1.html 持久层 是一个项目 后台 最重要的部分。他直接 决定了 数据读写的性能,业务编写的复杂度,数据结构(对象结构)等问题。 因此 架构师在考虑 使用那个持久层框架的时候 要考虑清楚。 选择的 标准: 1,项目的场景。 2,团队的技能掌握情况。 3,开发周期(开发效率)。 传统的 业务系统,通常业

Lipowerline5.0 雷达电力应用软件下载使用

1.配网数据处理分析 针对配网线路点云数据,优化了分类算法,支持杆塔、导线、交跨线、建筑物、地面点和其他线路的自动分类;一键生成危险点报告和交跨报告;还能生成点云数据采集航线和自主巡检航线。 获取软件安装包联系邮箱:2895356150@qq.com,资源源于网络,本介绍用于学习使用,如有侵权请您联系删除! 2.新增快速版,简洁易上手 支持快速版和专业版切换使用,快速版界面简洁,保留主

如何免费的去使用connectedpapers?

免费使用connectedpapers 1. 打开谷歌浏览器2. 按住ctrl+shift+N,进入无痕模式3. 不需要登录(也就是访客模式)4. 两次用完,关闭无痕模式(继续重复步骤 2 - 4) 1. 打开谷歌浏览器 2. 按住ctrl+shift+N,进入无痕模式 输入网址:https://www.connectedpapers.com/ 3. 不需要登录(也就是

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山