py2neo——Neo4jpython的配合使用

2024-05-07 15:18

本文主要是介绍py2neo——Neo4jpython的配合使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

概要

之前在CSDN上写过一个blog(http://blog.csdn.net/wrzcy/article/details/51905977 ),简单的介绍了Neo4j图形数据库,主要是以基础概念和定义为主。今天就通过python面向Neo4j的库py2neo来对Neo4j进行一些简单的操作,包括:

  • 连接Neo4j数据库
  • 节点的建立
  • 节点之间关系的建立
  • 关系属性赋值以及属性值的更新
  • 通过属性值查找节点/关系
  • 通过节点/关系查找相关联的节点/关系
  • 结合目前的一个项目来说说一些坑和注意点
连接Neo4j数据库

要通过python来操作Neo4j,首先需要安装py2neo,可以直接使用pip安装。

pip install py2neo

在完成安装之后,在python中调用py2neo即可,常用的有Graph,Node,Relationship。

from py2neo import Graph,Node,Relationship

连接Neo4j的方法很简单:

test_graph = Graph("http://localhost:7474", username="neo4j", password="neo4j"
)

test_graph就是我们建立好的Neo4j的连接。
Neo4j的服务器装好了之后,默认的端口号就是7474,所以本地的主机就是"http://localhost:7474" 。
默认的用户名密码都是neo4j,不过也可以在浏览器中进入http://localhost:7474 ,首次进入会提示你进行密码修改。

节点的建立

节点的建立要用到py2neo.Node,建立节点的时候要定义它的节点类型(label)以及一个基本属性(property,包括property_key和property_value)。以下代码为建立了两个测试节点。

test_node_1 = Node(label = "Person",name = "test_node_1")
test_node_2 = Node(label = "Person",name = "test_node_2")
test_graph.create(test_node_1)
test_graph.create(test_node_2)

这两个节点的类型(label)都是Person,而且都具有属性(property_key)为name,属性值(property_value)分别为"test_node_1","test_node_2"。

节点间关系的建立

节点间的关系(Relationship)是有向的,所以在建立关系的时候,必须定义一个起始节点和一个结束节点。值得注意的是,起始节点可以和结束节点是同一个点,这时候的关系就是这个点指向它自己。

node_1_call_node_2 = Relationship(test_node_1,'CALL',test_node_2)
node_1_call_node_2['count'] = 1
node_2_call_node_1 = Relationship(test_node_2,'CALL',test_node_1)
node_2_call_node_1['count'] = 2
test_graph.create(node_1_call_node_2)
test_graph.create(node_2_call_node_1)

如以上代码,分别建立了test_node_1指向test_node_2和test_node_2指向test_node_1两条关系,关系的类型为"CALL",两条关系都有属性count,且值为1。

在这里有必要提一下,如果建立关系的时候,起始节点或者结束节点不存在,则在建立关系的同时建立这个节点。

节点/关系的属性赋值以及属性值的更新

节点和关系的属性初始赋值在前面节点和关系的建立的时候已经有了相应的代码,在这里主要讲述一下怎么更新一个节点/关系的属性值。

我们以关系建立里的 node_1_call_node_2 为例,让它的count加1,再更新到图数据库里面。

node_1_call_node_2['count']+=1
test_graph.push(node_1_call_node_2)

更新属性值就使用push函数来进行更新即可。

通过属性值来查找节点和关系(find,find_one)

通过find和find_one函数,可以根据类型和属性、属性值来查找节点和关系。
示例如下:

find_code_1 = test_graph.find_one(label="Person",property_key="name",property_value="test_node_1"
)
print find_code_1['name']

find和find_one的区别在于:
find_one的返回结果是一个具体的节点/关系,可以直接查看它的属性和值。如果没有这个节点/关系,返回None。
find查找的结果是一个游标,可以通过循环取到所找到的所有节点/关系。

通过节点/关系查找相关联的节点/关系

如果已经确定了一个节点或者关系,想找到和它相关的关系和节点,就可以使用match和match_one。

find_relationship = test_graph.match_one(start_node=find_code_1,end_node=find_code_3,bidirectional=False)
print find_relationship

如以上代码所示,match和match_one的参数包括start_node,Relationship,end_node中的至少一个。

bidirectional参数的意义是指关系是否可以双向。
如果为False,则起始节点必须为start_node,结束节点必须为end_node。如果有Relationship参数,则一定按照Relationship对应的方向。
如果为True,则不需要关心方向问题,会把两个方向的数据都返回。

match_relation  = test_graph.match(start_node=find_code_1,bidirectional=True)
for i in match_relation:print ii['count']+=1test_graph.push(i)

如以上代码所示,查找和find_code_1相关的关系。
match里面的参数只写了start_node,bidirectional的值为True,则不会考虑方向问题,返回的是以find_code_1为起始节点和结束节点的所有关联关系。
如果,bidirectional的值为False,则只会返回以find_code_1为起始节点的所有关联关系。

结合项目浅谈Neo4j里值得注意的地方

写这篇blog主要也是因为最近再做一个关系查找的数据库,在使用Neo4j的时候还是自己挖了不少坑愉快的跳了下去然后到处挣扎。不过大部分的情况下终归还是能爬出来,在这里把遇到的一些问题和值得注意的地方分享出来,希望别人不要走我的老路。

关于节点和关系的建立

建立节点和关系之前最好先查找一下是否已经存在这个节点了。如果已经存在的话,则建立关系的时候使用自己查找到的这个节点,而不要新建,否则会出现一个新的节点。

如果一条条建立关系和节点的话,速度并不快。如果条件合适的话,最好还是用Neo4j的批量导入功能。不过因为在本项目里面并不适合使用批量导入功能,所以只能一条条的插入。

关于索引

在Neo4j 2.0版本以后,尽量使用schema index,而不要使用旧版本的索引。

最好在插入数据之前就建立好索引,否则索引的建立会很消耗时间。

索引建立是非常有必要的,一个索引可以很大程度上降低大规模数据的查询速度。

以我自己为例,这次做项目的时候因为第一次没有加入索引,当数据规模达到4w节点,7w+关系的时候,查询一个节点以及相关联的节点关系所消耗的时间已经达到了1s。

在对节点按照name属性建立了索引之后,截止我写这篇blog的时候,数据量为节点600w+,关系1100w+,查询一个节点以及相关联的节点关系消耗的时间和数据量很小的时候几乎没有什么差别,基本上都稳定在16~20ms左右。

关于Neo4j应当插入的数据内容

我们在使用图数据库的时候必须要明确一点,图数据库能够帮助我们的是以尽量快的速度找出来不同的节点之间的关系。因此向一个节点或者关系里面插入很多其余无关的数据是完全没有必要的,会很大程度浪费硬盘资源,在检索的时候也会消耗更多的时间。

仍旧是以我这次的项目为例。截止到写这篇blog时已经向里面导入了2w条原始数据,我导入的每条数据中,有大量的跟关联关系无关的其他数据,但是这些都是没有必要的冗余数据,完全不需要向Neo4j里面插入。

在最后我设计的图数据库里,节点类型为Person,每个节点只有一个属性name,标志这个节点。每两个节点之间最多只会有一来一回两条关系,表示主从关系。

通过这样的图,我们想要检索任何节点的关联节点都可以很快速的找到,而且可以很清楚的区分哪些节点的联系比较紧密。

如果要把其他的不必要的数据插入进去,跟2w条原始数据对应的600w+的节点和1100w+的关系,必然会占用大量的存储空间,也会大幅增加查询的时间。

所以务必牢记,图数据库的本质是为了方便查找不同的人或者事物之间的关系的,而不是为了存储数据的。



作者:Gun_Fox
链接:http://www.jianshu.com/p/a2497a33390f
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

这篇关于py2neo——Neo4jpython的配合使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967714

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

git使用的说明总结

Git使用说明 下载安装(下载地址) macOS: Git - Downloading macOS Windows: Git - Downloading Windows Linux/Unix: Git (git-scm.com) 创建新仓库 本地创建新仓库:创建新文件夹,进入文件夹目录,执行指令 git init ,用以创建新的git 克隆仓库 执行指令用以创建一个本地仓库的

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念