图神经网络 图卷积神经网络_如何使用图神经网络监控城市中的树木

2023-11-02 21:50

本文主要是介绍图神经网络 图卷积神经网络_如何使用图神经网络监控城市中的树木,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图神经网络 图卷积神经网络

In order to aid tree health and status monitoring, we use Graph Neural Networks to geo-localize them in urban settings in an automated and efficient way.

为了帮助树木健康和状态监测,我们使用Graph神经网络以自动化和有效的方式在城市环境中对树木进行地理定位

为什么要监视街上的树木? (Why monitor street trees?)

Cities worldwide have initiated efforts to combat the unprecedented rising temperatures and heatwaves caused by “Urban heat islands”, which is a result of covering natural land with impervious surfaces (concrete, pavements, buildings, etc.). It turns out the solution is simple, plant more trees. Trees provide shade that covers the impervious surfaces, dispersing radiation, meanwhile releasing small amounts of vapour from their leaves creating a cooling effect. Another reason to monitor tree is to enable long-term tree health studies, have a look at some of our related works here and here.

世界各地的城市已经开始努力应对由“城市热岛”引起的前所未有的温度上升和热浪,这是由于自然表面覆盖了不透水的表面(混凝土,人行道,建筑物等)。 事实证明,解决方案很简单,种植更多的树木。 树木可以遮盖不透水的表面,分散辐射,同时从叶片上释放出少量蒸气,从而起到凉爽的作用。 监视树木的另一个原因是要进行长期的树木健康研究,在这里和这里看看我们的一些相关工作。

Geo-localizing trees in urban settings manually by in-situ surveys of field crews or volunteers is a laborious task, especially in large cities, this becomes unfeasible. Fortunately using deep learning, we can “crawl” through a city’s available imagery, and perform this task at a large scale with few resources and labour.

通过对现场工作人员或志愿者进行现场调查在城市环境中手动树木进行地理定位是一项艰巨的任务,尤其是在大城市中,这变得不可行。 幸运的是,使用深度学习,我们可以“爬行”城市的可用图像,并以很少的资源和劳动力来大规模执行此任务。

Our task is to Detect, Reidentify and Localize static objects (precisely trees) in urban settings using multiple sources, and multiple views. Most methods require sequences of images with depth, include cameras intrinsic and extrinsic values, or perform the task on multiple stages. We utilise Graph Neural Networks (GNNs) to achieve this in a flexible, and efficient manner.

我们的任务是使用多种来源和多种视图来检测重新识别本地化城市环境中的静态对象(精确地为树木)。 大多数方法都需要具有深度的图像序列,包括照相机的固有值和外部值,或者在多个阶段执行任务。 我们利用图神经网络(GNN)以灵活,高效的方式实现这一目标。

保持简单,不需要额外的传感器… (Keep it simple, no extra sensors needed…)

We rely only on geotagged images that are already available for general purposes, like Street View and social-media geotagged imagery. We believe that it is unnecessary to use a special rig with sensors or depth cameras and that relying on the images’ metadata and geometry to accomplish this task is sufficient.

我们仅依赖已被通用的地理标记图像,例如街景视图和社交媒体地理标记图像。 我们认为,没有必要使用带有传感器或深度相机的特殊装备,而依靠图像的元数据和几何形状来完成此任务就足够了。

几何是什么意思? (What do you mean by geometry?)

Alongside the visual features, the images come with useful metadata. This metadata usually includes the camera’s heading and geo-coordinates. Using geometry, we can assign geo-coordinates to pixels inside the image, and vice versa: finding pixels corresponding to geo-coordinates. (explained in detail in our paper)

除了视觉功能外,图像还带有有用的元数据。 该元数据通常包括相机的方向和地理坐标。 使用几何,我们可以将地理坐标分配给图像内的像素,反之亦然:找到与地理坐标对应的像素。 (在我们的论文中有详细解释)

Image for post
here. (Imagery ©2020 Google) 这里。 (影像©2020 Google)

We created a web tool to demonstrate these functions in action. First, click anywhere you’d like on the street to grab the closest 4 panoramas to that spot. Then, if you proceed to move your mouse around it will grab the geo-coordinate and project in pixels inside the 4 views.These projection functions give us a rough estimate of a location, which helps us to predict which trees are corresponding to each other in multiple views, and not to count an instance of a tree more than once.

我们创建了一个Web工具来演示这些功能的实际作用。 首先,在街上任意位置单击,以获取到该地点最近的4张全景照片。 然后,如果继续移动鼠标,它将抓住地理坐标并以4个视图内的像素为单位进行投影。这些投影函数为我们提供了位置的粗略估计,这有助于我们预测哪些树木彼此对应在多个视图中,并且一次计数一个树的实例的次数不超过一次。

将场景表示为图形。 (Representing the scene as a graph.)

Image for post
Grey circle depict nodes, yellow and orange edges depict matching and unmatching nodes respectively. (Imagery ©2020 Google)
灰色圆圈表示节点,黄色和橙色边缘分别表示匹配和不匹配的节点。 (影像©2020 Google)

In contrast to our previous works (Wegner et al., 2016, Nassar et al., 2019) we represent our data as graphs, with the nodes representing the trees, and the edges between them depicting the correspondence between the different instances of the objects. The nodes carry the CNN features of the object, meanwhile, the edges carry the ground-truth value ([0,1]) if its a match or not. This setup gives us the flexibility to have a variable number of images and targets as input.

与我们之前的工作相反( Wegner等人,2016 Nassar等人,2019 ),我们将数据表示为图形节点表示树,它们之间的边缘表示对象不同实例之间的对应关系。 节点带有对象的CNN特征,同时,如果边缘匹配,则边缘带有地面真实值([0,1])。 这种设置使我们可以灵活地将可变数量的图像和目标作为输入。

This sets out our problem as a “link prediction” task, which can be solved with Graph Neural Networks (GNNs). The literature on GNN is extensive, check out here and here to understand further what GNNs are and the difference between them and CNNs.

这将我们的问题设置为“链接预测”任务,可以通过图形神经网络(GNN)解决。 有关GNN的文献非常丰富,请在这里和此处查看以进一步了解GNN是什么以及它们与CNN的区别。

端到端方法。 (An end-to-end method.)

We strive with this work to come up with an end-to-end method that isn't composed of multiple stages that have to be trained separately, and tweaked parameter wise. So we created a method that could match the correspondence of objects in the scene to avoid double counting and provide the geolocation.

我们通过这项工作努力提出一种端对端方法,该方法不包含必须单独训练的多个阶段,并且对参数进行了调整。 因此,我们创建了一种可以匹配场景中对象对应关系的方法,以避免重复计算并提供地理位置。

演示地址

Hover over the diagram’s components for further explanation 将鼠标悬停在图的组件上以进行进一步的说明 .

Our method works by following these steps:

我们的方法通过以下步骤起作用:

  • A batch of images from multiple views and the corresponding camera metadata are passed through the backbone network (EfficientNet) and the multi-scale feature aggregator (BiFPN) of the object detector that provides different levels of features.

    来自多个视图的一批图像和相应的相机元数据通过骨干网(EfficientNet)和提供不同级别特征的物体检测器的多尺度特征聚合器(BiFPN)传递。
  • Anchors are then generated across the feature layers and passed through two sub-networks to provide classification and bounding box predictions. Based on the IoU of the ground truth with the anchors, we select the positive and negative anchors.

    然后,在特征图层上生成锚,并通过两个子网传递锚,以提供分类和边界框预测。 基于带有锚点的地面真实情况的IoU,我们选择正锚点和负锚点。
  • The features of these anchors are used to generate a dense fully connected graph.

    这些锚点的特征用于生成密集的全连接图。
  • The graph is then fed to a GNN to predict if the nodes should be matched by classifying the edge connecting them. In parallel, the regressed bounding boxes of the positive anchors are passed to the Geo-Localization Network to regress the geo-coordinate.

    然后将图形馈送到GNN,以通过对连接节点的边缘进行分类来预测是否应匹配节点。 同时,将正锚的回归边界框传递到地理定位网络以回归地理坐标。

结果如何。 (How results look like.)

Here are some example results for the different outputs, object detection along with re-identification, and geo-location prediction.

这是不同输出,目标检测以及重新识别以及地理位置预测的一些示例结果。

Image for post
Sample results for multi-view object detection and re-identification obtained on the Mapillary dataset. Here all detected objects (signs) were both detected and further re-identified (cyan). (© 2020 Mapillary) 在Mapillary数据集上获得的用于多视图对象检测和重新识别的示例结果。 在这里,所有检测到的物体(信号)都被检测到并进一步重新标识(青色)。 (©2020 Mapillary)
Image for post
Sample results for multi-view object detection and re-identification obtained on the Pasadena dataset. Here all detected objects (trees) were both detected and further re-identified (cyan) due to the higher similarity between views. (© 2020 Google) 在Pasadena数据集上获得的用于多视图对象检测和重新识别的示例结果。 在这里,由于视图之间的相似度更高,所有检测到的对象(树)都被检测到并进一步重新标识(青色)。 (©2020 Google)
Image for post
Sample results for geo-localization obtained on the Pasadena dataset comparing different methods. Green, blue, yellow and red circles represent various methods. Check our paper for the full comparison. (Imagery ©2020 Google) 比较不同方法在Pasadena数据集上获得的地理定位示例结果。 绿色,蓝色,黄色和红色圆圈代表各种方法。 查看我们的论文以进行全面比较。 (影像©2020 Google)

结论。 (In conclusion.)

We present an end-to-end multi-view detector that re-identifies and geo-localizes static objects. This method integrates Graph Neural Networks which add flexibility in re-identification making it possible to accommodate any number of views and still be computationally efficient. Furthermore, our approach is robust to occlusion, neighbouring objects of similar appearance, and severe changes in viewpoints. This is achieved using only RGB imagery along with its meta-data.

我们提出了一种端到端多视图检测器,它可以重新识别静态对象并对其进行地理定位。 此方法集成了Graph神经网络,该网络增加了重新标识的灵活性,从而可以容纳任意数量的视图,并且计算效率仍然很高。 此外,我们的方法对于遮挡,外观相似的相邻对象以及视点的严重变化具有鲁棒性。 仅使用RGB图像及其元数据即可实现此目的。

For the interested reader, we refer to our full research paper: here

对于感兴趣的读者,请参阅我们的完整研究论文:此处

Samy Nassar A, D’Aronco S, Lefèvre S, Wegner JD. GeoGraph: Learning graph-based multi-view object detection with geometric cues end-to-end. arXiv. 2020 Mar:arXiv-2003.

Samy Nassar A,D'Aronco S,LefèvreS,Wegner JD。 GeoGraph:学习具有端到端几何线索的基于图的多视图对象检测。 arXiv。 2020年3月:arXiv-2003。

翻译自: https://medium.com/ecovisioneth/how-to-monitor-trees-in-a-city-using-graph-neural-networks-49d09dfd3d02

图神经网络 图卷积神经网络


http://www.taodudu.cc/news/show-8136072.html

相关文章:

  • 使用超体素上下文和基于图的优化从MLS点云对城市地区的树木进行实例分割
  • C语言和Python代码示例实现监测树木的健康状况,包括光合作用效率和树冠密度等指标
  • 树木的生长周期缓慢matlab,【国光微讲堂】树木生长衰弱原因简析及处理方案(上)——原因简析...
  • GC运作原理
  • Acitivity原理详解
  • JPG的工作原理
  • ubuntu安装搜狗输入法后无法进入桌面环境问题
  • 搜狗输入法在Linux Mint系统上的问题总结
  • 推荐(一)SpringBoot+Vue开源项目(微人事)
  • 安装指定版本kubelet kubeadm kubectl
  • 安装voxblox构建稠密地图踩坑:
  • Kali中的Nessus的安装详解
  • #19ACM第五次周赛补题赛de题解呐#
  • 2023年第十四届蓝桥杯省赛JavaB组个人题解(AK)
  • 对于一个字符串,找到第一次重复的字符。
  • 从零开始学Node.js(四):Node.js中的包、npm/cnpm、pacakage.json
  • EasyExcel 使用 总结
  • 字体解码
  • 第十三届蓝桥杯省赛模拟赛C/C++
  • C 语言典范编程
  • 百度是否收录查询易语言代码
  • 最新网站百度收录量查询PHP代码
  • php 验证是否百度访问,php实现检查文章是否被百度收录
  • 百度收录查询
  • 百度收录查询是否要带斜杠
  • python百度收录查询
  • 消费者购买决策过程研究
  • 『NFT进阶』必了解的 “黑话”
  • 试图潜伏全球顶级勒索团队揭秘调查细节
  • 靠网络广告赚黑心钱的秘密
  • 这篇关于图神经网络 图卷积神经网络_如何使用图神经网络监控城市中的树木的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



    http://www.chinasem.cn/article/333544

    相关文章

    流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

    视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

    中文分词jieba库的使用与实景应用(一)

    知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

    使用SecondaryNameNode恢复NameNode的数据

    1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

    Hadoop数据压缩使用介绍

    一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

    Makefile简明使用教程

    文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

    使用opencv优化图片(画面变清晰)

    文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

    综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

    LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

    pdfmake生成pdf的使用

    实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

    零基础学习Redis(10) -- zset类型命令使用

    zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

    图神经网络模型介绍(1)

    我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}