新加坡国立大学『3D计算机视觉』课程；Python爬虫知识库；基于SKLearn时序预测模块；从零构建AI推理引擎；前沿论文

本文主要是介绍新加坡国立大学『3D计算机视觉』课程；Python爬虫知识库；基于SKLearn时序预测模块；从零构建AI推理引擎；前沿论文 | ShowMeAI资讯日报，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

ShowMeAI日报系列全新升级！覆盖AI人工智能工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文等方向。点击查看 历史文章列表，在公众号内订阅话题 #ShowMeAI资讯日报，可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击这里回复关键字日报免费获取AI电子月刊与资料包。

工具&框架

🚧 『tspiral』基于 scikit-learn 的时序预测模块(python)

https://github.com/cerlymarco/tspiral

tspiral 直接为时间序列预测提供 scikit-learn 估计器，可以轻松地将复杂的时间序列预测问题映射到表格监督回归任务中，然后使用标准方法解决问题。tspiral 提供了 4 种优化的预测技术：Recursive Forecasting、Direct Forecasting、Stacking Forecasting、Rectified Forecasting。

🚧 『hls4ml』用于FPGA的机器学习推理工具包

https://github.com/fastmachinelearning/hls4ml

https://fastmachinelearning.org/

hls4ml 使用高级合成语言（HLS）创建机器学习算法的固件实现，将传统的开源机器学习包模型转换为可针对用例进行配置的 HLS！

🚧 『TinyFlux』简易时间序列数据库

https://github.com/citrusvanilla/tinyflux

TinyFlux 是 TinyDB 的时间序列版本，也是用 Python 编写的，没有外部依赖性。它是小型分析工作流程和应用程序、家庭物联网数据存储的最佳伴侣。

🚧 『Pycom』跨平台 Python 编译器，是 Python解释器速度的20~30倍

https://github.com/Omyyyy/pycom

虽然 Python 的许多优化大大提高了其运行速度，但 Python 无法生成独立可执行文件，达不到C/C++ 的速度和可移植性水平，因此 Python 的运行速度是公认较慢的。Pycom 解决了这个问题。Pycom 实际上是 Python 代码的编译器，使用 C++ 作为『中间表示』，生成的独立可执行文件是 Python 解释速度的 20-30 倍。不过，当前版本还不能不支持所有版本的所有 Python 功能。

🚧 『Efficient Large LM Trainer』大语言模型的高效训练

https://github.com/microsoft/Efficient-Large-LM-Trainer

博文&分享

👍 『AI Infer Engine From Zero』从零构建AI推理引擎系列

https://github.com/jinfagang/AI-Infer-Engine-From-Zero

现在的很多开源推理引擎，大部分仅仅停留在“用工具”的层面，对于想掌握技术的本源是远远不够的。作者将『自建AI推理引擎』相关的博客文章整理成一个索引，记录了作者建造过程中踩过的坑，以及关于 C++语言、框架架构、算子推理设计、用户体验设计的一些实践和思考。

👍 『Web scraping with Python open knowledge』Python网络爬虫开放知识库

https://github.com/reanalytics-databoutique/webscraping-open-project

作者花费了几年的时间，寻找收集爬虫的『最佳实践』（技术栈、工具和软件等），以提升项目的可扩展性和维护效率，并为 Python 网络爬虫社区建立一个参考点。

数据&资源

🔥 『Awesome Neural Symbolic』神经符号相关论文集

https://github.com/Ying1123/awesome-neural-symbolic

🔥 新加坡国立大学『3D计算机视觉』

https://www.youtube.com/playlist?list=PLxg0CGqViygP47ERvqHw_v7FVnUovJeaz

这是一门关于 3D 计算机视觉的入门课程，包含的主题包括：

2D and 1D projective geometry / 二维和一维投射几何学
Rigid body motion and 3D projective geometry / 刚体运动和三维投射几何学
Circular points and Absolute conic / 圆点和绝对圆锥体
Robust homography estimation / 稳健的同构图估计
Camera models and calibration / 相机模型和校准
Single view metrology / 单视图计量学
The fundamental and essential matrices / 基本和重要矩阵
Absolute pose estimation from points or lines / 从点或线进行绝对姿态估计
Three-view geometry from points and/or lines / 基于点和/或线的三视图几何学
Structure-from-Motion (SfM) and bundle adjustment / 从运动中产生的结构（SfM）和捆绑调整
Two-view and multi-view stereo / 双视角和多视角立体图
Generalized cameras / 通用相机
Auto-Calibration / 自动校准

研究&论文

可以点击这里回复关键字日报，免费获取整理好的论文合辑。

科研进展

2022.07.18 『机器学习』 Why do tree-based models still outperform deep learning on tabular data?
2022.07.19 『计算机视觉』 PoserNet: Refining Relative Camera Poses Exploiting Object Detections
2022.07.21 『计算机视觉』 AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection
2022.07.18 『计算机视觉』 Panoptic Scene Graph Generation

⚡ 论文：Why do tree-based models still outperform deep learning on tabular data?

论文时间：18 Jul 2022

所属领域：机器学习

对应任务：结构化数据建模

论文地址：https://arxiv.org/abs/2207.08815

代码实现：https://github.com/leogrin/tabular-benchmark

论文作者：Léo Grinsztajn, Edouard Oyallon, Gaël Varoquaux

论文简介：While deep learning has enabled tremendous progress on text and image datasets, its superiority on tabular data is not clear./虽然深度学习在文本和图像数据集上取得了巨大的进展，但它在结构化表格数据上的优势并不明显。

论文摘要：虽然深度学习在文本和图像数据集上取得了巨大的进展，但它在结构化表格数据上的优势并不明显。我们为标准和新型的深度学习方法以及基于树的模型，如XGBoost和Random Forests，在大量的数据集和超参数组合中提供了广泛的基准。我们定义了一套标准的45个数据集，这些数据集来自不同的领域，具有明显的结构化表格数据的特征，并且有一套基准测试方法，既考虑了模型的拟合，也考虑了找到好的超参数。结果表明，即使不考虑其优越的速度，基于树的模型在中等规模的数据（∼10K样本）上仍然是最先进的。为了理解这一差距，我们对基于树的模型和神经网络（NN）的不同归纳偏见进行了实证调查。这导致了一系列的挑战，这些挑战应该指导旨在建立结构化数据专用NN的研究人员。1.对无信息的特征具有鲁棒性，2.保持数据的方向性，3.能够轻松学习不规则的函数。为了促进结构化表格架构的研究，我们贡献了一个标准的基准和基线的原始数据：每个学习器的20000个计算小时的超参数搜索的每个点。

⚡ 论文：PoserNet: Refining Relative Camera Poses Exploiting Object Detections

论文时间：19 Jul 2022

所属领域：计算机视觉

对应任务：Pose Estimation，姿态检测，姿态预估

论文地址：https://arxiv.org/abs/2207.09445

代码实现：https://github.com/iit-pavis/posernet

论文作者：Matteo Taiana, Matteo Toso, Stuart James, Alessio Del Bue

论文简介：The estimation of the camera poses associated with a set of images commonly relies on feature matches between the images./与一组图像相关的相机姿态的估计通常依赖于图像之间的特征匹配。

论文摘要：与一组图像相关的相机姿态的估计通常依赖于图像之间的特征匹配。相比之下，我们是第一个通过使用对象性区域来指导姿势估计问题而不是明确的语义对象检测来解决这一挑战的。我们提出了Pose Refiner Network (PoserNet)，这是一个轻量级的图神经网络，用于完善近似的成对相对相机姿势。PoserNet利用对象性区域之间的关联–简明地表示为边界框–跨越多个视图，以全局性地细化稀疏连接的视图图。我们在7-Scenes数据集上评估了不同大小的图，并展示了这一过程如何有利于基于优化的运动平均算法，与基于边界框获得的初始估计相比，旋转的中位误差提高了62度。代码和数据可在https://github.com/IIT-PAVIS/PoserNet获取。

⚡ 论文：AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection

论文时间：21 Jul 2022

所属领域：计算机视觉

对应任务：3D Object Detection，Autonomous Driving，object-detection，Object Detection，目标检测，无人驾驶

论文地址：https://arxiv.org/abs/2207.10316

代码实现：https://github.com/zehuichen123/autoalignv2

论文作者：Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao

论文简介：Recently, AutoAlign presents a learnable paradigm in combining these two modalities for 3D object detection./最近，AutoAlign提出了一种可学习的范式，将这两种模式结合起来进行三维物体检测。

论文摘要：点云和RGB图像是自主驾驶中的两个通用感知源。前者可以提供物体的准确定位，后者的语义信息更密集、更丰富。最近，AutoAlign提出了一种可学习的范式，将这两种模式结合起来进行三维物体检测。然而，它受到了全局性注意力所带来的高计算成本的影响。为了解决这个问题，我们在这项工作中提出了跨域变形CAFA模块。它关注跨模态关系建模的稀疏可学习采样点，这增强了对校准误差的容忍度，并大大加快了不同模态的特征聚合。为了克服多模态环境下复杂的GT-AUG，我们设计了一个简单而有效的跨模态增强策略，即考虑到图像patches的深度信息，对其进行凸组合。此外，通过执行一个新的图像级别的dropout训练方案，我们的模型能够以动态的方式进行推断。为此，我们提出了AutoAlignV2，一个建立在AutoAlign之上的更快、更强的多模态三维检测框架。在nuScenes基准上进行的大量实验证明了AutoAlignV2的有效性和效率。值得注意的是，我们的最佳模型在nuScenes测试排行榜上达到了72.4 NDS，在所有已发表的多模态3D物体检测器中取得了新的最先进的结果。代码将在https://github.com/zehuichen123/AutoAlignV2发布。

⚡ 论文：Panoptic Scene Graph Generation

论文时间：22 Jul 2022

所属领域：计算机视觉

对应任务：Panoptic Scene Graph Generation，Scene Graph Generation，Scene Understanding，全景场景图生成，场景图生成，场景理解

论文地址：https://arxiv.org/abs/2207.11247

代码实现：https://github.com/Jingkang50/OpenPSG

论文作者：Jingkang Yang, Yi Zhe Ang, Zujin Guo, Kaiyang Zhou, Wayne Zhang, Ziwei Liu

论文简介：Existing research addresses scene graph generation (SGG) – a critical technology for scene understanding in images – from a detection perspective, i. e., objects are detected using bounding boxes followed by prediction of their pairwise relationships./现有的研究从检测的角度解决了场景图生成（SGG）–图像中场景理解的一项关键技术，即使用边界框检测物体，然后预测它们的配对关系。

论文摘要：现有的研究从检测的角度来解决场景图生成（SGG）–图像中场景理解的一项关键技术，即使用边界框检测物体，然后预测它们的成对关系。我们认为，这样的范式导致了一些问题，阻碍了该领域的发展。例如，当前数据集中基于边界框的标签通常包含像毛发这样的冗余类，并遗漏了对理解背景至关重要的背景信息。在这项工作中，我们引入了全景场景图生成（PSG），这是一个新的问题任务，要求模型在全景分割的基础上生成一个更全面的场景图表示，而不是刚性的边界框。我们创建了一个高质量的PSG数据集，其中包含来自COCO和Visual Genome的49k个注释良好的重叠图像，供社区跟踪其进展。为了进行基准测试，我们建立了四个两阶段基线，这些基线是根据SGG的经典方法修改的，还有两个单阶段基线，称为PSGTR和PSGFormer，它们是基于高效的基于Transformer的检测器，即DETR。PSGTR使用一组查询来直接学习三联体，而PSGFormer则以两个Transformer解码器的查询形式分别对对象和关系进行建模，然后采用类似提示的关系-对象匹配机制。最后，我们谈及对开放性挑战和未来方向的一些想法。

我们是 ShowMeAI，致力于传播AI优质内容，分享行业解决方案，用知识加速每一次技术成长！点击查看 历史文章列表，在公众号内订阅话题 #ShowMeAI资讯日报，可接收每日最新推送。点击 专题合辑&电子月刊 快速浏览各专题全集。点击这里回复关键字日报免费获取AI电子月刊与资料包。