BlackHat USA 2020 资料爬虫最佳姿势与打包下载

2023-10-08 00:08

文章标签 2020 最佳爬虫打包下载资料姿势 blackhat usa

本文主要是介绍BlackHat USA 2020 资料爬虫最佳姿势与打包下载，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

现在BlackHat官网的ppt下载真是麻烦，不再像以前放在一页里面直接显示，而是在议题列表里面，一个个点进去翻看才能下载。

这种事真要一个个去下载，近百个议题，你得下到手软。

不搞个爬虫去自动化下载，都对不起攻城师的头衔。

原本是想用scrapy写个python脚本去批量下载，后来决定用更加高效的方法：使用Web Scraper这个Chrome插件，通过点鼠标就可解决，无需编写代码。可直接在浏览器里面模拟网页浏览与操作，可以有效绕过一些反爬虫机制。

通过Chrome商店安装好Web Scraper后，在其“开发者工具”里面可以看到：

点击“Create new sitemap”，设置下任务的名称，以及爬虫的起始页，这里就取BlackHat的议题列表地址：

创建后点击“Add new selector"：

设置id，Type为“Link"，为的是获取二级页面的链接地址，选择”Select”，然后在页面中去选择链接的位置，它会实时显示出红框，帮助你识别。

注意：这里必须勾选“Multiple”，否则无法选上所有议题链接：

点击创建的“session”进入议题详情页面，即二级页面：

接下来就要获取PDF下载地址了，这里包括slide和paper两个下载地址（不一定都有提供，但全选上不影响），然后继续按前面的操作去添加selector(下载链接的页面元素)。此处“Type”选“Link”而不是“Element click”去模拟点击下载，是因为chrome里面点击pdf链接会直接打开，所以获取链接地址再用命令行去下载：

这里“Parent Selectors”就是父页面中我们设置的对应id，层级关系相当于爬虫进入下一页再找目标元素一样，用它我们也可以实现翻页效果（翻页经常在get参数中设置，所以有时可以直接在起始URL中设置页参数范围，比如http://test.com/abc?page=[0-100]），保持默认就可以了。

最后点击“Sitemap blackhat” =》"Scrape” =》“Start scraping”开始爬虫：

再将爬虫结果导出csv，用命令行批量下载就可以了。

BlackHat资料打包下载地址（点击”阅读原文”）：

https://github.com/riusksk/SecConArchive/tree/master/BlackHat/BlackHat_USA_2020

这篇关于BlackHat USA 2020 资料爬虫最佳姿势与打包下载的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/161344。 23002807@qq.com

相关文章

PyInstaller打包selenium-wire过程中常见问题和解决指南

PyInstaller打包selenium-wire过程中常见问题和解决指南

《PyInstaller打包selenium-wire过程中常见问题和解决指南》常用的打包工具PyInstaller能将Python项目打包成单个可执行文件,但也会因为兼容性问题和路径管理而出现各种运... 目录前言1. 背景2. 可能遇到的问题概述3. PyInstaller 打包步骤及参数配置4. 依赖

阅读更多...

Java实现文件图片的预览和下载功能

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件（图片）的预览和下载 @ApiOperation("访问文件") @GetMapping("

阅读更多...

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

阅读更多...

Flutter打包APK的几种方式小结

Flutter打包APK的几种方式小结

《Flutter打包APK的几种方式小结》Flutter打包不同于RN,Flutter可以在AndroidStudio里编写Flutter代码并最终打包为APK,本篇主要阐述涉及到的几种打包方式,通... 目录前言1. android原生打包APK方式2. Flutter通过原生工程打包方式3. Futte

阅读更多...

Python下载Pandas包的步骤

Python下载Pandas包的步骤

《Python下载Pandas包的步骤》：本文主要介绍Python下载Pandas包的步骤,在python中安装pandas库,我采取的方法是用PIP的方法在Python目标位置进行安装,本文给大... 目录安装步骤1、首先找到我们安装python的目录2、使用命令行到Python安装目录下3、我们回到Py

阅读更多...

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

Spring Boot中定时任务Cron表达式的终极指南最佳实践记录

《SpringBoot中定时任务Cron表达式的终极指南最佳实践记录》本文详细介绍了SpringBoot中定时任务的实现方法,特别是Cron表达式的使用技巧和高级用法,从基础语法到复杂场景,从快速启... 目录一、Cron表达式基础1.1 Cron表达式结构1.2 核心语法规则二、Spring Boot中定

阅读更多...

使用国内镜像源优化pip install下载的方法步骤

使用国内镜像源优化pip install下载的方法步骤

《使用国内镜像源优化pipinstall下载的方法步骤》在Python开发中,pip是一个不可或缺的工具,用于安装和管理Python包,然而,由于默认的PyPI服务器位于国外,国内用户在安装依赖时可... 目录引言1. 为什么需要国内镜像源？2. 常用的国内镜像源3. 临时使用国内镜像源4. 永久配置国内镜

阅读更多...

Python如何快速下载依赖

Python如何快速下载依赖

《Python如何快速下载依赖》本文介绍了四种在Python中快速下载依赖的方法,包括使用国内镜像源、开启pip并发下载功能、使用pipreqs批量下载项目依赖以及使用conda管理依赖,通过这些方法... 目录python快速下载依赖1. 使用国内镜像源临时使用镜像源永久配置镜像源2. 使用 pip 的并

阅读更多...

jdk21下载、安装详细教程(Windows、Linux、macOS)

jdk21下载、安装详细教程(Windows、Linux、macOS)

《jdk21下载、安装详细教程(Windows、Linux、macOS)》本文介绍了OpenJDK21的下载地址和安装步骤,包括Windows、Linux和macOS平台,下载后解压并设置环境变量,最... 目录1、官网2、下载openjdk3、安装4、验证1、官网官网地址：OpenJDK下载地址：Ar

阅读更多...

linux打包解压命令方式

linux打包解压命令方式

《linux打包解压命令方式》文章介绍了Linux系统中常用的打包和解压命令,包括tar和zip,使用tar命令可以创建和解压tar格式的归档文件,使用zip命令可以创建和解压zip格式的压缩文件,每... 目录Lijavascriptnux 打包和解压命令打包命令解压命令总结linux 打包和解压命令打

阅读更多...