How to collect data

2024-01-05 13:12
文章标签 data collect

本文主要是介绍How to collect data,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

How to collect data

  • 爬虫
    • Java
    • Python
      • urllib
      • requests
      • BeautifulSoup
    • 反爬虫
      • 信息校验型反爬虫
      • 动态渲染反爬虫
      • 文本混淆反爬虫
      • 特征识别反爬虫
      • App反爬虫
      • 验证码
  • 自动化测试工具
    • Selenium
    • Appium
    • QMetry Automation Studio
    • TestComplete
  • RPA
    • 商业化产品
      • 艺赛旗
      • 影刀
      • UIPath
    • 开源产品
      • Robot Framework RPA

爬虫

Java

Python

urllib

requests

BeautifulSoup

反爬虫

信息校验型反爬虫

  • User-Agent反爬虫

  • Cookie反爬虫

  • 签名验证反爬虫

  • WebSocket握手验证反爬虫

  • WebSocket消息校验反爬虫

  • WebSocket Ping反爬虫

动态渲染反爬虫

文本混淆反爬虫

  • 图片伪装反爬虫
  • CSS偏移反爬虫
  • SVG映射反爬虫
  • 字体反爬虫
  • 文本混淆爬虫通用解决办法

特征识别反爬虫

  • WebDriver识别
  • 浏览器特征
  • 爬虫特征
  • 隐藏链接反爬虫

App反爬虫

  • App手抓包
  • APK文件反编译
  • 代码混淆反爬虫

验证码

  • 字符验证码
  • 计算型验证码
  • 滑动拼图验证码
  • 文字点选验证码

自动化测试工具

Selenium

Appium

QMetry Automation Studio

TestComplete

RPA

商业化产品

艺赛旗

影刀

UIPath

开源产品

Robot Framework RPA

参考文献

  • 火车头采集网站内页URL(图文)教程
  • 技术研究 | 零编程数据爬取之:火车头数据爬取(一)
  • 火车头/高铁采集器怎么使用,新手保姆级教程
  • 学习seo网站运营的第31天-火车头采集的学习
  • 2023年全球十大最佳自动化测试工具
  • 推荐几款常用Web自动化测试神器
  • 八千字直接带你学完《基于Python的Selenium4从入门到高级》全教程
  • Selenium+dddocr轻松解决Web自动化验证码识别
  • 巧用 selenium 解决验证码,模拟登陆某流行网站
  • 【道高一尺魔高一丈】7种反爬虫策略及规避手段
  • 10个好用到爆的"反爬虫"措施
  • 五个优秀开源RPA框架
  • Python 3反爬虫原理与绕过实践 / 韦世东著 / 人民邮电出版社 2020-01 / ISBN: 978711528735

这篇关于How to collect data的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/572971

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统

引言 在企业级应用开发中,数据库操作是非常重要的一环。Spring Data JPA提供了一种简化的方式来进行数据库交互,它使得开发者无需编写复杂的JPA代码就可以完成常见的CRUD操作。此外,设计模式如单例模式可以帮助我们更好地管理和控制对象的创建过程,从而提高系统的性能和可维护性。本文将展示如何结合Spring Boot、Spring Data JPA以及单例模式来构建一个基本的库存管理系统

15 组件的切换和对组件的data的使用

划重点 a 标签的使用事件修饰符组件的定义组件的切换:登录 / 注册 泡椒鱼头 :微辣 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-

12C 新特性,MOVE DATAFILE 在线移动 包括system, 附带改名 NID ,cdb_data_files视图坏了

ALTER DATABASE MOVE DATAFILE  可以改名 可以move file,全部一个命令。 resue 可以重用,keep好像不生效!!! system照移动不误-------- SQL> select file_name, status, online_status from dba_data_files where tablespace_name='SYSTEM'

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

java.sql.SQLException: No data found

Java代码如下: package com.accord.utils;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import

FORM的ENCTYPE=multipart/form-data 时request.getParameter()值为null问题的解决

此情况发生于前台表单传送至后台java servlet处理: 问题:当Form需要FileUpload上传文件同时上传表单其他控件数据时,由于设置了ENCTYPE=”multipart/form-data” 属性,后台request.getParameter()获取的值为null 上传文件的参考代码:http://www.runoob.com/jsp/jsp-file-uploading.ht

Oracle Data Guard:Oracle数据库的高可用性和灾难恢复解决方案

在企业级数据库管理中,确保数据的高可用性和在灾难情况下的快速恢复是至关重要的。Oracle Data Guard是Oracle公司提供的一种强大的数据库高可用性解决方案,它通过在主数据库和至少一个备用数据库之间提供实时或近实时的数据保护来实现这一目标。本文将详细介绍如何在Oracle数据库中部署和使用Oracle Data Guard,包括其基本概念、配置步骤、管理技巧和实际应用示例。 1. O

Creating OpenAI Gym Environment from Map Data

题意:从地图数据创建 OpenAI Gym 环境 问题背景: I am just starting out with reinforcement learning and trying to create a custom environment with OpenAI gym. However, I am stumped with trying to create an enviro