爬取目标网站的域名和子域名【网站子域扫描工具01】

本文主要是介绍爬取目标网站的域名和子域名【网站子域扫描工具01】，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

使用 Python 的 requests 库发送 HTTP 请求，并使用 Beautiful Soup或者正则表达式来解析响应，从中提取出域名和子域名信息。

1.简单示例（Beautiful Soup）

这是一个简单的示例代码，演示如何使用 requests 和 BeautifulSoup 来获取网页中的链接：
下面是带有注释的代码，解释了每一步具体在做什么：

import requests  # 导入发送 HTTP 请求的库
from bs4 import BeautifulSoup  # 导入用于解析 HTML 的库# 定义一个函数，用于获取目标网站的子域名
def get_subdomains(url):# 发送一个 GET 请求到目标网站，并获取响应内容response = requests.get(url)# 使用 BeautifulSoup 解析响应的 HTML 内容soup = BeautifulSoup(response.text, 'html.parser')subdomains = set()  # 创建一个集合，用于存储提取出的子域名# 遍历所有带有 href 属性的链接for link in soup.find_all('a'):href = link.get('href')  # 获取链接的地址if href and href.startswith('http'):  # 如果链接以 http 开头（避免处理相对链接）domain = href.split('/')[2]  # 提取链接中的域名部分作为子域名subdomains.add(domain)  # 将提取到的子域名加入集合中return subdomains  # 返回提取到的子域名集合target_url = 'http://www.baidu.com'  # 设置目标网站的 URL
subdomains = get_subdomains(target_url)  # 调用函数获取子域名
print(subdomains)  # 打印提取到的子域名集合

在这个示例中，我们首先发送了一个 GET 请求到目标网站，然后用 BeautifulSoup 解析响应的 HTML 内容，提取出所有带有 href 属性的链接，并从中提取出域名部分作为子域名。最后将提取到的子域名放入集合中并返回。

2.简单示例（正则表达式）

以下是一个简单的示例代码：

import requests
import redef get_subdomains(url):response = requests.get(url)  # 发送GET请求获取网页内容html_content = response.text  # 获取网页HTML内容# 使用正则表达式从HTML内容中提取子域名subdomains = re.findall(r'(https?://\w+\.\w+\.\w+)', html_content)return subdomainstarget_url = 'http://www.baidu.com'
subdomains = get_subdomains(target_url)
print(subdomains)