步步递近网络蜘蛛(二)v2.1

2024-02-20 02:18
文章标签 网络 蜘蛛 v2.1 步步 递近

本文主要是介绍步步递近网络蜘蛛(二)v2.1,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

/*
 * 名称:步步递近网络蜘蛛(二)
 *
 * 版本:v2.0
 *
 * 作者:张双喜
 *
 * 日期:2010.10.21
 *
 * 功能:从文件中读取合法的网址(在html中语法表达中正确的网址),并把所有网址存入在链表中,最后打印所有合法网址。
 *
 * 设计思想:
 *    1、如何查找网址?
 *        1.参考版本v1.0,即:可以成功读取程序中定义的字符串中合法网址
 *
 *    2、如何获取合法网址?
 *        1.fread(buf, 1024, 1, fp)
 *            从文件中一次读取1024个字节内容,存入buf[],其中这1024个字节内容可能包括合法的网址、非法的网址、换行符号/n、空格等其他符号
 *        2.get_string_from_1024()
 *            对1024个字符进行解析,即:把第一次出现/n前的内容存入str[]中,然后对str[]中的内容进行是否是合法网址判断,
 *            如果是合法网址,把该网址存入单链表
 *        3.get_every_link()
 *            获取每一个网址
 *            该函数框架大致如下:
 *            get_every_link()
 *            {
 *                while(循环条件)                //不断的对文件进行读取,注意每次读取的开始位置
 *                {
 *                    fread(buf, 1024, 1, fp);    //读取1024个文件,存入buf[]
 *                    get_string_from_1024();        //获取第一个/n前的内容,存入str[]
 *                    link();                //对str[]中内容进行判断,如果事合法网址,并存入单链表中。
 *                }
 *            }
 *            说明:
 *                链表中一个结点存放一个合法的网址
 *
 *    3、如何输出所有合法网址?
 *        1.printf_link()
 *            打印网址,即:打印链表,因为所有合法网址都顺序的存放在该链表中。
 *
 * update 1
 *     修正了原来链表中一个结点只存放一个字符的问题,现在修正为一个结点存放一个字符串
 *
 *     还存在的问题:
 *         fread读文件时效率太低,因为在buf中如果出现了合法网址,就要从这个合法网址开始下一次读文件,每次读文件时可能会重复读很多内容,从而导致效率偏低
 *
 *    版本:v2.1
 *
 *     作者:张双喜
 *
 *     日期:2010.10.22
 *
 * */
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#define N 1024

typedef struct node
{
    char * data;
    struct node * next;
}NODE, * PNODE;

char buf[N] = {0};        //存放fread读出来的值
char str[N] = {0};        //存放从读出的1024个字节中解析出的第一行内容
char link_temp[N] = {0};    //临时存放合法网址

//自己实现的strncmp函数
int my_strncmp(char *p, char *q, int n)
{
    int i = 0;
    int count = 0;

    for( i = 0; i < n; i++)
    {
        if(*(p+i) == *(q+i))
        {
            count++;
        }
    }

    if(count == n)
    {
        return 0;
    }
    else
    {
        return 1;
    }
}

//判断是否满足"<a "
char * judge_mark_a(char **p, int *count)
{
    while((0 != my_strncmp(*p, "<a ", 3)) && ('/n' != (**p)) && ('/0' != (**p)))
    {
        (*p)++;
        (*count)++;
    }

    if(('/n' != (**p)) && '/0' != (**p))
    {
        *p = *p + 3;
        (*count) = (*count) + 3;
        return *p;
    }
    else
        return NULL;
}

//判断是否满足****  href
char * judge_href(char **p, int * count)
{
    while(' ' == **p)
    {
        (*p)++;
        (*count)++;
    }

    if(0 == my_strncmp(*p, "href", 4))
    {
        *p = *p + 4;
        (*count) = (*count) + 3;
        return *p;
    }
    else
    {
        return NULL;
    }
}

//判断是否满足***  =
char * judge_equal_mark(char **p, int * count)
{
    while(' ' == **p)
    {
        (*p)++;
        (*count)++;
    }

    if('=' == **p)
    {
        return (*p) + 1;
    }
    else
    {
        return NULL;
    }
}

//判断是否满足**  ["]  ['] http
char * judge_http(char **p, int *count)
{
    while((' ' == **p) || ('/"' == **p) || ('/'' == **p))
    {
        (*p)++;
        (*count)++;
    }

    if('h' == **p)
    {
        return *p;
    }
    else
    {
        return NULL;
    }
}

//创建结点
PNODE create_node(void)
{
    PNODE new;
    new = malloc(sizeof(NODE));
    if(NULL == new)
    {
        printf("error:/n");
        exit(0);
    }
   
    return new;
}

//创建结点数据域空间
char * create_node_data(int *count)
{
    char * data;

    data = malloc(*count * sizeof(char));

    return data;
}

//每次插入到最后一个位置
PNODE insert_list(PNODE tmp, PNODE new)
{
    tmp->next = new;
    new->next = NULL;
    tmp = new;

    return tmp;
}

//处理网址结束位置
char * judge_end(char **p, int *count)
{
    int i = 0;
    PNODE new;

    if(NULL != *p)
    {
        while((**p != '/"') && (**p != '/'') && (**p != '>') && (**p != '/0') && (**p != ' '))
        {
            link_temp[i++] = **p;
            (*p)++;
            (*count)++;
        }
   
        link_temp[i] = '/n';
        *count = *count + 1;
    }
   
    return link_temp;
}

//保存至链表
PNODE save_to_list(PNODE temp, char link_temp[], int * count)
{
    PNODE new;

    if(NULL != link_temp)
    {
        new = create_node();
        new->data = create_node_data(count);

        strcpy(new->data, link_temp);
        memset(link_temp, 0, strlen(link_temp));

        temp = insert_list(temp, new);
    }   
    return temp;
}

//功能:生成网址
void link(char *p, int * count)
{
    char * ret;

    ret = judge_mark_a(&p, count);

    if(NULL != ret)
    {
        ret = judge_href(&ret, count);
    }

    if(NULL != ret)
    {
        ret = judge_equal_mark(&ret, count);
    }

    if(NULL != ret)
    {
        ret = judge_http(&ret, count);
    }

    if(NULL != ret)
    {
        ret = judge_end(&ret, count);
    }

    return;
}

//打印网址
void printf_link(PNODE head)
{
    head = head->next;

    while(NULL != head)
    {
        printf("%s", head->data);
        head = head->next;
    }

    return;
}

//把文件的所有内容读取为一个字符串,即:把全部内容读到一个字符串中
void read_file(FILE *fp, int * pos)
{
    if((fp = fopen("link.html", "r")) == NULL)
    {
        perror("link.html");
        exit(0);
    }

    memset(buf, 0, N);
    fseek(fp, *pos, 0);
    fread(buf, 1024, 1, fp);
   
    fclose(fp);

    return;
}

//从读取的1024个字节获取一行内容,不管这一行有什么内容,只要是这一行的内容,都要获取到str[]中
void get_string_from_1024(char *p, int * pos)
{
    int i = 0;
    int len = 0;
    char * tmp;

    memset(str, 0, strlen(str));

    while('/n' != *p)
    {
        str[i++] = *p;
        p++;
    }
   
    return;
}

//从所有文件中获取合法链接,并连续的存入到链表(一个结点存放一个合法网址)
void get_every_link(FILE *fp, PNODE temp, int *pos, int * count)
{
    int i = 0;
    int len = 0;
    char t[N] = {0};
    char * tmp;
    char * link_legal;

    tmp = t;
    *tmp = 'a';                        //随意给定一个非'/0'字符,使得第一次可以进入循环
   
    while('/0' != *tmp)
    {
        *count = 0;
        memset(tmp, 0, strlen(tmp));

        read_file(fp, pos);                //对所有文件读取1024个字节,放到buf中
        get_string_from_1024(buf, pos);            //对刚才读取的1024个字节进行处理,即:把第一个/n前的值存入str中
        link(str, count);                //得到合法网址,并存到全局变量link_temp中
        len = *count + 1;
        *pos = *pos + len;                //确定下次读文件开始的位置
   
        tmp = buf + *count + 1;                //用tmp判断是否读到文件结尾

        temp = save_to_list(temp, link_temp, count);    //把合法网址报存到链表结点中
    }

    return;
}

int main(int argc, char* argv[])
{
    FILE *fp;
    int count = 0;
    int pos = 0;
    PNODE head, temp;

    temp = create_node();
    temp->next = NULL;
    head = temp;
   
    get_every_link(fp, temp, &pos, &count);            //循环读文件,得到每一个合法的网址

    printf_link(head);                    //输出网址,直接打印链表即可,因为把合法链接连续的存入到了链表
   
    return 0;
}

这篇关于步步递近网络蜘蛛(二)v2.1的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/726735

相关文章

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

ASIO网络调试助手之一:简介

多年前,写过几篇《Boost.Asio C++网络编程》的学习文章,一直没机会实践。最近项目中用到了Asio,于是抽空写了个网络调试助手。 开发环境: Win10 Qt5.12.6 + Asio(standalone) + spdlog 支持协议: UDP + TCP Client + TCP Server 独立的Asio(http://www.think-async.com)只包含了头文件,不依

poj 3181 网络流,建图。

题意: 农夫约翰为他的牛准备了F种食物和D种饮料。 每头牛都有各自喜欢的食物和饮料,而每种食物和饮料都只能分配给一头牛。 问最多能有多少头牛可以同时得到喜欢的食物和饮料。 解析: 由于要同时得到喜欢的食物和饮料,所以网络流建图的时候要把牛拆点了。 如下建图: s -> 食物 -> 牛1 -> 牛2 -> 饮料 -> t 所以分配一下点: s  =  0, 牛1= 1~

poj 3068 有流量限制的最小费用网络流

题意: m条有向边连接了n个仓库,每条边都有一定费用。 将两种危险品从0运到n-1,除了起点和终点外,危险品不能放在一起,也不能走相同的路径。 求最小的费用是多少。 解析: 抽象出一个源点s一个汇点t,源点与0相连,费用为0,容量为2。 汇点与n - 1相连,费用为0,容量为2。 每条边之间也相连,费用为每条边的费用,容量为1。 建图完毕之后,求一条流量为2的最小费用流就行了

poj 2112 网络流+二分

题意: k台挤奶机,c头牛,每台挤奶机可以挤m头牛。 现在给出每只牛到挤奶机的距离矩阵,求最小化牛的最大路程。 解析: 最大值最小化,最小值最大化,用二分来做。 先求出两点之间的最短距离。 然后二分匹配牛到挤奶机的最大路程,匹配中的判断是在这个最大路程下,是否牛的数量达到c只。 如何求牛的数量呢,用网络流来做。 从源点到牛引一条容量为1的边,然后挤奶机到汇点引一条容量为m的边

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络 服务器端配置 在服务器端,你需要确保安装了必要的驱动程序和软件包,并且正确配置了网络接口。 安装 OFED 首先,安装 Open Fabrics Enterprise Distribution (OFED),它包含了 InfiniBand 所需的驱动程序和库。 sudo

【机器学习】高斯网络的基本概念和应用领域

引言 高斯网络(Gaussian Network)通常指的是一个概率图模型,其中所有的随机变量(或节点)都遵循高斯分布 文章目录 引言一、高斯网络(Gaussian Network)1.1 高斯过程(Gaussian Process)1.2 高斯混合模型(Gaussian Mixture Model)1.3 应用1.4 总结 二、高斯网络的应用2.1 机器学习2.2 统计学2.3

网络学习-eNSP配置NAT

NAT实现内网和外网互通 #给路由器接口设置IP地址模拟实验环境<Huawei>system-viewEnter system view, return user view with Ctrl+Z.[Huawei]undo info-center enableInfo: Information center is disabled.[Huawei]interface gigabit

Golang 网络爬虫框架gocolly/colly(五)

gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种: 一,最笨拙但有效的方法是字符串处理,go语言string底层对应字节数组,复制任何长度的字符串的开销都很低廉,搜索性能比较高; 二,利用正则表达式,要提取的数据往往有明显的特征,所以正则表达式写起来比较简单,不必非常严谨; 三,使

Golang网络爬虫框架gocolly/colly(四)

爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、