【UCAS自然语言处理作业一】利用BeautifulSoup爬取中英文数据,计算熵,验证齐夫定律

本文主要是介绍【UCAS自然语言处理作业一】利用BeautifulSoup爬取中英文数据,计算熵,验证齐夫定律,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 前言
    • 中文
      • 数据爬取
        • 爬取界面
        • 爬取代码
      • 数据清洗
      • 数据分析
      • 实验结果
    • 英文
      • 数据爬取
        • 爬取界面
        • 动态爬取
      • 数据清洗
      • 数据分析
      • 实验结果
    • 结论

前言

  • 本文分别针对中文,英文语料进行爬虫,并在两种语言上计算其对应的熵,验证齐夫定律
  • github: ShiyuNee/python-spider (github.com)

中文

数据爬取

本实验对四大名著的内容进行爬取,并针对四大名著的内容展开中文文本分析,统计熵,验证齐夫定律

  • 爬取网站: https://5000yan.com/
  • 以水浒传的爬取为例展示爬取过程
爬取界面

在这里插入图片描述

  • 我们需要通过本页面,找到水浒传所有章节对应的url,从而获取每一个章节的信息

  • 可以注意到,这里每个章节都在class=menu-itemli中,且这些项都包含在class=panbaiul内,因此,我们对这些项进行提取,就能获得所有章节对应的url

  • 以第一章为例,页面为

    在这里插入图片描述

    • 可以看到,所有的正文部分都包含在class=grapdiv内,因此,我们只要提取其内部所有div中的文字,拼接在一起即可获得全部正文
爬取代码
def get_book(url, out_path):root_url = urlheaders={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Mobile Safari/537.36'} # chrome浏览器page_text=requests.get(root_url, headers=headers).content.decode()soup1=BeautifulSoup(page_text, 'lxml')res_list = []# 获取所有章节的urltag_list = soup1.find(class_='paiban').find_all(class_='menu-item')url_list = [item.find('a')['href'] for item in tag_list]for item in url_list: # 对每一章节的内容进行提取chapter_page = requests.get(item, headers=headers).content.decode()chapter_soup = BeautifulSoup(chapter_page, 'lxml')res = ''try:chapter_content = chapter_soup.find(class_='grap')except:raise ValueError(f'no grap in the page {item}')chapter_text = chapter_content.find_all('div')print(chapter_text)for div_item in chapter_text:res += div_item.text.strip()res_list.append({'text': res})write_jsonl(res_list, out_path)
  • 我们使用beautifulsoup库,模拟Chrome浏览器的header,对每一本书的正文内容进行提取,并将结果保存到本地

数据清洗

  • 因为文本中会有括号,其中的内容是对正文内容的拼音,以及解释。这些解释是不需要的,因此我们首先对去除括号中的内容。注意是中文的括号

    def filter_cn(text):a = re.sub(u"\\(.*?)|\\{.*?}|\\[.*?]|\\【.*?】|\\(.*?\\)", "", text)return a
    
  • 使用结巴分词,对中文语句进行分词

    def tokenize(text):return jieba.cut(text)
    
  • 删除分词后的标点符号项

    def remove_punc(text):puncs = string.punctuation + "“”,。?、‘’:!;"new_text = ''.join([item for item in text if item not in puncs])return new_text
    
  • 对中文中存在的乱码,以及数字进行去除

    def get_cn_and_number(text):return re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039])","",text)
    

整体流程代码如下所示

def collect_data(data_list: list):voc = defaultdict(int)for data in data_list:for idx in range(len(data)):filtered_data = filter_cn(data[idx]['text'])tokenized_data = tokenize(filtered_data)for item in tokenized_data:k = remove_punc(item)k = get_cn_and_number(k)if k != '':voc[k] += 1return voc

数据分析

针对收集好的字典类型数据(key为词,value为词出现的次数),统计中文的熵,并验证齐夫定律

  • 熵的计算

    def compute_entropy(data: dict):cnt = 0total_num = sum(list(data.values()))print(total_num)for k, v in data.items():p = v / total_numcnt += -p * math.log(p)print(cnt)
    
  • 齐夫定律验证(由于词项比较多,为了展示相对细节的齐夫定律图,我们仅绘制前200个词)

    def zip_law(data: dict):cnt_list = data.values()sorted_cnt = sorted(enumerate(cnt_list), reverse=True, key=lambda x: x[1])plot_y = [item[1] for item in sorted_cnt[:200]]print(plot_y)x = range(len(plot_y))plot_x = [item + 1 for item in x]plt.plot(plot_x, plot_y)plt.show()
    

实验结果

  • 西游记

    • 熵:8.2221(共364221种token)

    在这里插入图片描述

  • 西游记+水浒传

    • 熵:8.5814(共836392种token)

      在这里插入图片描述

  • 西游记+水浒传+三国演义

    • 熵:8.8769(共1120315种token)

      在这里插入图片描述

  • 西游记+水浒传+三国演义+红楼梦

    • 熵:8.7349(共1585796种token)

      在这里插入图片描述

英文

数据爬取

本实验对英文读书网站上的图书进行爬取,并针对爬取内容进行统计,统计熵,验证齐夫定律

  • 爬取网站: Bilingual Books in English | AnyLang
  • 以The Little Prince为例介绍爬取过程
爬取界面

在这里插入图片描述

  • 我们需要通过本页面,找到所有书对应的url,然后获得每本书的内容

  • 可以注意到,每本书的url都在class=field-contentspan中,且这些项都包含在class=ajax-linka内,因此,我们对这些项进行提取,就能获得所有书对应的url

  • 以The Little Prince为例,页面为

    在这里插入图片描述

    • 可以看到,所有的正文部分都包含在class=page n*div内,因此,我们只要提取其内部所有div中的<p> </p>内的文字,拼接在一起即可获得全部正文
动态爬取

需要注意的是,英文书的内容较少,因此我们需要爬取多本书。但此页面只有下拉后才会加载出新的书,因此我们需要进行动态爬取

  • 使用selenium加载Chrome浏览器,并模拟浏览器下滑操作,这里模拟5次

    def down_ope(url):driver = webdriver.Chrome()  # 根据需要选择合适的浏览器驱动  driver.get(url)  # 替换为你要爬取的网站URL  for _ in range(5):driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")  time.sleep(5)return driver
    
  • driver中的内容传递给BeautifulSoup

        soup1=BeautifulSoup(driver.page_source, 'lxml')books = soup1.find_all(class_ = 'field-content')
    

整体代码为

def get_en_book(url, out_dir):root_url = url + '/en/books/en'headers={'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Mobile Safari/537.36'} # chrome浏览器driver = down_ope(root_url)soup1=BeautifulSoup(driver.page_source, 'lxml')books = soup1.find_all(class_ = 'field-content')book_url = [item.a['href'] for item in books]for item in book_url:if item[-4:] != 'read':continueout_path = out_dir + item.split('/')[-2] + '.jsonl'time.sleep(2)try:book_text=requests.get(url + item, headers=headers).content.decode()except:continuesoup2=BeautifulSoup(book_text, 'lxml')res_list = []sec_list = soup2.find_all('div', class_=re.compile('page n.*'))for sec in sec_list:res = ""sec_content = sec.find_all('p')for p_content in sec_content:text = p_content.text.strip()if text != '':res += textprint(res)res_list.append({'text': res})write_jsonl(res_list, out_path)

数据清洗

  • 使用nltk库进行分词

    def tokenize_en(text):sen_tok = nltk.sent_tokenize(text)word_tokens = [nltk.word_tokenize(item) for item in sen_tok]tokens = []for temp_tokens in word_tokens:for tok in temp_tokens:tokens.append(tok.lower())return tokens
    
  • 对分词后的token删除标点符号

    def remove_punc(text):puncs = string.punctuation + "“”,。?、‘’:!;"new_text = ''.join([item for item in text if item not in puncs])return new_text
    
  • 利用正则匹配只保留英文

    def get_en(text):return re.sub(r"[^a-zA-Z ]+", '', text)
    

整体流程代码如下

def collect_data_en(data_list: list):voc = defaultdict(int)for data in data_list:for idx in range(len(data)):tokenized_data = tokenize_en(data[idx]['text'])for item in tokenized_data:k = remove_punc(item)k = get_en(k)if k != '':voc[k] += 1return voc

数据分析

数据分析部分与中文部分的分析代码相同,都是利用数据清洗后得到的词典进行熵的计算,并绘制图像验证齐夫定律

实验结果

  • 10本书(1365212种token)

    • 熵:6.8537

    在这里插入图片描述

  • 30本书(3076942种token)

    • 熵:6.9168

      在这里插入图片描述

  • 60本书(4737396种token)

    • 熵:6.9164

      在这里插入图片描述

结论

从中文与英文的分析中不难看出,中文词的熵大于英文词的熵,且二者随语料库的增大都有逐渐增大的趋势。

  • 熵的数值与tokenizer,数据预处理方式有很大关系
  • 不同结论可能源于不同的数据量,tokenizer,数据处理方式

我们分别对中英文在三种不同数据量熵对齐夫定律进行验证

  • 齐夫定律:一个词(字)在语料库中出现的频率,与其按照出现频率的排名成反比

  • 若齐夫定律成立

    • 若我们直接对排序(Order)与出现频率(Count)进行绘制,则会得到一个反比例图像
    • 若我们对排序的对数(Log Order)与出现频率的对数(Log Count)进行绘制,则会得到一条直线
    • 这里由于长尾分布,为了方便分析,只对出现次数最多的top 1000个token进行绘制
  • 从绘制图像中可以看出,齐夫定律显然成立

这篇关于【UCAS自然语言处理作业一】利用BeautifulSoup爬取中英文数据,计算熵,验证齐夫定律的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/285761

相关文章

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

opencv图像处理之指纹验证的实现

《opencv图像处理之指纹验证的实现》本文主要介绍了opencv图像处理之指纹验证的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录一、简介二、具体案例实现1. 图像显示函数2. 指纹验证函数3. 主函数4、运行结果三、总结一、

Springboot处理跨域的实现方式(附Demo)

《Springboot处理跨域的实现方式(附Demo)》:本文主要介绍Springboot处理跨域的实现方式(附Demo),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录Springboot处理跨域的方式1. 基本知识2. @CrossOrigin3. 全局跨域设置4.

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Python实现自动化接收与处理手机验证码

《Python实现自动化接收与处理手机验证码》在移动互联网时代,短信验证码已成为身份验证、账号注册等环节的重要安全手段,本文将介绍如何利用Python实现验证码的自动接收,识别与转发,需要的可以参考下... 目录引言一、准备工作1.1 硬件与软件需求1.2 环境配置二、核心功能实现2.1 短信监听与获取2.

Redis 中的热点键和数据倾斜示例详解

《Redis中的热点键和数据倾斜示例详解》热点键是指在Redis中被频繁访问的特定键,这些键由于其高访问频率,可能导致Redis服务器的性能问题,尤其是在高并发场景下,本文给大家介绍Redis中的热... 目录Redis 中的热点键和数据倾斜热点键(Hot Key)定义特点应对策略示例数据倾斜(Data S