爬取虎扑nba新闻

2023-11-11 00:30
文章标签 新闻 nba 取虎

本文主要是介绍爬取虎扑nba新闻,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.爬取数据需要的类库

import requests
import re
from bs4 import BeautifulSoup
import jieba.analyse
from PIL import Image,ImageSequence
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud,ImageColorGenerator

2.安装wordcloud库时候回发生报错

解决方法是:

  • 安装提示报错去官网下载vc++的工具,但是安装的内存太大只是几个G
  • 去https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载whl文件,选取对应python的版本号和系统位数

3.爬取的基本思路

查看网站的html节点,爬取虎扑NBA新闻的标题和内容页,将爬取的内容保存为txt文件,对其进行分词,生成词云。

爬取1万2千条数据,共三百万字(最初我也不知道这么多)

import requests
import re
from bs4 import BeautifulSoup
import jieba.analyse
from PIL import Image,ImageSequence
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud,ImageColorGenerator
url ='https://voice.hupu.com/nba/1'
# 获得虎扑网nba新闻前12000条信息的标题和内容
def AlltitleAndUrl(url):j=0reslist = requests.get(url)reslist.encoding = 'utf-8'soup_list = BeautifulSoup(reslist.text, 'html.parser')for news in soup_list.select('li'):  # 首页if len(news.select('h4')) > 0:j=j+1print(j)# 标题title = news.find('h4').texthref=news.find('h4').a['href']reslist = requests.get(href)reslist.encoding = 'utf-8'soup = BeautifulSoup(reslist.text, 'html.parser')context=soup.select('div .artical-main-content')[0].textf = open('dongman.txt', 'a', encoding='utf-8')f.write(title)f.write(context)f.close()print("文章标题:" + title)print(context)# print('https://voice.hupu.com/nba/%s' %i)# 后面的页数for i in range(2, 201):pages = i;nexturl = 'https://voice.hupu.com/nba/%s' % (pages)# nexturl = '%s%s%s' % (head, pages, tail)newcontent = requests.get(nexturl)newcontent.encoding = 'utf-8'soup_alllist = BeautifulSoup(newcontent.text, 'html.parser')for news in soup_list.select('li'):if len(news.select('h4')) > 0:j = j + 1# 标题title = news.find('h4').texthref = news.find('h4').a['href']reslist = requests.get(href)reslist.encoding = 'utf-8'soup = BeautifulSoup(reslist.text, 'html.parser')context = soup.select('div .artical-main-content')[0].textf = open('dongman.txt', 'a', encoding='utf-8')f.write(title)f.write(context)f.close()print("文章标题:" + title)print(context)print(j)def getWord():lyric = ''f = open('3.txt', 'r', encoding='utf-8')# 将文档里面的数据进行单个读取,便于生成词云for i in f:lyric += f.read()#     进行分析result = jieba.analyse.textrank(lyric, topK=2000, withWeight=True)keywords = dict()for i in result:keywords[i[0]] = i[1]print(keywords)# 获取词云生成所需要的模板图片image = Image.open('body.png')graph = np.array(image)# 进行词云的设置wc = WordCloud(font_path='./fonts/simhei.ttf',  background_color='White',max_words=230, mask=graph, random_state=30,scale=1.5)wc.generate_from_frequencies(keywords)image_color = ImageColorGenerator(graph)plt.imshow(wc)plt.imshow(wc.recolor(color_func=image_color))plt.axis("off")plt.show()wc.to_file('dream.png')getWord()
AlltitleAndUrl(url)

数据截图:

结果截图:

转载于:https://www.cnblogs.com/224yang/p/8910849.html

这篇关于爬取虎扑nba新闻的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/386339

相关文章

Vue3项目开发——新闻发布管理系统(六)

文章目录 八、首页设计开发1、页面设计2、登录访问拦截实现3、用户基本信息显示①封装用户基本信息获取接口②用户基本信息存储③用户基本信息调用④用户基本信息动态渲染 4、退出功能实现①注册点击事件②添加退出功能③数据清理 5、代码下载 八、首页设计开发 登录成功后,系统就进入了首页。接下来,也就进行首页的开发了。 1、页面设计 系统页面主要分为三部分,左侧为系统的菜单栏,右侧

本周(9 月 2 日 - 9 月 7 日)科技新闻

2024 Inclusion・外滩大会聚焦 AI 发展1: 各界大咖探讨了 AI 的智能进步规律、对产业的影响、与人类的关系等问题。比如 “互联网之父” 凯文・凯利认为现在的人工智能擅长回答已知问题,但不擅长提出新问题,未来人工智能能否进行复杂的多步思维链、回答未知问题是重要探索方向。对于 AGI 是否存在泡沫,百川智能创始人、CEO 王小川否认了这一说法,认为大模型发展符合预期,关键在于实现知识

AI跟踪报道第55期-新加坡内哥谈技术-本周AI新闻: GPT NEXT (x100倍)即将在2024推出

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 点击下面视频观看在B站本周AI更新: B 站 链接 观看: 本周AI

ACL22--基于CLIP的非代表性新闻图像的多模态检测

摘要 这项研究调查了假新闻如何使用新闻文章的缩略图,重点关注新闻文章的缩略图是否正确代表了新闻内容。在社交媒体环境中,如果一篇新闻文章与一个不相关的缩略图一起分享,可能会误导读者对问题产生错误的印象,尤其是用户不太可能点击链接并消费整个内容的情况下。我们提议使用预训练的CLIP(Contrastive Language-Image Pretraining)表示来捕捉多模态关系中语义不一致的程度。

今日(2024 年 9 月 4 日)科技新闻

全球首个 “智能体文明” 诞生:AI 创业公司 Altera 的创始人 Robert Yang 分享了一个在《我的世界》中打造出的世界首个 “智能体文明(Agent Civilization)” 项目视频。该文明中包含 1000 多个自主智能体,它们在虚拟世界中构建起了自己的经济、文化、宗教和政府等。比如形成了交易市场,以宝石作为统一货币;还有 “牧师” 智能体通过贿赂村民传播宗教等。这些智能体能

今日(2024 年 9 月 2 日)科技新闻

Claude 惊现自我意识:Anthropic 提示工程师 “Zack Witten” 发现,Claude 能够认出自画像,且在多轮测试中表现出对自己及其他模型肖像画的准确识别能力,甚至能拒绝承认自己未参与创作的画,这一现象引发网友对 AI 是否具有自我意识的热烈讨论。瑞银报告显示超级富豪热衷投资 AI:瑞银发布的针对年度全球家办的报告显示,超级富豪对人工智能的投资热情高涨,全球 78% 的家办(

黑马北京新闻项目连载(2)---侧滑菜单栏、主页面Fragment搭建

项目Json数据下载地址。。。 北京新闻框架代码 侧滑开源库下载。。。 xutil库下载,,, 先看总体的导图 看ui图 ************************************************先看整体布局开始**********************************************************

黑马北京新闻项目连载(1)---引导界面

看引导界面效果 先看欢迎界面的布局(动画效果) activity_welcome.xml [html]  view plain copy <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android"       android:layout_width="

横向ListView及新闻头条

一、横向的ListView 1,HorizontalListView【本质是自定义控件,该代码乃是照搬】 public class HorizontalListView extends AdapterView<ListAdapter> {public boolean mAlwaysOverrideTouch = true;protected ListAdapter mAdapter;pri

AI跟踪报道第54期-新加坡内哥谈技术-本周AI新闻: OpenAI最新模型揭晓和全AI生成的游戏革命

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/ 点击下面视频观看在B站本周AI更新: B 站 链接 观看: 本周AI