Python数据分析之第四章

2024-08-24 09:38

本文主要是介绍Python数据分析之第四章,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、网页数据抓取

nameage
Mon22
LIlt223

        

import urllib.request;

from bs4 import BeautifulSoup;

response = urllib.request.urlopen('file:///D:/nodepad/Notepad++/uc.html');

html=response.read();

html

soup=BeautifulSoup(html);

soup

soup.find('tr');

soup.find_all('tr');

2、JSON简述

JSON全程为JavaScript对象表示法(JavaScript Object Notation),是存储和交换文本信息的语法。具有文本量更小、更快,更易解析的特点。

JSON和HTML不一样,HTML主要用于展示数据,JSON主要用于传递数据,所以一般作为数据的查询接口。

{

"employees":[

{"firstName":"Bill","lastName":"Gates"},

{"firstName":"George","lastName":"Bush"},

{"firstName":"Thomas","lastName":"Carter"}

]

}

import json;

import urllib.request;

response = urllib.request.urlopen('file:///C:/Users/zxysnowy/Desktop/json.json')

response

jsonString=response.read();

jsonString

jsonObject=json.loads(jsonString.decode())  #字典

jsonObject['employees']

jsonObject['employees'][0]

jsonObject['employees'][0]['lastName']

3、解析网页

解析HTML函数

BeautifulSoup(html)

find(name,id=id,attrs={})

find_all(name,attrs={})

getText()

参数说明:

html:html格式文档;

name:需要检索的标签名;

attrs:html标签内的属性值,可以用这些属性进行过滤。

解析JSON函数:

json.loads(jsonString)

jsonList[index]

jsonObject['propertyName']

参数说明:

jsonString,JSON的字符串格式数据,如果没有解码,调用decode()即可;

index,JSON序列对象的索引值,从0开始,可以通过len方法获取总长度;

propertyName,JSON对象的属性名,可以通过这个方法访问JSON的属性值。

数据框的递增操作:

data=DataFrame(columns=['Feature','Property'])

data=data.append(Series([f, p], index=['Feature','Property']),ignore_index=True);

参数说明:

columns, 数据框的列;

index,序列对应的序号,通过指定和数据框一样的列名,往数据框内追加数据;

ignore_index,是否忽略原来的序号,一般设置为True,则重新设置序号。

4、案例

import json;

import urllib.request;

from pandas import Series;

from pandas import DataFrame;

from bs4 import BeautifulSoup;

response=urllib.request.urlopen('http://item.jd.com/1185291.html');

html=response.read();

soup=BeautifulSoup(html);

divSoup=soup.find(id="detail");

data=DataFrame(columns=['Feature','Property'])

trs=divSoup.find_all('dl');

for tr in trs:

    tds=tr.find_all('dt');

    dds=tr.find_all('dd');

    for i in range(0,len(tds)):

        f=tds[i].getText();

        p=dds[i].getText();     

    #if len(tds)==5:

     #   f=tds[0].getText();

      #  p=tds[1].getText();

        #q=tds[2].getText();

        #g=tds[3].getText();

        data=data.append(

                Series(

                        [f,p],

                        index=['Feature','Property']

                    ),ignore_index=True

                );

len(data)

#如何获取价格,价格是异步加载的

response=urllib.request.urlopen('http://p.3.cn/prices/get?skuid=J_5712532')

jsonString=response.read();

jsonObject=json.loads(jsonString.decode())

jsonObject[0]['p']

结果:

填写图片摘要(选填)

注意点:

由于html是静态的,而价格是异步加载的,所以,通过Google浏览器,点击审查,输入price,找到对应的id即可。

填写图片摘要(选填)

 

 

 

 

这篇关于Python数据分析之第四章的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1102113

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Python Websockets库的使用指南

《PythonWebsockets库的使用指南》pythonwebsockets库是一个用于创建WebSocket服务器和客户端的Python库,它提供了一种简单的方式来实现实时通信,支持异步和同步... 目录一、WebSocket 简介二、python 的 websockets 库安装三、完整代码示例1.

揭秘Python Socket网络编程的7种硬核用法

《揭秘PythonSocket网络编程的7种硬核用法》Socket不仅能做聊天室,还能干一大堆硬核操作,这篇文章就带大家看看Python网络编程的7种超实用玩法,感兴趣的小伙伴可以跟随小编一起... 目录1.端口扫描器:探测开放端口2.简易 HTTP 服务器:10 秒搭个网页3.局域网游戏:多人联机对战4.

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很