爬虫剑谱第六页(爬取百度翻译)

2023-10-22 11:50

本文主要是介绍爬虫剑谱第六页(爬取百度翻译),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先打开百度翻译,进行翻译

 可以看到每次搜索的单词不同,搜索结果也就不同,其中页面中显示结果的部分,也会随着结果的变化而变化,这种页面局部变化的技术称为AJax。(一会需要用到)

打开开发者选项(F12或点击鼠标左键选择检查),进入Network选择我们要捕获的数据包

因为是数据是通过Ajax技术显示的,所以我们需要选择Ajax对应的数据请求包,也就是XHR

 进入以后,我们随便搜索一个单词,例如:dog

图1图2 图3

 我们可以看到,随着字母的增加,对应的数据包,也在增加,因此,我们只需要选择最终单词的数据包,也就是图3

 打开它的数据包,我们发现他是POST请求,并且在response中所携带的数据是一组json数据

 了解以上以后,我们开始进行编码实战

#导包:
import requests
import json
post_url = "https://fanyi.baidu.com/sug"
#封装一个data参数,对参数进行处理,因为请求需要参数才能获取响应的数据
data={"kw":"dog"
}
#请求之前进行伪装
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/15"}
response = requests.post(url=post_url,data=data,headers=headers)
#获取响应数据
#使用json()方法直接返回一个对象(如果确认服务器的响应数据是json类型的,才可以使用json()方法)
dic_obj = response.json()
#进行持久化存储
fp = open("./dog.json","w",encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False)#将dic_obj对象传入fp文件中,因为传入的是文本字符,不能使用ASCII编码,所以将其设为Falseprint("over")

结果:

 当然,这只是一个单词的获取,但我们需要的是无论输入什么单词,它都可以获取到对应的数据

因此,我们还需要对代码进行一些小小的修改

#导包:
import requests
import json
post_url = "https://fanyi.baidu.com/sug"
#封装一个data参数,对参数进行处理,因为请求需要参数才能获取响应的数据
word = input("请输入你想要翻译的单词:")
data={"kw":word
}
#请求之前进行伪装
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/15"}
response = requests.post(url=post_url,data=data,headers=headers)
#获取响应数据
#使用json()方法直接返回一个对象(如果确认服务器的响应数据是json类型的,才可以使用json()方法)
dic_obj = response.json()
#进行持久化存储
FileName = word+".json"
fp = open(FileName,"w",encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False)#将dic_obj对象传入fp文件中,因为传入的是文本字符,不能使用ASCII编码,所以将其设为Falseprint("over")

结果:

这篇关于爬虫剑谱第六页(爬取百度翻译)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/261253

相关文章

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

Python3 BeautifulSoup爬虫 POJ自动提交

POJ 提交代码采用Base64加密方式 import http.cookiejarimport loggingimport urllib.parseimport urllib.requestimport base64from bs4 import BeautifulSoupfrom submitcode import SubmitCodeclass SubmitPoj():de

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

Golang 网络爬虫框架gocolly/colly(五)

gcocolly+goquery可以非常好地抓取HTML页面中的数据,但碰到页面是由Javascript动态生成时,用goquery就显得捉襟见肘了。解决方法有很多种: 一,最笨拙但有效的方法是字符串处理,go语言string底层对应字节数组,复制任何长度的字符串的开销都很低廉,搜索性能比较高; 二,利用正则表达式,要提取的数据往往有明显的特征,所以正则表达式写起来比较简单,不必非常严谨; 三,使

Golang网络爬虫框架gocolly/colly(四)

爬虫靠演技,表演得越像浏览器,抓取数据越容易,这是我多年爬虫经验的感悟。回顾下个人的爬虫经历,共分三个阶段:第一阶段,09年左右开始接触爬虫,那时由于项目需要,要访问各大国际社交网站,Facebook,myspace,filcker,youtube等等,国际上叫得上名字的社交网站都爬过,大部分网站提供restful api,有些功能没有api,就只能用http抓包工具分析协议,自己爬;国内的优酷、

Golang网络爬虫框架gocolly/colly(三)

熟悉了《Golang 网络爬虫框架gocolly/colly 一》和《Golang 网络爬虫框架gocolly/colly 二》之后就可以在网络上爬取大部分数据了。本文接下来将爬取中证指数有限公司提供的行业市盈率。(http://www.csindex.com.cn/zh-CN/downloads/industry-price-earnings-ratio) 定义数据结构体: type Zhj

014.Python爬虫系列_解析练习

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉👉 Python项目虚拟环境(超详细讲解) 👈👈 PyQt5 系 列 教 程:👉👉 Python GUI(PyQt5)文章合集 👈👈 Oracle数据库教程:👉👉 Oracle数据库文章合集 👈👈 优

excel翻译软件有哪些?如何高效提翻译?

你是否曾在面对满屏的英文Excel表格时感到头疼?项目报告、数据分析、财务报表... 当这些重要的信息被语言壁垒阻挡时,效率和理解度都会大打折扣。别担心,只需3分钟,我将带你轻松解锁excel翻译成中文的秘籍。 无论是职场新人还是老手,这一技巧都将是你的得力助手,让你在信息的海洋中畅游无阻。 方法一:使用同声传译王软件 同声传译王是一款专业的翻译软件,它支持多种语言翻译,可以excel