js爬虫puppeteer库解决网页动态渲染无法爬取

本文主要是介绍js爬虫puppeteer库解决网页动态渲染无法爬取，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

我们爬取这个网址上面的股票实时部分宇通客车(600066)_股票价格_行情_走势图—东方财富网

我们用正常的方法爬取会发现爬取不下来，是因为这个网页这里是实时渲染的，我们直接通过网址接口访问这里还没有渲染出来

于是我们可以通过下面的代码来进行爬取:

npm install puppeteer

//index.js
const puppeteer = require('puppeteer');(async () => {const browser = await puppeteer.launch();const page = await browser.newPage();try {await page.goto('http://quote.eastmoney.com/sh600066.html', { timeout: 60000 }); // 设置页面加载超时时间为 60 秒} catch (error) {console.error('Navigation timeout error:', error);}// 等待页面加载完成//sider_brief是我们查找的盒子类名await page.waitForSelector('.sider_brief');const stockName = await page.$eval('.sider_brief', element => element.textContent.trim());console.log('股票名称:', stockName);await browser.close();
})();

爬取成功

优化

既然是股票的东西，那么我们当然要实时监控啊，所以我们加入一个定时脚本，一直运行我们的js

run_script.bat：

:loop
node index.js
timeout /t 1 >nul
goto loop

运行:

run_script.bat

就实现了实时监控

这篇关于js爬虫puppeteer库解决网页动态渲染无法爬取的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

原文地址:
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.chinasem.cn/article/893253。如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！我们的邮箱：23002807@qq.com