使用CURL构建爬虫,抓取百度百科内容

2024-06-23 06:58

本文主要是介绍使用CURL构建爬虫,抓取百度百科内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

实现这个功能的步骤:

1、首先打开百度百科,在搜索框输入“php”关键词,得到搜索列表,一般都是10条;

2、然后使用火狐的Firebug分析百度列表的内容组成,主要是html标签,发现去向百科内容的链接url的格式都是http://baike.baidu.com/view/5721060.htm,于是使用正则匹配链接,得到10条链接;

3、之后把链接交由curl()批处理函数(自定义)处理,得到结果页面的内容;

4、然后再对内容页面进行分析,找出你想要的内容,本程序抓取的是标题以及简介;最后,把结果呈现在tabel标签中。

当然,本程序不是严格意义上的网络爬虫,其实有了以上的基础,能够写一个真正意义上的爬虫还是可以的。做法就是:首先给出一堆不同的网页链接(种子队列),利用curl函数抓取页面,把遇到的超链接放入之后将要抓取页面的url队列中,把已抓取过的url放入已抓取的url队列中,这样一直循环下去,直到将要抓取的url队列被抽空为止。

此外,我还把抓取的数据写入了数据库中。

所有的代码如下:

程序名为curl.php的代码:

<?phprequire 'func.curl.php';require 'func.mysql.php';//CURLif (isset($_GET['action'])){$_key=$_POST['key'];$_ch=curl_init();curl_setopt($_ch,CURLOPT_URL,"http://baike.baidu.com/search?word=".$_key);curl_setopt($_ch,CURLOPT_RETURNTRANSFER,1);$_output=curl_exec($_ch);curl_close($_ch);if(preg_match_all('/(http\:\/\/baike\.baidu\.com.*)\"\s/',$_output,$_url)){$_res=curl($_url[1]);$_title=array();$_content=array();for ($_i=0;$_i<count($_res);$_i++){if (preg_match_all('/lemmaTitleH1\"\>(.*?)\s*\<\/div\>/',$_res[$_i],$_arr)){//标题$_title[$_i]=strip_tags($_arr[1][0]);if (preg_match_all('/para\"\>(.*?)\s*\<\/div\>/',$_res[$_i],$_arr)){//内容$_content[$_i][0]=strip_tags($_arr[1][0]);$_content[$_i][1]=strip_tags($_arr[1][1]);//插入数据库inserInfo($_title[$_i],$_content[$_i][0],$_content[$_i][1],$_key);}}}}else{exit('无匹配结果');}}
?>  
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf8" />
<title>模拟搜索引擎</title>
<link type="text/css" rel="stylesheet" href="curl.css"/>
</head>
<body><div id="header"><form method="post" action="?action=search"><input type="text" name="key" value="请输入关键字" class="text"/><input type="submit" name="submit" value="搜索" class="submit"/></form></div><div id="content"><table><?php for ($i=0;$i<count($_title);$i++){?><tr><td class="title"><a href="<?php echo $_url[1][$i];?>" target="_blank"><?php echo $_title[$i];?></a></td></tr><tr><td class="content"><?php echo $_content[$i][0]?></td></tr><?php }?></table></div>
<script type="text/javascript">var key=document.getElementsByName('key')[0];key.οnfοcus=function(){this.value='';};key.οnblur=function(){if(this.value==""){this.value="请输入关键字";}};
</script>
</body>
</html>
func.curl.php的代码:
<?php
//curl批处理函数
function curl($connomains){$mh = curl_multi_init();foreach ($connomains as $i => $url) {$conn[$i] = curl_init("$url");curl_setopt($conn[$i], CURLOPT_RETURNTRANSFER, 1);curl_multi_add_handle ($mh,$conn[$i]);}// start performing the requestdo {$mrc = curl_multi_exec($mh, $active);} while ($mrc == CURLM_CALL_MULTI_PERFORM);while ($active and $mrc == CURLM_OK) {// wait for networkif (curl_multi_select($mh) != -1) {// pull in any new data, or at least handle timeoutsdo {$mrc = curl_multi_exec($mh, $active);} while ($mrc == CURLM_CALL_MULTI_PERFORM);}}// retrieve dataforeach ($connomains as $i => $url) {if (($err = curl_error($conn[$i])) == '') {$res[$i]=curl_multi_getcontent($conn[$i]);} else {print "Curl error on handle $i: $err\n";}curl_multi_remove_handle($mh,$conn[$i]);curl_close($conn[$i]);}curl_multi_close($mh);return $res;}
?>

func.mysql.php的代码为:
<?php
function inserInfo($_title,$_content,$_content_extra,$_keywords){$_mysql=mysql_connect('localhost','root','123') or die('数据库连接错误');mysql_select_db('baike',$_mysql);mysql_query('set names utf8');mysql_query("INSERT INTO info (title,content,content_extra,keywords)VALUES('$_title','$_content','$_content_extra','$_keywords')");  mysql_close();          
}
?>


这篇关于使用CURL构建爬虫,抓取百度百科内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1086453

相关文章

C语言中联合体union的使用

本文编辑整理自: http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=179471 一、前言 “联合体”(union)与“结构体”(struct)有一些相似之处。但两者有本质上的不同。在结构体中,各成员有各自的内存空间, 一个结构变量的总长度是各成员长度之和。而在“联合”中,各成员共享一段内存空间, 一个联合变量

Spring Cloud:构建分布式系统的利器

引言 在当今的云计算和微服务架构时代,构建高效、可靠的分布式系统成为软件开发的重要任务。Spring Cloud 提供了一套完整的解决方案,帮助开发者快速构建分布式系统中的一些常见模式(例如配置管理、服务发现、断路器等)。本文将探讨 Spring Cloud 的定义、核心组件、应用场景以及未来的发展趋势。 什么是 Spring Cloud Spring Cloud 是一个基于 Spring

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

Vim使用基础篇

本文内容大部分来自 vimtutor,自带的教程的总结。在终端输入vimtutor 即可进入教程。 先总结一下,然后再分别介绍正常模式,插入模式,和可视模式三种模式下的命令。 目录 看完以后的汇总 1.正常模式(Normal模式) 1.移动光标 2.删除 3.【:】输入符 4.撤销 5.替换 6.重复命令【. ; ,】 7.复制粘贴 8.缩进 2.插入模式 INSERT

Lipowerline5.0 雷达电力应用软件下载使用

1.配网数据处理分析 针对配网线路点云数据,优化了分类算法,支持杆塔、导线、交跨线、建筑物、地面点和其他线路的自动分类;一键生成危险点报告和交跨报告;还能生成点云数据采集航线和自主巡检航线。 获取软件安装包联系邮箱:2895356150@qq.com,资源源于网络,本介绍用于学习使用,如有侵权请您联系删除! 2.新增快速版,简洁易上手 支持快速版和专业版切换使用,快速版界面简洁,保留主

如何免费的去使用connectedpapers?

免费使用connectedpapers 1. 打开谷歌浏览器2. 按住ctrl+shift+N,进入无痕模式3. 不需要登录(也就是访客模式)4. 两次用完,关闭无痕模式(继续重复步骤 2 - 4) 1. 打开谷歌浏览器 2. 按住ctrl+shift+N,进入无痕模式 输入网址:https://www.connectedpapers.com/ 3. 不需要登录(也就是

Toolbar+DrawerLayout使用详情结合网络各大神

最近也想搞下toolbar+drawerlayout的使用。结合网络上各大神的杰作,我把大部分的内容效果都完成了遍。现在记录下各个功能效果的实现以及一些细节注意点。 这图弹出两个菜单内容都是仿QQ界面的选项。左边一个是drawerlayout的弹窗。右边是toolbar的popup弹窗。 开始实现步骤详情: 1.创建toolbar布局跟drawerlayout布局 <?xml vers

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

C#中,decimal类型使用

在Microsoft SQL Server中numeric类型,在C#中使用的时候,需要用decimal类型与其对应,不能使用int等类型。 SQL:numeric C#:decimal

Steam邮件推送内容有哪些?配置教程详解!

Steam邮件推送功能是否安全?如何个性化邮件推送内容? Steam作为全球最大的数字游戏分发平台之一,不仅提供了海量的游戏资源,还通过邮件推送为用户提供最新的游戏信息、促销活动和个性化推荐。AokSend将详细介绍Steam邮件推送的主要内容。 Steam邮件推送:促销优惠 每当平台举办大型促销活动,如夏季促销、冬季促销、黑色星期五等,用户都会收到邮件通知。这些邮件详细列出了打折游戏、