已掉线,重新登录

首页 > 绿虎论坛 > 历史版块 > 编程 > PHP > 源码

标题: curl多线程抓取网页

作者: @Ta

时间: 2012-10-20

点击: 1825

<?php
$urls = array(
&apos;http://www.sina.com.cn/&apos;,
&apos;http://www.sohu.com/&apos;,
&apos;http://www.163.com/&apos;
); // 设置要抓取的页面URL
$save_to=&apos;/test.txt&apos;; // 把抓取的代码写入该文件
$st = fopen($save_to,"a");
$mh = curl_multi_init();
foreach ($urls as $i => $url) {
$conn[$i] = curl_init($url);
curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
curl_setopt($conn[$i], CURLOPT_HEADER ,0);
curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60);
curl_setopt($conn[$i], CURLOPT_FILE,$st); // 设置将爬取的代码写入文件
curl_multi_add_handle ($mh,$conn[$i]);
} // 初始化
do {
curl_multi_exec($mh,$active);
} while ($active); // 执行
foreach ($urls as $i => $url) {
curl_multi_remove_handle($mh,$conn[$i]);
curl_close($conn[$i]);
} // 结束清理
curl_multi_close($mh);
fclose($st);
?>

[隐藏样式|查看源码]


『回复列表(3|隐藏机器人聊天)』

1. 沙发
(/@Ta/2012-10-20 12:31//)

2. 不会用。。。神马是抓取得代码和爬取的代码????比如???嘿嘿,我是小白^O^
(/@Ta/2012-10-21 02:35//)

3. @牙牙乐 我也不会,搜到的教程
(/@Ta/2012-10-23 17:14//)

回复需要登录

10月15日 22:35 星期三

本站由hu60wap6驱动

备案号: 京ICP备18041936号-1