已掉线,重新登录

首页 > 绿虎论坛 > 历史版块 > 编程 > PHP > 源码

标题: 柯林文章采集php程序

作者: @Ta

时间: 2013-05-08

点击: 4143

谈不上什么高级的程序,我是菜鸟,简单的说就是把柯林的文章采集到空间指定目录,并保存为文章标题.txt再自己后台上传自己的柯林程序,这是去年学正则的一个作品…没有注释很乱,同时有些标题和文章无法匹配编码问题。下面的采集保存目录是phpjc
index.php
<?php
header("content-type:text/html;charset=utf-8");
?>
<title>柯林文章采集程序</title></head><body><form action="work.php" method="POST">采集的域名:<input name="url" value="http://"/><br/>文章版块id:<input name="classid" value=""/><br/>文章id采集范围:<br/>起:<input name="id" value=""  size="1"/><br/>末:<input name="iid" value=""  size="1"/><br/><input type="submit" value=">>>采集>>>"/></form>
</body>
</html>

work.php
<?php
header("content-type:text/html;charset=utf-8");
?>
<title>采集状态</title></head><body>
<?
$url=$_POST['url'];
$c=$_POST['classid'];
$id=$_POST['id'];
$iid=$_POST['iid'];
while($id<=$iid)
{
$content=file_get_contents("$url/article/book_view.aspx?siteid=1000&classid=$c&id=$id&lpage=1&sid=-2-0-0-0-0");
$pa='%<div class="title">(.*?)<\/div>(.*?)<div class="content"><p align="center"></p>(.*?)<\/div>%si';
preg_match($pa,$content,$r);
$txt=str_replace
("<br/>","///","$r[3]");
$bt=str_replace(" ",'',$r[1]);
$StatDir=dirname(__FILE__);
$text=$txt;
$file=$bt;
$fp=fopen($StatDir."/phpjc/".$file,"a ");
$stat=$text."\n".$bz;
fputs($fp,$stat);
fclose($fp);
echo "$bt<br/>>>>采集成功<br/>";
$id  ;
}
?></HTML>

[隐藏样式|查看源码]


『回复列表(11|显示机器人聊天)』

1. 好吧,当初为了能解决有些文章不能保存TXT的情况下把后锥去掉了,在写入的文章标题的后面加上".txt""
(/@Ta/2013-05-08 21:39//)

2. 不懂,帮顶
(/@Ta/2013-05-08 21:41//)

3. 不错
(/@Ta/2013-05-09 06:54//)

4. @幻晨,怎么用,采集不了。。还有,给个建议,自助的siteid..不是1000哦,
(/@Ta/2013-05-09 13:16//)

5. @旧人 复制这两个文件,在文件所在的目录建立phpjc目录,当初我匹配的是waphk.cn里面的文章。自己可以修改。
(/@Ta/2013-05-09 14:37//)

6. 如果是自助的话很有可能你空间无法打开自助站囧
(/@Ta/2013-05-09 14:37//)

7. @旧人 起始ID和结束id不要相差太大会超时,保持在十篇之类…记得修改写入文件时那个地方加上后缀".txt"
(/@Ta/2013-05-09 14:41//)

8. 10篇啊。额
(/@Ta/2013-05-09 14:55//)

9. 因为我发现一个自助有4w篇文章
(/@Ta/2013-05-09 15:01//)

10. @旧人 哪个自助?[/se]
(/@Ta/2013-05-09 15:28//)

11.  @ 幻晨 ,xxs.36r.cn
(/@Ta/2013-05-09 16:16//)

回复需要登录

8月14日 04:19 星期四

本站由hu60wap6驱动

备案号: 京ICP备18041936号-1