« 关于有道阅读的beta技术沙龙 | Main | 谢谢,请先发邮件给我 »

rss解析器magpierss笔记

作者:virushuo 发表于 2009-03-15 14:03 最后更新于 2009-03-15 14:03
版权声明:按照by-nc-sa的cc协议可转载,拒绝采用“独家” 授权媒介(含网站和平面媒体)转载、引用、链接,除非获得本人许可。转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。


magpierss是一个不错的rss抓取/解析工具,我本来打算自己写一个php的rss解析工具,不过试了一下magpierss,觉得还不错,能满足需要。

顺便看了看代码,记点笔记。

1 乱码问题
magpierss过去时常出现乱码问题,从0.7版本解决了这个问题
Version 0.7
-----------
- support for input and output charset encoding
based on the work in FoF, uses iconv or mbstring if available

0.7之后的版本可以指定输入和输出字符编码,然后使用iconv或mbstring函数进行编码转换。这个工作在 create_parser 函数里面完成的,如果两个函数都不存在,可以在rss_fetch.inc 中让MAGPIE_DETECT_ENCODING为false,不检测和转换编码,否则就会出错。

一切正常的情况下,把rss_fetch.inc中MAGPIE_OUTPUT_ENCODING定义成你需要的输出编码,比如UTF-8: define('MAGPIE_OUTPUT_ENCODING', 'UTF-8'); 就可以获得正确的输出结果了。

2 抓取方法

magpierss用了Snoopy作为http客户端来抓取rss。这个库比较完善,支持https,支持gzip。

需要注意的是,Snoopy用exec命令调用curl,然后返回结果,而不是使用编译进php的curl函数。默认的路径是"/usr/bin/curl",如果这里没有curl或是没有执行权限,就可能失败。不过只有https需要用到curl,普通的http访问是用fsockopen的。

同时,Snoopy可以使用代理服务器,但是magpierss没有使用,如果需要可以在rss_fetch.inc中的_fetch_remote_file函数里面添加$client->proxy_host 和$client->proxy_port。

3 缓存

magpierss设置了一个默认3600秒超时的缓存。在./cache下放了一堆文件,文件名是md5之后的url+MAGPIE_OUTPUT_ENCODING,格式是php的serialize。

所以cache目录要可写。超时时间在rss_cache.inc的var $MAX_AGE = 3600;这行设置,也可以在创建cache对象的时候设置。


综合起来,这个库还是不错的,优点很多,也考虑了主机的各种情况,兼容性很好。函数形式的接口,很容易调用。不过应该先用head来取rss的http header,根据Etag来判断是否抓整个页面回来,这样效率还能再有提高。这个改动之后,cache就可以存在更长的时间,而不是一个固定的3600秒。同时我比较想把文章保存起来,以便以后用,这就需要数据库了。

我将来应该会基于这个东西发布一个新版本,把我想要的功能加进来。

blog comments powered by Disqus
CC License. Some rights reserved.
署名·非商业用途·保持一致
本站之所有未作特别说明的内容均使用 创作共用协议.
POWERED_BY_MT_3.2