分页: 30/37 第一页 上页 25 26 27 28 29 30 31 32 33 34 下页 最后页 [ 显示模式: 摘要 | 列表 ]

写一个爬虫程序[原创] 不指定

刘天斯 , 2010/03/08 10:33 , Python , 评论(3) , 阅读(35193) , Via 本站原创
      写爬虫是一项复杂、枯噪、反复的工作,考虑的问题包括采集效率、链路异常处理、数据质量(与站点编码规范关系很大)等。整理自己写一个爬虫程序,单台服务器可以启用1~8个实例同时采集,然后将数据入库。


如大家有什么疑问或感兴趣的话题可以通过weibo与我交流:http://t.qq.com/yorkoliu
Tags: ,
      同一个分析日志的awk脚本,在Centos、ubuntu操作系统运行效率存在巨大差异。即在ubuntu中只需1分钟,而在Centos中则需要20分钟。以下为我的排查步骤:
1、检查服务器内核版本
引用

      拿一台升级过最新Linux内核(2.6.32.3)的CentOS5.4服务器来测试,结果还是没有改善 。

2、检查内核ulimit参数
引用

      在Centos服务器调整所有ulimit参数与ubuntu系统一致,结果还是一样。

3、优化awk脚本
引用

      由于mawk与gawk部分语法上存在差异,如将转义符‘\’换成'\\',双引号换成单引号,依然没有效果。

4、检查gawk版本
引用

      检查两个系统的gawk版本,发现所有Centos版本默认自带的gawk都低于ubuntu系统自带的3.1.6,尝试在Centos服务器下载、安装源码gawk3.1.6,结果速度提升了20倍。测试结果如下:
       time /usr/local/bin/gawk -f test.awk access.log >"temp.txt"
       real    0m48.739s
       user    0m42.904s
       sys     0m5.389s
Tags: , ,
分页: 30/37 第一页 上页 25 26 27 28 29 30 31 32 33 34 下页 最后页 [ 显示模式: 摘要 | 列表 ]