写爬虫是一项复杂、枯噪、反复的工作,考虑的问题包括采集效率、链路异常处理、数据质量(与站点编码规范关系很大)等。整理自己写一个爬虫程序,单台服务器可以启用1~8个实例同时采集,然后将数据入库。
如大家有什么疑问或感兴趣的话题可以通过weibo与我交流:http://t.qq.com/yorkoliu
如大家有什么疑问或感兴趣的话题可以通过weibo与我交流:http://t.qq.com/yorkoliu
同一个分析日志的awk脚本,在Centos、ubuntu操作系统运行效率存在巨大差异。即在ubuntu中只需1分钟,而在Centos中则需要20分钟。以下为我的排查步骤:
1、检查服务器内核版本
拿一台升级过最新Linux内核(2.6.32.3)的CentOS5.4服务器来测试,结果还是没有改善 。
2、检查内核ulimit参数
在Centos服务器调整所有ulimit参数与ubuntu系统一致,结果还是一样。
3、优化awk脚本
由于mawk与gawk部分语法上存在差异,如将转义符‘\’换成'\\',双引号换成单引号,依然没有效果。
4、检查gawk版本
检查两个系统的gawk版本,发现所有Centos版本默认自带的gawk都低于ubuntu系统自带的3.1.6,尝试在Centos服务器下载、安装源码gawk3.1.6,结果速度提升了20倍。测试结果如下:
time /usr/local/bin/gawk -f test.awk access.log >"temp.txt"
real 0m48.739s
user 0m42.904s
sys 0m5.389s
1、检查服务器内核版本
引用
拿一台升级过最新Linux内核(2.6.32.3)的CentOS5.4服务器来测试,结果还是没有改善 。
2、检查内核ulimit参数
引用
在Centos服务器调整所有ulimit参数与ubuntu系统一致,结果还是一样。
3、优化awk脚本
引用
由于mawk与gawk部分语法上存在差异,如将转义符‘\’换成'\\',双引号换成单引号,依然没有效果。
4、检查gawk版本
引用
检查两个系统的gawk版本,发现所有Centos版本默认自带的gawk都低于ubuntu系统自带的3.1.6,尝试在Centos服务器下载、安装源码gawk3.1.6,结果速度提升了20倍。测试结果如下:
time /usr/local/bin/gawk -f test.awk access.log >"temp.txt"
real 0m48.739s
user 0m42.904s
sys 0m5.389s