统计数据 单机 不换ip php采集内容没啥问题 采集速度取决于宽带
单机 多线程 43秒下载 3949 张图片 大约 90张/s 图片
单机 单线程 下载文件 带POST校验 大约 1个文件/2s 12万个 文件下了3天 平均文件大小 600K-2M
单机 单线程 普通页面采集 大约 3个页面/1s 带过滤 2万个页面还没 一个半小时就搞定了
单机 单线程 过亚马逊 不换ip 大约 1个产品/5s 8个小时也才 5000 多个个产品 还遇到一堆反采集规则 特别是人机验证
涉及技术
selenium+phantomjs+ python or php 数据爬虫 测试 +xpath 路径获取
转载请注明:(●--●) Hello.My Weicot » PHP 爬虫小计