最新消息:觉得本站不错的话 记得收藏哦 博客内某些功能仅供测试 讨论群:135931704 快养不起小站了 各位有闲钱就打赏下把 My Email weicots#gmail.com Please replace # with @

PHP 爬虫小计

ERP系统开发 ajiang-tuzi 5436浏览

LOGPPO

统计数据 单机 不换ip php采集内容没啥问题 采集速度取决于宽带

单机   多线程 43秒下载 3949 张图片   大约    90张/s          图片
单机   单线程 下载文件 带POST校验   大约     1个文件/2s    12万个 文件下了3天 平均文件大小 600K-2M
单机   单线程 普通页面采集                大约      3个页面/1s    带过滤 2万个页面还没 一个半小时就搞定了
单机   单线程 过亚马逊 不换ip            大约      1个产品/5s     8个小时也才 5000 多个个产品 还遇到一堆反采集规则 特别是人机验证
{YR)]ZYH~0Z4{MVPAJEYL2U
涉及技术
selenium+phantomjs+ python or php 数据爬虫 测试 +xpath 路径获取

转载请注明:(●--●) Hello.My Weicot » PHP 爬虫小计

蜀ICP备15020253号-1