云采集是靠拆分任务加速的,一个任务拆分成多个子任务,分到不同的云服务器上运行采集数据,再回收每个云服务器上的数据传到数学库中。

 

云采集慢的原因主要有以下几个:

① 任务没有被拆分

② 任务本地采集就很快,规则较简单(比如循环打开url,然后采集数据)

③ 同时运行多个云采集任务,旗舰版一般保证6到10个云节点

④ 规则的设置会影响采集的速度

 

云采集采集速度快必须满足两个条件:

① 当前运行云采集的任务拥有足够多的云节点资源。否则将一直等待其他任务的云节点空余出来。

② 当前云采集的任务还必须要能拆分。3类规则是可以拆分加速的:循环URL列表;循环固定元素列表,循环关键词列表。详情请查看  云采集原理和规则加速设置教程 。