如何实现增量采集?
默认情况下,入口URL、列表URL和内容URL这所有的URL都有去重机制,就会对增量采集造成一定的麻烦。框架开放了 add_scan_url() 接口,让用户可以在一次完整采集过后,添加新的入口URL(比如之前的入口URL、最新列表URL)来进行增量采集。通过 add_scan_url() 方法添加的URL,不会被框架去重,从而达到增量采集的效果。。。
举个栗子:我已经把糗事百科一次性采集完了,而糗百的内容更新都在首页,所以我可以在一次完整采集以后,把首页加入增量采集
$spider->on_start = function($phpspider)
{
// add_sacn_url 没有URL去重机制,可用作增量更新
$phpspider->add_scan_url("http://www.qiushibaike.com/");
};