本發(fā)明公開了一種網(wǎng)絡(luò)爬蟲的任務(wù)有效性檢測方法、裝置和設(shè)備及存儲(chǔ)介質(zhì),用于檢測網(wǎng)絡(luò)爬蟲執(zhí)行采集任務(wù)的有效性。該方法包括:記錄網(wǎng)絡(luò)爬蟲在執(zhí)行爬取網(wǎng)頁數(shù)據(jù)任務(wù)的過程中的日志;對日志進(jìn)行處理和分析,以確定在預(yù)設(shè)時(shí)間段內(nèi)與主URL相關(guān)的至少一個(gè)指標(biāo)的值,其中,一個(gè)主URL對應(yīng)多個(gè)子URL,所述至少一個(gè)指標(biāo)的值是基于所述主URL以及所述主URL對應(yīng)的子URL的日志進(jìn)行確定的;確定所述至少一個(gè)指標(biāo)中任一指標(biāo)的值是否大于或者等于每個(gè)指標(biāo)自身對應(yīng)的預(yù)設(shè)閾值,其中,一個(gè)指標(biāo)對應(yīng)一個(gè)預(yù)設(shè)閾值;若確定結(jié)果為是,則確定上述任一指標(biāo)的值大于或者等于對應(yīng)的預(yù)設(shè)閾值的主URL所對應(yīng)的任務(wù)失效。
聲明:
“網(wǎng)絡(luò)爬蟲的任務(wù)有效性檢測方法、裝置和設(shè)備及存儲(chǔ)介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)