本發(fā)明涉及一種動態(tài)檢測失效流量的網(wǎng)絡(luò)爬蟲方法,包括以下步驟,首先通過分析網(wǎng)絡(luò)請求信息構(gòu)建動態(tài)檢測失效流量模型的數(shù)據(jù)集,然后設(shè)計出動態(tài)檢測失效流量的方法,接著對URL隊列中的信息進行讀取并且對Cookie等信息進行封裝后發(fā)送請求,提取返回數(shù)據(jù)信息,并對返回數(shù)據(jù)信息進行失效流量檢測,最后對重復返回數(shù)據(jù)信息進行處理,如是有效數(shù)據(jù)則持久化存儲。本發(fā)明彌補了現(xiàn)有聚焦爬蟲和增量爬蟲在Cookie失效問題的處理上和數(shù)據(jù)重復處理上的不足之處,降低了爬取數(shù)據(jù)的失效和重復概率,對爬蟲系統(tǒng)的設(shè)計提供了可借鑒的方案,提高了爬蟲系統(tǒng)的整體性能。
聲明:
“動態(tài)檢測失效流量的網(wǎng)絡(luò)爬蟲方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)