有了上次使用模板爬取數(shù)據(jù)的經(jīng)驗(yàn),相信大家應(yīng)該能熟練使用章魚收集器了?;蛟S有朋友好奇,是不是只能通過(guò)軟件預(yù)設(shè)的模板抓取數(shù)據(jù)?當(dāng)然不是,章魚收集器還有自定義收集功能。
對(duì)于用戶收集他們想要的數(shù)據(jù),定制比預(yù)置模塊更加靈活。雖然比預(yù)置模板復(fù)雜,但爬取的數(shù)據(jù)更符合你的意愿。本文將為大家?guī)?lái)章魚收集器的定制模塊教程。
第一步
首先啟動(dòng)并登錄你的octopus collector,進(jìn)入主界面,點(diǎn)擊新建下的新建任務(wù)組,創(chuàng)建一個(gè)新組。
單擊“確定”創(chuàng)建新組。
第二步
創(chuàng)建組后,點(diǎn)擊【新建】下的自定義任務(wù),得到這樣的界面。
我們可以尋找我們想要抓取的網(wǎng)頁(yè)的鏈接。在這里,邊肖去JD.COM搜索手機(jī),當(dāng)搜索結(jié)果出來(lái)時(shí),我們可以復(fù)制鏈接。
將我們復(fù)制的鏈接粘貼到URL列,將任務(wù)組更改為之前創(chuàng)建的組,然后單擊[保存設(shè)置]。
第三步
保存設(shè)置后會(huì)跳轉(zhuǎn)到抓取界面,軟件會(huì)自動(dòng)開始識(shí)別網(wǎng)頁(yè)中要抓取的部分。對(duì)應(yīng)的等待時(shí)間根據(jù)個(gè)人機(jī)器的網(wǎng)速不同而不同。
鑒定完成后,我們可以看到有很多數(shù)據(jù),很多是沒(méi)用的,需要淘汰。
將光標(biāo)移動(dòng)到表格字段,將出現(xiàn)兩個(gè)圖標(biāo)。鋼筆圖標(biāo)是改變字段名,垃圾桶是刪除這個(gè)字段。
我們可以隨意刪除和更改字段名,這里邊肖只保留上圖中的字段。
第四步
設(shè)置完字段后,我們將注意力轉(zhuǎn)向上圖中的小方框。第一個(gè)不是可選的,我們直接忽略。
在采集前滾動(dòng)頁(yè)面加載更多數(shù)據(jù):因?yàn)楝F(xiàn)在很多網(wǎng)站都使用動(dòng)態(tài)頁(yè)面,有些內(nèi)容在加載時(shí)不會(huì)顯示,只有我們下拉時(shí)才會(huì)逐漸顯示,而這個(gè)功能就是為了防止這種情況的發(fā)生。
翻頁(yè)并收集多頁(yè)數(shù)據(jù):設(shè)置為抓取多頁(yè),如果未選中,則僅抓取當(dāng)前頁(yè)面。
點(diǎn)擊列表中的XXX,收藏下一頁(yè):此功能允許我們抓取子頁(yè)面中的內(nèi)容。
這里我們不深入抓取,只勾選前兩項(xiàng),然后點(diǎn)擊【生成收藏設(shè)置】。
點(diǎn)擊生成后,您將開始保存或查看。點(diǎn)擊此處保存并開始收集。
第五步
到了這個(gè)界面后,我們可以看到一個(gè)細(xì)致的流程,內(nèi)循環(huán)列表中就是本頁(yè)內(nèi)爬取的內(nèi)容。
我們點(diǎn)擊外循環(huán)的設(shè)置按鈕。
展開退出循環(huán)設(shè)置,勾選循環(huán)執(zhí)行次數(shù),這里我們僅爬取3頁(yè)。
開始采集
采集完成,點(diǎn)擊導(dǎo)出。
另外,如果你爬取的頁(yè)面內(nèi)有重復(fù)數(shù)據(jù),軟件也會(huì)直接提示,根據(jù)自己情況選擇保留或去除。
導(dǎo)出方式
導(dǎo)出文件的保存位置
保存完成
查看數(shù)據(jù)
以上就是小編為大家?guī)?lái)的八爪魚采集器自定義模塊教程,熟練使用后相信小伙伴們能采集的數(shù)據(jù)就更多了,使用八爪魚采集器采集數(shù)據(jù)后,可以根據(jù)采集的數(shù)據(jù)進(jìn)行分析,完成各種任務(wù),希望本文能為大家?guī)?lái)幫助。