有了上次使用模板爬取數(shù)據(jù)的經(jīng)驗(yàn),相信大家應(yīng)該能熟練使用章魚收集器了。或許有朋友好奇,是不是只能通過軟件預(yù)設(shè)的模板抓取數(shù)據(jù)?當(dāng)然不是,章魚收集器還有自定義收集功能。
對于用戶收集他們想要的數(shù)據(jù),定制比預(yù)置模塊更加靈活。雖然比預(yù)置模板復(fù)雜,但爬取的數(shù)據(jù)更符合你的意愿。本文將為大家?guī)碚卖~收集器的定制模塊教程。
第一步
首先啟動并登錄你的octopus collector,進(jìn)入主界面,點(diǎn)擊新建下的新建任務(wù)組,創(chuàng)建一個新組。
單擊“確定”創(chuàng)建新組。
第二步
創(chuàng)建組后,點(diǎn)擊【新建】下的自定義任務(wù),得到這樣的界面。
我們可以尋找我們想要抓取的網(wǎng)頁的鏈接。在這里,邊肖去JD.COM搜索手機(jī),當(dāng)搜索結(jié)果出來時,我們可以復(fù)制鏈接。
將我們復(fù)制的鏈接粘貼到URL列,將任務(wù)組更改為之前創(chuàng)建的組,然后單擊[保存設(shè)置]。
第三步
保存設(shè)置后會跳轉(zhuǎn)到抓取界面,軟件會自動開始識別網(wǎng)頁中要抓取的部分。對應(yīng)的等待時間根據(jù)個人機(jī)器的網(wǎng)速不同而不同。
鑒定完成后,我們可以看到有很多數(shù)據(jù),很多是沒用的,需要淘汰。
將光標(biāo)移動到表格字段,將出現(xiàn)兩個圖標(biāo)。鋼筆圖標(biāo)是改變字段名,垃圾桶是刪除這個字段。
我們可以隨意刪除和更改字段名,這里邊肖只保留上圖中的字段。
第四步
設(shè)置完字段后,我們將注意力轉(zhuǎn)向上圖中的小方框。第一個不是可選的,我們直接忽略。
在采集前滾動頁面加載更多數(shù)據(jù):因?yàn)楝F(xiàn)在很多網(wǎng)站都使用動態(tài)頁面,有些內(nèi)容在加載時不會顯示,只有我們下拉時才會逐漸顯示,而這個功能就是為了防止這種情況的發(fā)生。
翻頁并收集多頁數(shù)據(jù):設(shè)置為抓取多頁,如果未選中,則僅抓取當(dāng)前頁面。
點(diǎn)擊列表中的XXX,收藏下一頁:此功能允許我們抓取子頁面中的內(nèi)容。
這里我們不深入抓取,只勾選前兩項(xiàng),然后點(diǎn)擊【生成收藏設(shè)置】。
點(diǎn)擊生成后,您將開始保存或查看。點(diǎn)擊此處保存并開始收集。
第五步
到了這個界面之后,我們可以看到一個詳細(xì)的流程,里面的循環(huán)列表就是這個頁面中爬取的內(nèi)容。
我們單擊外部循環(huán)的設(shè)置按鈕。
展開退出循環(huán)設(shè)置并檢查循環(huán)執(zhí)行時間。這里我們只抓取3頁。
開始收集
收集完成后,單擊導(dǎo)出。
此外,如果你抓取的頁面中存在重復(fù)數(shù)據(jù),軟件也會直接提示你根據(jù)自身情況選擇保留或刪除。
導(dǎo)出模式
保存導(dǎo)出文件的位置。
保存完成
圖像數(shù)據(jù)
以上是邊肖為大家?guī)淼恼卖~收集器定制模塊教程。熟練使用后,相信朋友們可以收集到更多的數(shù)據(jù)。使用octopus collector收集數(shù)據(jù)后,我們可以根據(jù)收集到的數(shù)據(jù)進(jìn)行分析,完成各種任務(wù)。希望這篇文章能幫到你。