海詩網(wǎng) 頭條熱點(diǎn) 八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

有了上次使用模板爬取數(shù)據(jù)的經(jīng)驗(yàn),相信大家應(yīng)該能熟練使用章魚收集器了。或許有朋友好奇,是不是只能通過軟件預(yù)設(shè)的模板抓取數(shù)據(jù)?當(dāng)然不是,章魚收集器還有自定義收集功能。

對于用戶收集他們想要的數(shù)據(jù),定制比預(yù)置模塊更加靈活。雖然比預(yù)置模板復(fù)雜,但爬取的數(shù)據(jù)更符合你的意愿。本文將為大家?guī)碚卖~收集器的定制模塊教程。

第一步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

首先啟動并登錄你的octopus collector,進(jìn)入主界面,點(diǎn)擊新建下的新建任務(wù)組,創(chuàng)建一個新組。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

單擊“確定”創(chuàng)建新組。

第二步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

創(chuàng)建組后,點(diǎn)擊【新建】下的自定義任務(wù),得到這樣的界面。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

我們可以尋找我們想要抓取的網(wǎng)頁的鏈接。在這里,邊肖去JD.COM搜索手機(jī),當(dāng)搜索結(jié)果出來時,我們可以復(fù)制鏈接。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

將我們復(fù)制的鏈接粘貼到URL列,將任務(wù)組更改為之前創(chuàng)建的組,然后單擊[保存設(shè)置]。

第三步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

保存設(shè)置后會跳轉(zhuǎn)到抓取界面,軟件會自動開始識別網(wǎng)頁中要抓取的部分。對應(yīng)的等待時間根據(jù)個人機(jī)器的網(wǎng)速不同而不同。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

鑒定完成后,我們可以看到有很多數(shù)據(jù),很多是沒用的,需要淘汰。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

將光標(biāo)移動到表格字段,將出現(xiàn)兩個圖標(biāo)。鋼筆圖標(biāo)是改變字段名,垃圾桶是刪除這個字段。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

我們可以隨意刪除和更改字段名,這里邊肖只保留上圖中的字段。

第四步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

設(shè)置完字段后,我們將注意力轉(zhuǎn)向上圖中的小方框。第一個不是可選的,我們直接忽略。

在采集前滾動頁面加載更多數(shù)據(jù):因?yàn)楝F(xiàn)在很多網(wǎng)站都使用動態(tài)頁面,有些內(nèi)容在加載時不會顯示,只有我們下拉時才會逐漸顯示,而這個功能就是為了防止這種情況的發(fā)生。

翻頁并收集多頁數(shù)據(jù):設(shè)置為抓取多頁,如果未選中,則僅抓取當(dāng)前頁面。

點(diǎn)擊列表中的XXX,收藏下一頁:此功能允許我們抓取子頁面中的內(nèi)容。

這里我們不深入抓取,只勾選前兩項(xiàng),然后點(diǎn)擊【生成收藏設(shè)置】。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

點(diǎn)擊生成后,您將開始保存或查看。點(diǎn)擊此處保存并開始收集。

第五步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

到了這個界面之后,我們可以看到一個詳細(xì)的流程,里面的循環(huán)列表就是這個頁面中爬取的內(nèi)容。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

我們單擊外部循環(huán)的設(shè)置按鈕。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

展開退出循環(huán)設(shè)置并檢查循環(huán)執(zhí)行時間。這里我們只抓取3頁。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

開始收集

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

收集完成后,單擊導(dǎo)出。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

此外,如果你抓取的頁面中存在重復(fù)數(shù)據(jù),軟件也會直接提示你根據(jù)自身情況選擇保留或刪除。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

導(dǎo)出模式

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

保存導(dǎo)出文件的位置。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

保存完成

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

圖像數(shù)據(jù)

以上是邊肖為大家?guī)淼恼卖~收集器定制模塊教程。熟練使用后,相信朋友們可以收集到更多的數(shù)據(jù)。使用octopus collector收集數(shù)據(jù)后,我們可以根據(jù)收集到的數(shù)據(jù)進(jìn)行分析,完成各種任務(wù)。希望這篇文章能幫到你。

本文來自網(wǎng)絡(luò),不代表海詩網(wǎng)立場,轉(zhuǎn)載請注明出處:http://x91880.com/n/173050.html
      

excel怎么隔幾行插行 這個技巧教給你操作(如何在excel中隔一行插一行)

發(fā)表回復(fù)
聯(lián)系我們
聯(lián)系我們

在線咨詢: QQ交談

郵箱: 3587015498@qq.com

工作時間:周一至周五,9:00-17:30,節(jié)假日休息

關(guān)注微信
微信掃一掃關(guān)注我們
微信掃一掃關(guān)注我們
關(guān)注微博
返回頂部