海詩(shī)網(wǎng) 頭條熱點(diǎn) 八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

有了上次使用模板爬取數(shù)據(jù)的經(jīng)驗(yàn),相信大家應(yīng)該能熟練使用章魚收集器了。或許有朋友好奇,是不是只能通過(guò)軟件預(yù)設(shè)的模板抓取數(shù)據(jù)?當(dāng)然不是,章魚收集器還有自定義收集功能。

對(duì)于用戶收集他們想要的數(shù)據(jù),定制比預(yù)置模塊更加靈活。雖然比預(yù)置模板復(fù)雜,但爬取的數(shù)據(jù)更符合你的意愿。本文將為大家?guī)?lái)章魚收集器的定制模塊教程。

第一步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

首先啟動(dòng)并登錄你的octopus collector,進(jìn)入主界面,點(diǎn)擊新建下的新建任務(wù)組,創(chuàng)建一個(gè)新組。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

單擊“確定”創(chuàng)建新組。

第二步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

創(chuàng)建組后,點(diǎn)擊【新建】下的自定義任務(wù),得到這樣的界面。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

我們可以尋找我們想要抓取的網(wǎng)頁(yè)的鏈接。在這里,邊肖去JD.COM搜索手機(jī),當(dāng)搜索結(jié)果出來(lái)時(shí),我們可以復(fù)制鏈接。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

將我們復(fù)制的鏈接粘貼到URL列,將任務(wù)組更改為之前創(chuàng)建的組,然后單擊[保存設(shè)置]。

第三步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

保存設(shè)置后會(huì)跳轉(zhuǎn)到抓取界面,軟件會(huì)自動(dòng)開始識(shí)別網(wǎng)頁(yè)中要抓取的部分。對(duì)應(yīng)的等待時(shí)間根據(jù)個(gè)人機(jī)器的網(wǎng)速不同而不同。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

鑒定完成后,我們可以看到有很多數(shù)據(jù),很多是沒用的,需要淘汰。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

將光標(biāo)移動(dòng)到表格字段,將出現(xiàn)兩個(gè)圖標(biāo)。鋼筆圖標(biāo)是改變字段名,垃圾桶是刪除這個(gè)字段。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

我們可以隨意刪除和更改字段名,這里邊肖只保留上圖中的字段。

第四步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

設(shè)置完字段后,我們將注意力轉(zhuǎn)向上圖中的小方框。第一個(gè)不是可選的,我們直接忽略。

在采集前滾動(dòng)頁(yè)面加載更多數(shù)據(jù):因?yàn)楝F(xiàn)在很多網(wǎng)站都使用動(dòng)態(tài)頁(yè)面,有些內(nèi)容在加載時(shí)不會(huì)顯示,只有我們下拉時(shí)才會(huì)逐漸顯示,而這個(gè)功能就是為了防止這種情況的發(fā)生。

翻頁(yè)并收集多頁(yè)數(shù)據(jù):設(shè)置為抓取多頁(yè),如果未選中,則僅抓取當(dāng)前頁(yè)面。

點(diǎn)擊列表中的XXX,收藏下一頁(yè):此功能允許我們抓取子頁(yè)面中的內(nèi)容。

這里我們不深入抓取,只勾選前兩項(xiàng),然后點(diǎn)擊【生成收藏設(shè)置】。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

點(diǎn)擊生成后,您將開始保存或查看。點(diǎn)擊此處保存并開始收集。

第五步八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

到了這個(gè)界面之后,我們可以看到一個(gè)詳細(xì)的流程,里面的循環(huán)列表就是這個(gè)頁(yè)面中爬取的內(nèi)容。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

我們單擊外部循環(huán)的設(shè)置按鈕。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

展開退出循環(huán)設(shè)置并檢查循環(huán)執(zhí)行時(shí)間。這里我們只抓取3頁(yè)。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

開始收集

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

收集完成后,單擊導(dǎo)出。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

此外,如果你抓取的頁(yè)面中存在重復(fù)數(shù)據(jù),軟件也會(huì)直接提示你根據(jù)自身情況選擇保留或刪除。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

導(dǎo)出模式

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

保存導(dǎo)出文件的位置。

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

保存完成

八爪魚軟件的自定義采集工作方式下(八爪魚采集器8.0教程)

圖像數(shù)據(jù)

以上是邊肖為大家?guī)?lái)的章魚收集器定制模塊教程。熟練使用后,相信朋友們可以收集到更多的數(shù)據(jù)。使用octopus collector收集數(shù)據(jù)后,我們可以根據(jù)收集到的數(shù)據(jù)進(jìn)行分析,完成各種任務(wù)。希望這篇文章能幫到你。

本文來(lái)自網(wǎng)絡(luò),不代表海詩(shī)網(wǎng)立場(chǎng),轉(zhuǎn)載請(qǐng)注明出處:http://x91880.com/n/173050.html
      

excel怎么隔幾行插行 這個(gè)技巧教給你操作(如何在excel中隔一行插一行)

發(fā)表回復(fù)
聯(lián)系我們
聯(lián)系我們

在線咨詢: QQ交談

郵箱: 3587015498@qq.com

工作時(shí)間:周一至周五,9:00-17:30,節(jié)假日休息

關(guān)注微信
微信掃一掃關(guān)注我們
微信掃一掃關(guān)注我們
關(guān)注微博
返回頂部