„Semalt“ akcijos - paprastas būdas išgauti informaciją iš interneto svetainių

Žiniatinklio įbrėžimas yra populiarus būdas gauti turinį iš svetainių. Specialiai suprogramuotas algoritmas atkeliauja į pagrindinį svetainės puslapį ir pradeda sekti visas vidines nuorodas, kaupdamas jūsų nurodytus divizijų interjerus. Dėl to paruošta CSV byla, kurioje yra visa reikalinga informacija, išdėstyta griežta tvarka. Gautas CSV gali būti naudojamas ateityje kuriant beveik unikalų turinį. Ir apskritai, kaip lentelė, tokie duomenys yra labai vertingi. Įsivaizduokite, kad visas statybų parduotuvės prekių sąrašas pateiktas lentelėje. Be to, kiekvienam produktui, kiekvienam produkto tipui ir prekės ženklui užpildomi visi laukai ir savybės. Bet kuris internetinėje parduotuvėje dirbantis copywriteras mielai turėtų tokį CSV failą.

Yra daugybė įrankių duomenims iš tinklalapių išgauti ar žiniatinkliui nuskaityti ir nesijaudinkite, jei nesate susipažinęs su jokiomis programavimo kalbomis, šiame straipsnyje parodysiu vieną iš paprasčiausių būdų - naudodamas „Scrapinghub“.

Pirmiausia eikite į scrapinghub.com, prisiregistruokite ir prisijunkite.

Kitas jūsų organizacijos veiksmas gali būti tiesiog praleistas.

Tada jūs pateksite į savo profilį. Turite sukurti projektą.

Čia reikia pasirinkti algoritmą (mes naudosime algoritmą „Portia“) ir duoti projekto pavadinimą. Pavadinkime tai kažkaip neįprastu. Pavyzdžiui, „111“.

Dabar mes patenkame į algoritmo darbo vietą, kur reikia įvesti svetainės, iš kurios norite išgauti duomenis, URL adresą. Tada spustelėkite „Naujas voras“.

Eisime į puslapį, kuris bus naudojamas kaip pavyzdys. Adresas atnaujinamas antraštėje. Spustelėkite „Anotuoti šį puslapį“.

Perkelkite pelės žymeklį į dešinę, tada pasirodys meniu. Čia mus domina „Ištraukto elemento“ skirtukas, kuriame reikia spustelėti „Redaguoti elementus“.

Tačiau rodomas tuščias laukų sąrašas. Spustelėkite „+ laukas“.

Čia viskas paprasta: reikia sudaryti laukų sąrašą. Kiekvienam elementui reikia įvesti pavadinimą (šiuo atveju pavadinimą ir turinį), nurodyti, ar šis laukas yra būtinas („Privalomas“) ir ar jis gali skirtis („Varijuoja“). Jei nurodysite, kad elementas yra „būtinas“, algoritmas tiesiog praleis puslapius, kuriuose jis negalės užpildyti šio lauko. Jei nepažymėta, procesas gali trukti amžinai.

Dabar tiesiog spustelėkite mums reikalingą lauką ir nurodykite, koks jis yra:

Padaryta? Tada svetainės antraštėje spustelėkite „Išsaugoti pavyzdį“. Po to galite grįžti į darbo vietą. Dabar algoritmas žino, kaip ką nors gauti, mes turime nustatyti tam užduotį. Norėdami tai padaryti, spustelėkite „Paskelbti pakeitimus“.

Eikite į užduočių lentą, spustelėkite „Vykdyti vorą“. Pasirinkite svetainę, prioritetą ir spustelėkite „Vykdyti“.

Na, dabar vyksta grandymas. Jos greitis parodomas žymeklį nukreipiant į išsiųstų užklausų skaičių:

Standų paruošimo greitis CSV - nurodant kitą numerį.

Norėdami pamatyti jau pagamintų daiktų sąrašą, tiesiog spustelėkite šį numerį. Pamatysite ką nors panašaus:

Baigę rezultatą galite išsaugoti spustelėję šį mygtuką:

Viskas! Dabar galite išgauti informaciją iš svetainių, neturėdami jokios programavimo patirties.