Stiahnite si celý web do jedného CSV so Scraping Camel

Petra Marková
25. 3. 2021
4 minúty čítania
Stiahnite si celý web do jedného CSV so Scraping Camel

Chcete zo stránok či e‑shopov získavať dáta, ktoré nie sú obsiahnuté v XML feede? K cenným informáciám sa dostanete jednoducho pomocou novej aplikácie Scraping Camel. Využite jej funkcie pre efektívnejšiu tvorbu PPC reklám či SEO. Ukážeme vám, ako na to.

Chcete zo stránok či e‑shopov získavať dáta, ktoré nie sú obsiahnuté v XML feede? K cenným informáciám sa dostanete jednoducho pomocou novej aplikácie Scraping Camel. Využite jej funkcie pre efektívnejšiu tvorbu PPC reklám či SEO. Ukážeme vám, ako na to.

Majte všetky potrebné informácie v jednom súbore

Scraping Camel je vyvinutý firmou Shopitak, ktorá sa zameriava na vývoj aplikácií pre ekosystém Mergada. Appka prechádza HTML stránky webu a získava z nich ľubovoľné informácie, ktoré uloží a vygeneruje z nich jeden výstupný CSV súbor. Vďaka tomu je appka vhodná pre kvalitné dátové analýzy produktov i kategórií.

Aplikácia dokáže spracovávať aj weby, ktoré nie sú e‑shopmi. Ide napríklad o rôzne katalógy (móda, cestovné kancelárie a pod.) či webové prezentácie. Ich dáta vie upraviť v Mergade pre PPC reklamy Google Ads či inak spracovať obvyklé postupy pro e‑shopy. V prípade, ak shopsystém užívateľa negeneruje XML (či iné) feedy, dokáže získať potrebné informácie a ďalej s nimi pracovať v Mergade pre reklamné systémy.

Aké dáta môžete zo stránok získať? Pomocou aplikácie dostanete z webu akékoľvek informácie, ako napríklad Title, Meta description, nadpisy H1 alebo H2, ID značky Google Analytics či Google Tag Manager.

So Scraping Camel aplikujete pracovné postupy feed marketingu z e‑shopov s XML feedmi aj na weby bez nákupného košíka. Dáta sú priebežne automatizované a výstupy dostupné online pre ďalšie aplikácie či dátové napojenia.

Ako funguje appka Scraping Camel

  1. Definujte si doménu, ktorú má aplikácia prechádzať.
  2. Vykonajte jej overenie, ktoré je podobné ako pri Google. Na výber máte z vloženia súboru na web, META značky do stránok či DNS záznamu. Cieľom je dokázať, že nejde o cudzí web.
  3. Vložte sitemap.xml, ktoré je podmienkou pre fungovanie aplikácie. Scraping Camel tu berie URL stránky webu.
  4. Následne nastavte frekvenciu prehliadania stránok webu – príliš veľa dotazov môže web preťažiť a málo naopak spomaliť spracovanie celého webu.
  5. Ďalej zvoľte, aké elementy chcete získavať z cieľových HTML stránok. Predvolené sú title, meta description alebo si nadefinujte vlastné elementy (prostredníctvom regulárneho výrazu alebo uvedením textu pred a za hľadanými informáciami).
  6. Nastavte si, ako sa majú menovať elementy so získanými informáciami vo výstupnom CSV.
  7. V závere začne aplikácia prechádzať cieľový web. Až ho celý spracuje, vygeneruje výstupné CSV a v administrácii uvedie jeho adresu.

Detailný postup nastavenia aplikácie nájdete v tejto dokumentácii.

Použitie aplikácie Scraping Camel

Na testovacom e‑shope vám ukážeme, ako jednoducho získate SEO dáta a popis produktu.

    • Táto klávesová skratka vám umožní vidieť zdrojový kód webu, ktorý potrebujete k nadefinovaniu elementov. Alebo môžete kliknúť na pravé tlačidlo myši a takto zobraziť zdrojový kód stránky.
    • Pomocou klávesovej skratky CTRL+F (slúži na vyhľadávanie obsahu na danej stránke) zadajte požadovaný element, ktorý chcete získať. V tomto prípade chceme nájsť popis produktu, teda: <h3>Detailný popis produktu</h3>

  • Do “Hodnoty predtým” zadáte: <h3>Detailný popis produktu</h3> a do “Hodnoty pod” zadáte </​div>. Vyzerať to bude nasledovne:

  • Aplikácia primárne neslúži na prezeranie dát, myslite na to. Odporúčame, aby ste dáta prezerali v inom programe, napríklad v Mergade alebo Google Sheet. Rovnaký postup aplikujte aj na ostatné prvky, ktoré chcete z webu získať.

Scraping Camel pravidelne a automaticky kontroluje cieľový web. Ak nájde novú stránku, ihneď ju spracuje a prípadné zmeny premietne vo výstupnom CSV súbore.

Aplikáciu využijú nielen e‑shopári. Do CSV súboru dokážu načítať informácie o tovare či službe zo stránky bez feedu aj marketéri, špecialisti na SEO alebo PPC reklamu.

Aké sú rozdiely aplikácie oproti iným nástrojom? Programy ako Screaming Frog či Xenu fungujú na jednorazovom princípe a spúšťajú sa na lokálnom zariadení. Scraping Camel pracuje presne naopak – beží na serveri a to nonstop. Výstupy poskytuje v strojovo čitateľnej podobe, ktoré dokážete ďalej aj strojovo spracovávať. Využijete ho tak k jednorazovým analýzam, kde dáta automaticky spracuje ďalším softvér.

Zhrnutie

Výhody aplikácie Scraping Camel: 

  • neustály monitoring zmien
  • funguje na serveri (non-stop)
  • možnosť nahrať do Mergada ako vstupný súbor pre export a s týmto ďalej pracovať obvyklým spôsobom
  • neobmedzený počet webov na jeden účet

Čo potrebujete vedieť:

  • nevykresľuje JavaScript, funguje iba na základe HTML
  • princíp extrakcie dát, je na základe znakov, nie na základe elementov
  • podmienkou pre používanie Scraping Camel je funkčný súbor sitemap a overená doména

Vyskúšajte si funkcie Scraping Camel naplno na 30 dní zadarmo a zúročte výhody kvalitne získaných dát.

Mohlo by vás zaujímať:

Petra Marková

Slovenský trh a ľubozvučnú slovenčinu má v MERGADE na starosti content špecialistka Petra. Textuje, bloguje, prekladá a s vášňou tvorí obsah na sociálne siete. A keď práve nehľadá tie správne slová, venuje svoj čas bytovej džungli, pečeniu, kaviarňam alebo cestovaniu.