Sprievodca pre začiatočníkov od Semalt po zošrotovanie webovej stránky

Dáta a informácie na webe každým dňom rastú. V súčasnosti väčšina ľudí používa Google ako prvý zdroj poznatkov, či už hľadajú recenzie o firme alebo sa snažia porozumieť novému termínu.

Vďaka množstvu údajov dostupných na webe to otvára množstvo príležitostí pre vedcov údajov. Väčšina údajov na webe bohužiaľ nie je ľahko dostupná. Prezentuje sa v neštruktúrovanom formáte, ktorý sa označuje ako formát HTML a ktorý nie je možné stiahnuť. Vyžaduje si to znalosti a odborné znalosti údajového vedca, ktorý ich môže využiť.

Webové zošrotovanie je proces konverzie údajov prítomných vo formáte HTML do štruktúrovaného formátu, ktorý je ľahko dostupný a použiteľný. Takmer všetky programovacie jazyky sa dajú použiť na správne zošrotovanie webu. V tomto článku však budeme používať jazyk R.

Existuje niekoľko spôsobov, ako je možné zoškrabať údaje z webu. Medzi najobľúbenejšie patria:

1. Ľudská kopírovacia pasta

Toto je pomalá, ale veľmi účinná technika zoškrabovania údajov z webu. Pri tejto technike osoba analyzuje údaje sama a potom ich skopíruje do miestneho úložiska.

2. Zhoda vzorov textu

Toto je ďalší jednoduchý, ale výkonný prístup na získavanie informácií z webu. Vyžaduje si to použitie zariadení na vyrovnávanie regulárnych výrazov programovacích jazykov.

3. Rozhranie API

Veľa webových stránok, ako sú Twitter, Facebook, LinkedIn atď., Poskytuje verejné alebo súkromné API, ktoré možno nazvať pomocou štandardných kódov na načítanie údajov v predpísanom formáte.

4. Analýza DOM

Niektoré programy môžu načítať dynamický obsah vytvorený skriptmi na strane klienta. Je možné analyzovať stránky do stromu DOM, ktorý je založený na programoch, ktoré môžete použiť na načítanie niektorých častí týchto stránok.

Predtým, ako sa pustíte do webového scrapingu v R, musíte mať základné znalosti o R. Ak ste začiatočník, existuje veľa skvelých zdrojov, ktoré vám môžu pomôcť. Tiež musíte mať znalosti o HTML a CSS. Keďže však väčšina vedcov v oblasti údajov s technickými znalosťami HTML a CSS nie je veľmi spoľahlivá, môžete použiť otvorený softvér, napríklad Selector Gadget.

Napríklad, ak zoškrabávate údaje na webovej stránke IMDB pre 100 najpopulárnejších filmov vydaných v danom období, musíte zoškrabať nasledujúce údaje z lokality: popis, runtime, žáner, hodnotenie, hlasy, hrubý zárobok, režisér a cast. Po zošrotovaní údajov ich môžete analyzovať rôznymi spôsobmi. Napríklad môžete vytvoriť niekoľko zaujímavých vizualizácií. Teraz, keď už máte všeobecnú predstavu o tom, čo je zošrotovanie údajov, si môžete urobiť cestu okolo toho!