1.Neublížim tým svojmu SEO? Nezakážem aj Google?

Nie, ak vieš, čo robíš. Googlebot má svoje vlastné IP rozsahy a User-Agenta. Väčšina firewallov má funkciu "Allowlist Google/Bing", ktorú určite nechaj zapnutú. Agresívne blokovanie čínskych IP Google neovplyvní (pokiaľ neblokuješ USA/Írsko/Taiwan/... , kde má Google servery).

Stačí mi len plugin na ochranu?

Plugin beží na úrovni aplikácie (PHP). Ak je útok silný, plugin síce útočníka zablokuje, ale až potom, čo sa naštartuje celý systém, čo spotrebúva výkon servera a spomaľuje web. Blokovanie na úrovni Cloudflare alebo serverového firewallu (pred PHP) je oveľa efektívnejšie.

Sú tam veľké internetové uzly s obrovskými dátovými centrami a relatívne voľnou legislatívou. Útočník môže sedieť kdekoľvek, ale svoju "armádu" riadi cez servery prenajaté v týchto lokalitách.

Čo je to ten "Scraping"?

Je to automatizované sťahovanie obsahu z webu. Scraper nečíta článok, on skopíruje HTML kód, vytiahne z neho text a obrázky a uloží ich do databázy. Je to digitálna krádež tvojej práce.

Kŕmiš AI zadarmo ? Ako zablokovať AI botov a scraperov na svojom webe (Príbeh z praxe)

Obsah článku

Nenechaj v tom známych samých – zdieľaj

Začiatočník

Máš pocit, že tvoj web je pomalší, hoci návštevnosť nerastie? Alebo ti v štatistikách vyskakujú podozrivé čísla z krajín, kde tvojim článkom o pestovaní paradajok v slovenskej hline určite nerozumejú? Možno si sa práve stal nevedomým „donorom“ pre tréning umelej inteligencie alebo obeťou vykrádania obsahu.

Prečo tento článok vznikol ?

Píšem ho zámerne otvorene a transparentne. Chcem, aby si vedel, čo sa na webe občas deje v pozadí, že to riešim a že kybernetická bezpečnosť je pre mňa rovnako dôležitá ako pohodlie bežných návštevníkov. A hlavne: nie som jediný web, ktorý boti skúšajú. Preto ti dám aspoň stručný návod, ako podobné veci rozpoznať a čo s tým spraviť.

V tomto článku sa pozrieme na to, ako zablokovať AI botov, čo je to ochrana pred scrapingom v praxi a prečo samotný Cloudflare niekedy nestačí. A nebudeme len teoretizovať – podelím sa s tebou o skutočný detektívny príbeh, ako som musel postaviť „Slovenský múr“ proti nájazdom z Ázie.

💡 Dôležitá správa pre teba (čitateľa): Než sa pustíme do boja, chcem ťa upokojiť. Tieto „útoky“ sú mierené výhradne na server a obsah webu (texty), nie na teba. Tvoj počítač, mobil ani osobné údaje nie sú v žiadnom ohrození. Pre bežného návštevníka je táto digitálna vojna neviditeľná a neškodná. A v podstate prebieha takmer na každej web stránke ktorú navštíviš (okrem špecifických webov ako sú banky a podobne).

Navyše, mám dobrú správu: Aktuálne mám situáciu pod kontrolou a monitorujem ju. Všetky hrozby boli úspešne odrazené a web je teraz vďaka prijatým opatreniam bezpečnejší a trochu rýchlejší než kedykoľvek predtým. Môžeš teda v kľude čítať ďalej. ☕

Môj príbeh: Keď niečo alebo niekto z ázie číta po slovensky (až príliš rýchlo)

Všetko to začalo nevinne. Ako správny správca webu som si prechádzal logy. Robím to pravidelne – či už ide o kontrolu webových logov, alebo o analýzu hlavičiek e-mailov, aby som odhalil podvody

Zrazu som v logoch štatistického modulu zbadal niečo divné. Podozrivá aktivita. Neboli to bežné návštevy. Bola to „guľometná paľba“ požiadaviek. Krajina pôvodu: Ázia IP adresy: Samozrejme anonymizované, z rôznych dátových centier.

Mojou prvou (naivnou) myšlienkou bolo: „Super! Možno nejaký slovenský expat v Ázii dostal homesick a číta si môj blog.“ Ale potom prišla realita. Štatistiky z danej krajiny chodili každú minútu. Ten „človek“ by musel čítať rýchlosťou 5000 slov za sekundu a nejesť, nespať, len klikať. Bolo mi to jasné: Toto nie je človek.

Vyšetrovanie: Kto je za dverami?

Začal som pátrať. Na detekciu, kto sa skrýva za anonymnou IP, existujú skvelé nástroje (o nich si povieme nižšie v checkliste). Výsledok ma nepotešil. Aktivita prichádzala z IP rozsahov dátových centier v Ázii a správanie vyzeralo ako automatizované sťahovanie obsahu (scraping).

Nebol to útok typu DDoS, ktorý by chcel web zhodiť. Bolo to niečo sofistikovanejšie. Automatizovaný bot prechádzal článok po článku, tváriac sa ako bežný návštevník (User-Agent vyzeral ako Chrome na Windowse), a sťahoval si obsah vo veľkom.

Krok 1: Cloudflare pomohol, ale nestačil

Ihneď som konal. Prvá línia obrany je u mňa Cloudflare (pre tých, čo nevedia: je to webový firewall, taký vrátnik, ktorý stojí pred tvojím serverom a filtruje zlých hostí skôr, než zaklopú na dvere). Prezrel som Cloudflare udalosti, ale v tej chvíli to vyzeralo, akoby sa časť požiadaviek Cloudflare úplne vyhla. Sprísnil som teda Cloudflare WAF (Web Application Firewall) pravidlá na maximum. Niečo to zachytilo, grafy vyskočili, ale záťaž na mojom serveri neklesala. Bot tam stále bol.

Krok 2: Odhalenie triku zvaného „Bypass“

Premýšľal som ako útočník. Ako je možné, že prejde cez bránu Cloudflare bez povšimnutia? A potom mi to došlo. On nejde cez bránu. On preskakuje plot.

Tento jav sa volá Cloudflare Bypass. Stručne vysvetlené: Cloudflare funguje tak, že skryje tvoju skutočnú IP adresu servera (Origin IP) a svetu ukazuje len svoju. Ak však útočník zistí tvoju skutočnú IP adresu (napr. z histórie DNS záznamov alebo iných verejných stôp), môže Cloudflare úplne obísť a pripojiť sa priamo na tvoj webový server.

Krok 3: Stavba Slovenského múru (Finálne riešenie)

Pochopil som, že boj na hranici (Cloudflare) som prehral, musím bojovať doma. Musel som sprísniť ochranu priamo na internom aplikačnom firewalle (na úrovni servera).

Potreboval som zablokovať celé rozsahy IP adries, ktoré patrili týmto ázijských dátovým centrám. Ale ako ich získať všetky a nepomýliť sa? Tu nastúpila kombinácia automatizácie a verejných databáz. Podľa ASN (sietí dátových centier), z ktorých aktivita prichádzala, som si dohľadal CIDR rozsahy (bloky IP adries, napr. 192.168.0.0/16) a následne ich overil vo viacerých zdrojoch.

Samozrejme, dôveruj, ale preveruj. Tieto rozsahy som ešte krížovo overil cez inú AI a databázy, aby som si bol 100 % istý, že omylom nezablokujem „dobrých botov“ (Googlebot, Bing) alebo skutočných ľudí z EÚ či USA.

Výsledok ? Vytvoril som zoznam vybraných IP rozsahov podľa konkrétnych dátových centier (ASN). Na prvý pohľad to vyzerá ako pár riadkov, ale v reči sietí to pokrýva veľké množstvo konkrétnych IP adries. Tieto pravidlá som skopíroval do politík môjho interného firewallu a stlačil ENTER. Blokovanie IP adries začalo (samozrejme tých škodlivých).

A zrazu… ticho. 🤫 Záťaž procesora klesla. Logy sa upokojili. Nebezpeční boti z ázie narazili na môj slovenský múr a (obrazne povedané) si vybili zuby.

Prečo to robia? (Motivácia útočníka)

Možno si hovoríš: „Mám malý blog, prečo by niekto chcel moje texty?“

Tréning AI (LLM): Veľké jazykové modely potrebujú terabajty textu. Tvoj blog je pre nich len „palivo“ zadarmo.
Klonovanie obsahu: Scraperi stiahnu tvoj obsah, preložia ho do iného jazyka (alebo ho len prekopírujú) a vytvoria „MFA“ (Made For Adsense) weby, na ktorých zarábajú z reklamy.
Hľadanie zraniteľností: Často to nie je len o obsahu. Boti skenujú verzie tvojho systému a pluginov, aby našli dieru, cez ktorú sa neskôr vrátia.

Checklist: Ako zablokovať AI botov a brániť sa (Krok za krokom)

Ak máš svoj web sa chceš brániť podobne ako ja, tu je postup.

1. Detekcia: Ako zistím, že ma scrapujú?

Ešte predtým, ako začneš blokovať, musíš vedieť, koho.

Sleduj CPU/RAM: Ak máš vysokú záťaž servera v čase, keď bežne ľudia spia (napr. 3:00 ráno), je to bot.
Analýza IP adries: Použi nástroje na identifikáciu návštevníka.
- IPinfo.io / Whois: Zistíš, komu IP patrí. Ak je „ISP“ napríklad Alibaba Cloud, Tencent alebo DigitalOcean a návštevník sa správa ako čitateľ, je to podozrivé (bežní ľudia nesurfujú z dátových centier).
- AbuseIPDB: Skvelá databáza. Zadaj IP a uvidíš, či ju už nahlásili iní admini.

2. Ochrana na úrovni súboru Robots.txt (Slušná prosba)

Toto zastaví len slušných botov (ako GPTBot od OpenAI), zlých botov nie, ale je to základ. Pridaj do súboru robots.txt v koreňovom adresári webu (toto je iba základná ukážka):

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: OAI-SearchBot 
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: GPTBot

Disallow: /

User-agent: CCBot

Disallow: /

User-agent: OAI-SearchBot

Disallow: /

User-agent: ClaudeBot

Disallow: /

User-agent: Bytespider

Disallow: /

(Poznámka: Niektoré crawleri robots.txt nerešpektujú – ber to ako “slušnú prosbu”, nie ako nepriestrelný štít.)

3. Cloudflare WAF (Prvá línia)

Ak používaš Cloudflare ako ochranu tvojho webu (mal by si pretože na to čo ti stačí je zadarmo):

V Cloudflare zapni bot ochranu (napr. Bot Fight Mode / ekvivalent podľa tvojho plánu) a sleduj Security Events, či sa pravidlá reálne aplikujú a prebieha blokovanie IP adries.
V WAF > Custom Rules si nastav pravidlo založené na kombinácii signálov:
– krajiny/regiony, odkiaľ typicky nečakáš návštevy,
– zvýšené riziko (Threat score / Bot signály),
– podozrivé správanie (napr. extrémna frekvencia požiadaviek, podozrivé URI, POST na bežné stránky).
Ak sa podmienky splnia, použi Managed Challenge alebo Block podľa toho, ako prísny chceš byť.

4. Server-side Firewall (Slovenský múr)

Keď Cloudflare zlyhá (bypass), musíš blokovať na serveri (napr. cez .htaccess na Apache, konfiguráciu Nginx, alebo cez bezpečnostný plugin v tvojom CMS, ktorý zapisuje priamo do firewallu).

⚠️ POZOR: Blokovanie IP adries celých krajín na serveri môže byť náročné na výkon. Lepšie je blokovať konkrétne ASN (Autonomous System Number) dátových centier, z ktorých útoky prichádzajú.

FAQ : Často kladené otázky o blokovaní botov

1.Neublížim tým svojmu SEO? Nezakážem aj Google?
Nie, ak vieš, čo robíš. Googlebot má svoje vlastné IP rozsahy a User-Agenta. Väčšina firewallov má funkciu "Allowlist Google/Bing", ktorú určite nechaj zapnutú. Agresívne blokovanie čínskych IP Google neovplyvní (pokiaľ neblokuješ USA/Írsko/Taiwan/... , kde má Google servery).
Stačí mi len plugin na ochranu?
Plugin beží na úrovni aplikácie (PHP). Ak je útok silný, plugin síce útočníka zablokuje, ale až potom, čo sa naštartuje celý systém, čo spotrebúva výkon servera a spomaľuje web. Blokovanie na úrovni Cloudflare alebo serverového firewallu (pred PHP) je oveľa efektívnejšie.
Prečo práve Ázia?
Sú tam veľké internetové uzly s obrovskými dátovými centrami a relatívne voľnou legislatívou. Útočník môže sedieť kdekoľvek, ale svoju "armádu" riadi cez servery prenajaté v týchto lokalitách.
Čo je to ten "Scraping"?
Je to automatizované sťahovanie obsahu z webu. Scraper nečíta článok, on skopíruje HTML kód, vytiahne z neho text a obrázky a uloží ich do databázy. Je to digitálna krádež tvojej práce.

Záver: Nenechaj sa zožrať

Dáta sú nová ropa – a preto sa oplatí chrániť aj „obyčajný“ blogový obsah. A tvoj obsah, ktorý si prácne tvoril po večeroch, je pre niekoho len surovina zadarmo.

💡 Pozri aj: Ak ťa zaujíma budúcnosť bezpečnosti a šifrovania, pozri môj článok Post-kvantové šifrovanie: čo to je a prečo nás to bude zaujímať.

Ak si malý alebo stredný bloger, nepodceňuj to. Aj keď si myslíš, že si bezvýznamný, pre bota si ďalší riadok v zozname. Urob si kávu, otvor logy a postav si svoj vlastný firewall. Ten pocit ticha a bezpečia potom stojí za to. A blokovanie IP adries alebo celých rozsahov nebezpečných IP adries nie je raketová veda, je to ochrana pred scrapingom a inými typmi útokov.

P.S.: Ak chceš, môžem ti ukázať, ako bezpečne identifikovať podozrivé ASN/rozsahy a ako ich overiť v databázach pred blokovaním. 😉