📰 pepíknews crawler
3272článků
4007verzí obsahu
6707snímků
65sekcí
04.07.2026 19:22poslední snímek

Zdraví zdrojů hlídač změn CMS / URL schématu

Deterministická kontrola (bez AI), že u každého webu pořád platí, podle čeho poznáváme článek. Když web změní systém, projeví se to tady dřív, než z toho vzniknou duplicity nebo nám články utečou. Prahy: extrakce ID < 50% nebo mrtvá sekce = alert.

alert: 0 warn: 0 ok: 17

zdrojstavčlánkůID% dup dle IDshodný textnových/24h bez textumedián slovpoznámky
aktualne ok 222 100% 6 89 1% 669 6 článků se shodným textem (boilerplate/ČTK)
ceskenoviny ok 138 100% 38 4% 344
cnnprima ok 134 100% 58 4% 431
ct24 ok 156 99% 6 28 1% 431 6 článků se shodným textem (boilerplate/ČTK)
denik ok 217 64 3% 403
denikn ok 190 100% 9 1% 1145
denikto ok 81 81 427
e15 ok 142 100% 17 515
echo24 ok 123 100% 31 1% 441
forum24 ok 285 206 7% 390
hn ok 94 100% 33 224
idnes ok 565 100% 2 138 1% 456 2 článků se shodným textem (boilerplate/ČTK)
lidovky ok 210 100% 26 1% 398
novinky ok 329 100% 124 3% 270
parlamentnilisty ok 142 100% 7 33 1% 430 7 článků se shodným textem (boilerplate/ČTK)
reflex ok 57 100% 17 438
seznamzpravy ok 187 100% 45 1% 531

Zdroje bez ID v URL (denik, forum24, denikto) mají ID% „—" — identitu je u nich potřeba dolovat ze stránky (canonical / og:url / JSON-LD). „shodný text" = různé články se shodným extrahovaným textem (boilerplate / agenturní přetisk).