Zdraví zdrojů hlídač změn CMS / URL schématu
Deterministická kontrola (bez AI), že u každého webu pořád platí, podle čeho poznáváme článek. Když web změní systém, projeví se to tady dřív, než z toho vzniknou duplicity nebo nám články utečou. Prahy: extrakce ID < 50% nebo mrtvá sekce = alert.
alert: 0 warn: 0 ok: 17
| zdroj | stav | článků | ID% | dup dle ID | shodný text | nových/24h | bez textu | medián slov | poznámky |
|---|---|---|---|---|---|---|---|---|---|
| aktualne | ok | 222 | 100% | 6 | 89 | 1% | 669 | 6 článků se shodným textem (boilerplate/ČTK) | |
| ceskenoviny | ok | 138 | 100% | 38 | 4% | 344 | |||
| cnnprima | ok | 134 | 100% | 58 | 4% | 431 | |||
| ct24 | ok | 156 | 99% | 6 | 28 | 1% | 431 | 6 článků se shodným textem (boilerplate/ČTK) | |
| denik | ok | 217 | — | 64 | 3% | 403 | |||
| denikn | ok | 190 | 100% | 9 | 1% | 1145 | |||
| denikto | ok | 81 | — | 81 | 427 | ||||
| e15 | ok | 142 | 100% | 17 | 515 | ||||
| echo24 | ok | 123 | 100% | 31 | 1% | 441 | |||
| forum24 | ok | 285 | — | 206 | 7% | 390 | |||
| hn | ok | 94 | 100% | 33 | 224 | ||||
| idnes | ok | 565 | 100% | 2 | 138 | 1% | 456 | 2 článků se shodným textem (boilerplate/ČTK) | |
| lidovky | ok | 210 | 100% | 26 | 1% | 398 | |||
| novinky | ok | 329 | 100% | 124 | 3% | 270 | |||
| parlamentnilisty | ok | 142 | 100% | 7 | 33 | 1% | 430 | 7 článků se shodným textem (boilerplate/ČTK) | |
| reflex | ok | 57 | 100% | 17 | 438 | ||||
| seznamzpravy | ok | 187 | 100% | 45 | 1% | 531 |
Zdroje bez ID v URL (denik, forum24, denikto) mají ID% „—" — identitu je u nich potřeba dolovat ze stránky (canonical / og:url / JSON-LD). „shodný text" = různé články se shodným extrahovaným textem (boilerplate / agenturní přetisk).