Be fogtok szarni.
Egy most indult weboldalt 1 évre előre feltöltöttem tartalommal. Ezek ilyen örökzöld tartalmak, sok munkám volt vele. Azt gondoltam, hogy megkönnyítem a napi frissítést. A gond az, hogy ezeket valahogyan beindexelte a google.
A "CMS-t" én csináltam. A frontend oldalon, a tartalom listázásakor figyelembe vettem a mysql-ben tárolt timestampot. Magyarul, hogy csak olyan cikk jelenjen meg, ami az adott pillanattól régebbi. Ugyanígy a sitemapnél is és minden pluginnál. Azt a hibát viszont elkövettem, hogy a cikkoldalak megnyitásakor ezt már nem tettem meg. Tehát ha beírtad a cikk urljét, akkor megjelent, itt már nem volt timestamp ellenőrzés. Persze ehhez tudnod kellett a cikk azonosítóját. (?cikk_id=1, ?cikk_id=2, ?cikk_id=3, ...) Volt az url-ben még keresőbarát címke is, de az csak dísznek, mert az ID alapján történik a lekérdezés.
Na most nem az a bajom, hogy 1-2 ilyet megtalált, hanem az összeset! Én maximum néhányat nyitottam meg böngészőben, de ezek az oldalak sehonnan sem voltak linkelve. Hogy tudta ezt megcsinálni? Hogyan találta meg? Megnéztem a szerveroldali statisztikát (AWSTATS), van olyan cikk, amit még sosem nyitottak meg böngészőből, mégis benne van az indexben.
Azóta már javítottam a hibát és minden lekérdezéskor figyelembe veszem a dátum mezőt, viszont így lett jó sok 404-es oldalam. Mit javasoltok? Hogyan lehetne visszalapátolni a szart a lóba?
Az egész nagyon furcsa és rejtélyes.
Könyvjelzők