-
Indexelési probléma
Be fogtok szarni.
Egy most indult weboldalt 1 évre előre feltöltöttem tartalommal. Ezek ilyen örökzöld tartalmak, sok munkám volt vele. Azt gondoltam, hogy megkönnyítem a napi frissítést. A gond az, hogy ezeket valahogyan beindexelte a google.
A "CMS-t" én csináltam. A frontend oldalon, a tartalom listázásakor figyelembe vettem a mysql-ben tárolt timestampot. Magyarul, hogy csak olyan cikk jelenjen meg, ami az adott pillanattól régebbi. Ugyanígy a sitemapnél is és minden pluginnál. Azt a hibát viszont elkövettem, hogy a cikkoldalak megnyitásakor ezt már nem tettem meg. Tehát ha beírtad a cikk urljét, akkor megjelent, itt már nem volt timestamp ellenőrzés. Persze ehhez tudnod kellett a cikk azonosítóját. (?cikk_id=1, ?cikk_id=2, ?cikk_id=3, ...) Volt az url-ben még keresőbarát címke is, de az csak dísznek, mert az ID alapján történik a lekérdezés.
Na most nem az a bajom, hogy 1-2 ilyet megtalált, hanem az összeset! Én maximum néhányat nyitottam meg böngészőben, de ezek az oldalak sehonnan sem voltak linkelve. Hogy tudta ezt megcsinálni? Hogyan találta meg? Megnéztem a szerveroldali statisztikát (AWSTATS), van olyan cikk, amit még sosem nyitottak meg böngészőből, mégis benne van az indexben.
Azóta már javítottam a hibát és minden lekérdezéskor figyelembe veszem a dátum mezőt, viszont így lett jó sok 404-es oldalam. Mit javasoltok? Hogyan lehetne visszalapátolni a szart a lóba?
Az egész nagyon furcsa és rejtélyes.
-
re: Indexelési probléma
Robots.txt -t probaltad? Reg kiffel letiltani a parameteres urlek indexeleset
-
re: Indexelési probléma
Nem paraméteresek az URL-ek, hanem keresőbarátak. (ilyen formátumban: domain.tld/kategorianeve/szep-kis-cím-456.html). Letiltani nem akarom őket, hiszen azt szeretném, hogy indexelje őket. Csak ne most egyszerre, hanem naponta 2-3 darabot, ahogy publikálom.
Úgy néz ki, hogy 4-5 napig voltak elérhetőek a cikkek. Nem tudom mennyit indexelt be, de sokat. Most 404-es oldalak jönnek be a még nem publikált cikkekre. Mit javasoltok?
Arra gondoltam, hogy megváltoztatom az ID-ket, hogy amikor a jövőben tényleg élesednek a cikkek, akkor még csak véletlenül se higgye 404-es oldalnak ezeket. Erről: szep-kis-cím-456.html Erre változna: szep-kis-cím-10456.html
A 404-es oldalak meg gondolom kikopnának idővel.
-
re: Indexelési probléma
Nem ismerem a rendszeredet, de lenne egy javaslatom: a 404 helyett - mivel azt nem is üríti azonnal ("lehet, hogy hiba" alapon), illetve utána meg érdekes, hogy mégis létezik. Én inkább azt csinálnám, hogy
- ami megjelent ott: <meta name="robots" content="index, follow"> -t használnék,
- ami nem, ott: <meta name="robots" content="noindex, follow"> -t.
Így kap-visz linkerőt, ha megjelenik tulajdonképpen már ismerős lesz a keresőnek, és a az egész egy if-fel megoldható.
-
re: Indexelési probléma
Nincs telepítve a google sitemap xml plugin? Szerintem az lehet ludas ilyenben. Mármint a beindexelésben.
WMT-ben nem tudod javítottként megjelölni a 404-es url-eket?
-
re: Indexelési probléma
Mi van benne a sitemap.xml-edben?
Futtas le pl egy xenu-t és nézd meg, hogy az megtalálja-e a nem publikus oldalaidat. Ha igen akkor valami mégis csak linkel rájuk. Magától nem fog kitalálni url-eket a Google.
-
re: Indexelési probléma
Ezt a mini cms-t én csináltam, 2-3 php fájlból áll, a többi egy jelszóval védett mappában van. Van sitemap.xml is, de az is dinamikusan készül hasonló logika mentén. Csak az admin-ból voltak ezek meglinkelve, az viszont jelszóval védett. Viszont tényleg az az érdekes, hogy elég sok olyan oldal van, amit a szerveroldali (tehát nem GA) statisztika szerint még nem látogattak meg, de mégis benne van az indexben az összes meta adattal (title, description, opengraph cuccok (kép!), breadcrumb, canonical). Ezek az adatok meg nincsenek benne a sitemapban.
Viszont úgy döntöttem, hogy mivel ez egy most indult oldal, ezért megváltoztatom az url struktúrát. A régi linkeket egységesen a rovat kezdőlapjára irányítom 301-gyel. Mondjuk úgy, hogy tiszta lappal kezdek. Az a rengeteg 404-es oldal felhasználói szemmel nem túl biztató. Mit gondoltok erről?
Ja, és a 404-es oldalak, az csak egy következmény már. A gond az, hogy beindexelt olyan tartalmat, ami véletlenül publikus lett. Szóval a karácsonyi üdvözlés 33 fokban nem biztos hogy releváns. De van még sok ilyen szezonális tartalmam, ezért lett minden olyan oldal 404, ami csak a jövőben fog megjelenni. Viszont ha marad az URL struktúra, az szerintem rosszabb, mint ha most (így az elején) teljesen újat csinálok. Kábé akkorra kopna ki a találatok közül, mint amikor meg kéne jelennie ténylegesen.
-
re: Indexelési probléma
A kérdésre igazából nem válaszoltál :)
Az indexelés pillanatában benne volt minden cikked url-je a sitemap-edben? Tehát azon működött az időzítésért felelős kódod, vagy nem?
Az adminodba nem ágyaztad bele véletlen a Google mérőkódjait?
A 301-es átirányítás a felhasználók szemszögéből jó megoldás lehet. Sok esetben én is így és ezért használom.
-
re: Indexelési probléma
Nem volt benne a sitemapban és google mérőkód sincs az adminban.
-
re: Indexelési probléma
Nincs ebben semmi rejtély. Ha van két cikknek látszó url-ed, amiben az egyik szám 102, a másikban 103, akkor a bot rá fog próbálni a 104-re is. És ha létezik az oldal, akkor a 105-re is, és így tovább.
Egyébként amikor a Google azt mondja, hogy friss tartalmat szeretne, azt nem úgy érti, hogy timestampekkel meg időzítőkkel trükközzenek a siteok, úgyhogy kicsit "megérdemelted", de ha már így alakult én inkább 503 Service Temporarily Unavailable header-t nyomnék rá. A Retry-After-hez pedig azt a dátumot, amikortól már "tényleg" elérhetővé válik a tartalom.