Oldal: 2 / 2 ElsőElső 12
Eredmény: 11 - 15 (15) összesen

Téma: Google bot 404-et hív meg: mi a megoldás htaccess-el?

  1. #11
    Új tag
    Csatlakozott
    12-05-05
    Hely
    Budapest, XX.
    Hozzászólás
    34
    Begyűjtött 0 köszönetet
    0 hozzászólásával

    Alapbeállítás re: Google bot 404-et hív meg: mi a megoldás htaccess-el?

    Úgy vélem a Googlebot esetében nem csak a user-agentet, hanem az IP címet is ellenőrizni érdemes. Szerintem nem Googlebot volt.
    A Webmester eszközökben a 404-ekre kattintva megtudható honnan jött a link, amiből 404 lett.


    Van egy kis VPS-em, amin ez fut:

    PHP kód:
    function errorlog_wp_404() {
        if (
    is_404()) {
            
    error_log("File does not exist: " $_SERVER['REQUEST_URI']);
        }
    }
    add_action('template_redirect''errorlog_wp_404'); 
    Tehát a nem létező oldalakat úgy naplózza, mintha nem lenne minden az index.php-ba irányítva, hanem alapértelmezett Apache beállítások lennének. Utána fut egy fail2ban nevű napló elemző, ami IP szinten kitiltja azokat, akik egy perc alatt 12-nél több 404-et okoznak.


    Utoljára módosítva: szepe.viktor által : 2012-10-27 21:24

  2. #12
    Szerkesztő berty logója
    Csatlakozott
    12-02-09
    Hely
    localhost@sweethome
    Hozzászólás
    205
    Begyűjtött 7 köszönetet
    5 hozzászólásával

    Alapbeállítás re: Google bot 404-et hív meg: mi a megoldás htaccess-el?

    Hasonló problémám akadt. 403 hibába futott a googlebot. "A szerver bejelentkezést igényel, vagy blokkolja a Googlebotot." Figyelmeztetett is a WMT és most csúnyán bebüntetett pár nap alatt.

    A következő lehet a probléma: A joomla oldalon van egy sh404sef plugin amiben van / volt security settings amiben aktiváltam a sok harverster miatt a 20 lekérés maximum, meg procejt honey potot. Na most csúnyán megszivatott, mert hiába volt megadva a whitelistben a Googlebot mint engedélyezett user agent, mégis állandóan arra az oldalra irányította ahol rá kell klikkelni egy linkre hogy behozza a tartalmat.
    Engedélyezett IP címeket is beírtam ami google bot volt. Felturtam a logot, probáltam direkt mindent beírni, de 2 nap alatt bebüntetett.

    Pedig megdobta párnapja a látogatottságot elég szépen, volt öröm, aztán most meg a sírás-rívás.

    Ja és page speedjét is használom a googlenek. Nem tudom ez mennyire számít ez esetben, mert nem rég állítottam be.

    Meddig tart egy ilyen büntetés? Ez karácsony alatti kampány időben nagyon nagy szívás.

    A WMT először kb 200 linket/ hibát írt, majd 2 nap után 100 körül, gondolom ott unta meg. De ha a kilistázott 403-as oldalaimra rámegyek megnyitja gond nélkül, csak a hülye bot túl gyakran akarta lekérni az oldalakat, gondolom. Eddig nem volt ilyen probléma. A project honeypotot is mostanában tettem be, de már pár hete. Lehet most jött a robot.


    Hogy lehetne orvosolni ezt a problémát? Kérjem le WMT-ben a z oldalakat 1-esével? van kb. 500 kredit, ha beküldök egy ilyen hibásnak vélt linket simán le tudja kérdezni, ilyenkor javítja magát?
    Mármint ha a 403-as hiba egyik linkjét megtekintem googlebotként és az sikeres akkor van annyi IQ-ja, hogy újrapróbálkozzon a többivel és visszahozzon a büntetésből?



  3. #13
    Törzsvendég Rosszcsont Rozmár logója
    Csatlakozott
    12-07-04
    Hozzászólás
    111
    Begyűjtött 27 köszönetet
    23 hozzászólásával

    Alapbeállítás re: Google bot 404-et hív meg: mi a megoldás htaccess-el?

    Én kikapcsolnám azt a modult, hasonló funkciójú modulokkal én is megégettem már magam egykétszer. Tulajdonképpen a Googlebot is egy harvester. Ha mindenáron kell ez a modul, akkor egy másik oldalon próbáld ki, hogy tényleg működik-e a whitelist-re tétel 100% biztonsággal. A 20 lekérés meg nem tudom, milyen időintervallumra vonatkozik, de ha 1 percnél hosszabbra, akkor kevés lesz. Jah, és az IP szerinti whitelist-et felejtsd el, hacsak nem vagy hajlandó nagyon sokat kutatni a netet, akár blackhat fórumokat, egy majdnem teljes IP cím listáért.



  4. #14
    Szerkesztő berty logója
    Csatlakozott
    12-02-09
    Hely
    localhost@sweethome
    Hozzászólás
    205
    Begyűjtött 7 köszönetet
    5 hozzászólásával

    Alapbeállítás re: Google bot 404-et hív meg: mi a megoldás htaccess-el?

    Kikapcsoltam, majd a héten meglátom mennyire szedi össze magát az oldal. A log fájlokból a googlebot szóra lehet szűrni, biztos aki ügyes tud rá scriptet írni, hogy gyűtse ki belőle az IP-ket aztán mehet whitelistre. A 20 lekérés mintha 100 mp-re vonatkozott volna. Csak ezzel az a baj, hogy a gyökerek jönnek és ugyanúgy harvestelnek. A log fájlokban olyat is találtam, hogy a pharaszt bevágta valami mobiloldal készítőbe a site-om. Meg gugli publisherbe, az nem tudom mi, de valami hasonló. evvan


    Utoljára módosítva: berty által : 2012-12-17 02:43

  5. #15
    Szerkesztő berty logója
    Csatlakozott
    12-02-09
    Hely
    localhost@sweethome
    Hozzászólás
    205
    Begyűjtött 7 köszönetet
    5 hozzászólásával

    Alapbeállítás re: Google bot 404-et hív meg: mi a megoldás htaccess-el?

    Honnan tudható hogy egy adott IP cím "173.194.99.81" és ehhez hasonló a Google mint ISP tartományból való vagy a google bot maga, ha nem tudod a user agentet?
    Mert hogy a raw access logban nincs csak ez.
    Ugyanis ez és ehhez hasonló IP-k bombázzák az oldalam és a fb comment meg szórja az új commnetre figyelmeztető e-maileket de mp-ként.

    Na most valaki a fantasztikus gigabites google net előfizetéséről bombáz a crawlerével vagy a google bot ilyen szerencsétlen?

    Elvileg ez Google corporate proxy, nincs black listben sehol, IP Address: 173.194.99.81

    Floodol csak nem értem miért. Ha meg aktiválom az anti-flood-ot akkor meg majd kapom a büntit, hogy nem tudja az oldalaim elérni. Vicc.
    Reverse DNS -sel is megnéztem és nem írja hogy googlebot.com lenne, de Mountain View Cal. Google proxy IP.


    Utoljára módosítva: berty által : 2012-12-22 17:36

Oldal: 2 / 2 ElsőElső 12

Könyvjelzők

Hozzászólás szabályai

  • Új témákat nem hozhatsz létre
  • Válaszokat nem küldhetsz
  • Fájlokat nem csatolhatsz
  • A hozzászólásaidat nem módosíthatod
  •