Oldal: 1 / 2 12 UtolsóUtolsó
Eredmény: 1 - 10 (11) összesen

Téma: Copyscape klón készítése

  1. #1
    Bölcs Vittore1982 logója
    Csatlakozott
    10-06-07
    Hozzászólás
    2.284
    Begyűjtött 1.231 köszönetet
    835 hozzászólásával

    Alapbeállítás Copyscape klón készítése

    Rendszeresen használom a Copyscape.com oldalt, mert ez az egyik legmegbízhatóbb plágium ellenőrző. Tud arról valamelyikőtök, hogyan működnek ezek az ellenőrzők? Lehet-e ennyire hatékony elenőrzőt csinálni, mint a Copyscape, ha igen, mennyi munkaóra, erőforrás, pénz, stb. kellhet hozzá?


    angol szövegírás, PR cikkek, tartalommarketing magyarul és angol nyelven

  2. #2
    Rubyist Geri logója
    Csatlakozott
    07-12-15
    Hely
    \x90
    Hozzászólás
    5.607
    Begyűjtött 1.334 köszönetet
    829 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Idézet Vittore1982 eredeti hozzászólása Hozzászólás megtekintése
    Rendszeresen használom a Copyscape.com oldalt, mert ez az egyik legmegbízhatóbb plágium ellenőrző. Tud arról valamelyikőtök, hogyan működnek ezek az ellenőrzők? Lehet-e ennyire hatékony elenőrzőt csinálni, mint a Copyscape, ha igen, mennyi munkaóra, erőforrás, pénz, stb. kellhet hozzá?
    Ha rendesen akarod csinalni, akkor sok eroforras kell hozza, mert be kell indexelned az egesz internetet.



  3. #3
    Bölcs Vittore1982 logója
    Csatlakozott
    10-06-07
    Hozzászólás
    2.284
    Begyűjtött 1.231 köszönetet
    835 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Idézet Geri eredeti hozzászólása Hozzászólás megtekintése
    Ha rendesen akarod csinalni, akkor sok eroforras kell hozza, mert be kell indexelned az egesz internetet.
    Akkor ez nem a Google segítségével keres?



  4. #4
    búgócsiga Akka logója
    Csatlakozott
    10-05-06
    Hozzászólás
    3.819
    Begyűjtött 1.428 köszönetet
    731 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Idézet Vittore1982 eredeti hozzászólása Hozzászólás megtekintése
    Akkor ez nem a Google segítségével keres?
    Saját botjuk van, illetve a Google sem ad ki minden találatot.
    Nem beszéllek le róla, de hogy a számokat lásd:
    - 1M domain főoldala olyan 5 Giga helyet foglal el sima mysql adatbázisban (nem elég csak a text-et letárolni, hanem kell hozzá minden más is (belső linkek, meták, stb.)
    - Kb. 800M élő weboldal van most. Ez így 4TB adat, ami még nem is vészes. Persze a domainlistát senki nem fogja neked odaadni, mert ez értékesebb az aranynál is. Sajátot kell építeni, mert amiket meg tudsz venni a neten, azok csak kis szeletét fedik le a teljes listának.
    - Átlagosan 40 aloldal van egy weboldalon (ez saját stat), így máris 160 TB adatnál vagyunk (ebben keresni gyorsan már nem egyszerű téma).
    - Ha versenyképes akarsz lenni, akkor úgy havi egyszer végig illik menni a teljes weben, hogy naprakész legyél (sok szerver, sok proxyval, mert ekkora sebességnél gyorsan feketelistázódik bármennyi IP).
    - Csak a .com domainből születik naponta 100E új weboldal, és hasonló mennyiségű meg is szűnik, ezeket le kell követni.
    - Csillió kopipészt blog, webshop jön létre az ingyenes rendszereken, ezt is meg kell mind találni.
    Persze lehet butítani a rendszert nyelv szerint, tld szerint és más szempontok alapján, de úgy gondolom, komplett csapat kell komoly tőkével már eleve csak ahhoz is, hogy használható adattal lehessen elindulni.
    - De amúgy ez a matek egy rendkívül butított példa, sok minden nem is szerepel benne. (A Google adatbázisában 130 trillió URL van)

    Olyan havi 3-5M Ft-ra lehet belőni a szerver költséget, ehhez kell aztán szoftvert írni, kell rendszergazda csapat, illetve ugye egy tonna pénz, mert nnyira zajos ma már a net, hogy marketing nélkül semmire nem lehet jutni, bármennyire szuper is egy termék.


    Utoljára módosítva: Akka által : 2017-02-03 00:13

  5. #5
    Rubyist Geri logója
    Csatlakozott
    07-12-15
    Hely
    \x90
    Hozzászólás
    5.607
    Begyűjtött 1.334 köszönetet
    829 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Idézet Vittore1982 eredeti hozzászólása Hozzászólás megtekintése
    Akkor ez nem a Google segítségével keres?
    Nem tudom hogy a copyscape mivel keres, de a google api-n amikor utoljara neztem eleg alacsony volt a limit. A copyscape mondjuk van mar olyan tokeeros hogy siman lehet sajat indexuk.


    If debugging is the process of removing software bugs, then programming must be the process of putting them in.
    Github Rake tutorial
    Give a man a fish and you feed him for a day. Teach a man to fish and you feed him for a lifetime.
    Respect all, fear none

  6. #6
    Rubyist Geri logója
    Csatlakozott
    07-12-15
    Hely
    \x90
    Hozzászólás
    5.607
    Begyűjtött 1.334 köszönetet
    829 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Idézet Akka eredeti hozzászólása Hozzászólás megtekintése
    Olyan havi 3-5M Ft-ra lehet belőni a szerver költséget
    Ha PHP-val akarod ezt is megoldani akkor biztosan



  7. #7
    búgócsiga Akka logója
    Csatlakozott
    10-05-06
    Hozzászólás
    3.819
    Begyűjtött 1.428 köszönetet
    731 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Idézet Geri eredeti hozzászólása Hozzászólás megtekintése
    Ha PHP-val akarod ezt is megoldani akkor biztosan
    Yep.
    Saját statok, adatbázisok és fapados megoldások alapján írtam. Biztos lehet ezt optimalizálni, pythonozni (vagy mást használni), skálázni, stb. De attól még nem lesz nagyságrendekkel kevesebb a pénz, mert az adatbázis egy idő után brutális méretűre duzzad.
    Nézz meg egy MOZ-t, Mjestic-et, vagy Ahrefs-et. Hiába van mögöttük tőke, és hiába "csak" a linkeket figyelik, a Google adatbázisának kb 10%-át ha elérik együttesen (ezért sem tartom reprezentatívnak egyik linkellenőrző értékeit sem a Googlehez képest, a DA/PA egyenesen vicces).
    Mindegy, hogy mivel mész neki egy ilyen projinak, sok pénz kell hozzá.


    Utoljára módosítva: Akka által : 2017-02-03 00:24

  8. #8
    Bölcs earnnet logója
    Csatlakozott
    12-08-15
    Hely
    Budapest
    Hozzászólás
    1.536
    Begyűjtött 691 köszönetet
    489 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Olyan havi 3-5M Ft-ra lehet belőni a szerver költséget, ehhez kell aztán szoftvert írni, kell rendszergazda csapat, illetve ugye egy tonna pénz, mert nnyira zajos ma már a net, hogy marketing nélkül semmire nem lehet jutni, bármennyire szuper is egy termék.
    Én 1-1.5 millióra becsültem, de attól függ, hogy mennyire sűrűn akarsz frissíteni az adatokon. A szoftver kérdését félretesszük egy pillanatra (mivel már kész van, lásd: aláírásom), a plágiumellenőrzésre (szövegrész-egyezés) meg tuti van open source felhasználható program. Rendszergazda csapat nem kell. Ez egy/max két emberes projekt.

    Viszont! Ha csak a magyar internetben gondolkodnánk, akkor ennek a töredékéért meg lehet csinálni.

    Btw: Adott az összes adat, innentől keresőt is lehet rá írni. Az oldalakat rangsoroló mutatót elkészíteni szintén nem nehéz. Egy PageRank-féle mutatót kitalálni gyakorlatilag képletbehelyettesítés. Ha bonyolultabb mutató kell, akkor a SEO-s kollegák megmondják majd, hogy mit milyen súlyozással számítson.


    Utoljára módosítva: earnnet által : 2017-02-03 10:14

  9. #9
    búgócsiga Akka logója
    Csatlakozott
    10-05-06
    Hozzászólás
    3.819
    Begyűjtött 1.428 köszönetet
    731 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Idézet earnnet eredeti hozzászólása Hozzászólás megtekintése
    Én 1-1.5 millióra becsültem, de attól függ, hogy mennyire sűrűn akarsz frissíteni az adatokon.
    Ha versenyképes akarsz lenni, csak a friss adat az értékes adat, 3-4 hónapos dolgokkal tényleg körberöhögnek.

    Idézet earnnet eredeti hozzászólása Hozzászólás megtekintése
    A szoftver kérdését félretesszük egy pillanatra (mivel már kész van, lásd: aláírásom), a plágiumellenőrzésre (szövegrész-egyezés) meg tuti van open source felhasználható program. Rendszergazda csapat nem kell. Ez egy/max két emberes projekt.
    Nem a szoftver a szűk keresztmetszet, hanem a futatása és a benne való keresés. Ha nekimész egy webshopnak, és mp-enként nyitogatod meg az oldalait lementeni, hamar blokkolják az IP-t, erre is figyelni kell. Ahogy arra is, hogy ne ddos-olj le véletlenül se senkit, mert rossz/gyenge szerveren van.

    De ha igazán jó akarsz lenni, akkor keresésnél nem csak az egzakt egyezést kell kiadni, hanem a szócserét is:
    "megy a kutya a boltba"
    "a kutya megy a boltba"
    ez ugyanúgy "lopás". Ezt kiadni sok terabájtnyi adatból egy pillanat alatt a látogatónak, hogy aztán be is regisztráljon, és fizessen is érte, nem egyszerű.
    Egy példa: van olyan adatbázisom, ami 300Giga, ami önmagában nem sok, de amikor mentés után vissza akarom importálni, akkor 2-3 napig fut a művelet, mert sok millió soror, tele indexekkel. És ez csak 300G, ami tényleg nem sok. Itt meg legalább 10-szeres léptékek lesznek, ezt is bele kell tervezni, hogy "mi van, ha valami elszáll?".

    Idézet earnnet eredeti hozzászólása Hozzászólás megtekintése
    Viszont! Ha csak a magyar internetben gondolkodnánk, akkor ennek a töredékéért meg lehet csinálni.
    A magyar piac nagyon kicsi, és ezt üzletileg értem. Csak magyar piacra nem érdemes tervezni.

    Idézet earnnet eredeti hozzászólása Hozzászólás megtekintése
    Btw: Adott az összes adat, innentől keresőt is lehet rá írni.
    Itt nem sima keresőt kell írni, hanem villámgyors keresőt.

    Idézet earnnet eredeti hozzászólása Hozzászólás megtekintése
    Az oldalakat rangsoroló mutatót elkészíteni szintén nem nehéz. Egy PageRank-féle mutatót kitalálni gyakorlatilag képletbehelyettesítés. Ha bonyolultabb mutató kell, akkor a SEO-s kollegák megmondják majd, hogy mit milyen súlyozással számítson.
    Mutatót a rangsoroláshoz kitalálni akkor van értelme, ha sok adatod van (itt jön szembe a linkháttér, és a Moz Ahrefs példája). Anélkül komolytalan lesz a rangsor.
    Ha külső API-kat használsz (Similarweb, és a többi) az megint pénzbe kerül.

    Ez akkor 1-2 emberes projekt, ha az 1-2 embernek nincs más munkája, és van pénze előre 3-4 hónapra megélni.

    Ha átnézel naponta 5M domaint az induláshoz (ez kb 200M oldal), akkor másfél hónap, mire lesz egy komolyabb adatbázisod, közben született újabb X millió oldal, ahol a tartalomlopás esélye nagyobb (sokan kopipésztelnek induló tartalmat magukhoz, mert az hamar megvan).

    Nincs ilyen projektem, viszont lassan 3. éve csinálok hasonlókat aktívan és sokmindenbe futottam bele.


    Utoljára módosítva: Akka által : 2017-02-03 11:08

  10. #10
    Bölcs earnnet logója
    Csatlakozott
    12-08-15
    Hely
    Budapest
    Hozzászólás
    1.536
    Begyűjtött 691 köszönetet
    489 hozzászólásával

    Alapbeállítás re: Copyscape klón készítése

    Ha nekimész egy webshopnak, és mp-enként nyitogatod meg az oldalait lementeni, hamar blokkolják az IP-t, erre is figyelni kell.
    Az IP nem gond, többszáz szerverről beszélek külön-külön IP-vel. Az, hogy egyszerre húzol le egy weblap teljes tartalmát az összes aloldallal együtt, az meg elhatározás kérdése. A felderített linkeket berakod a poolba, ahonnan random válasz egyet valamelyik feltérképező kliens. Valahogy így

    Itt nem sima keresőt kell írni, hanem villámgyors keresőt.
    Így van, ez egy elég nagy és nehéz feladat, implikál magasszintű adatbázis-ismereteket.

    De ha igazán jó akarsz lenni, akkor keresésnél nem csak az egzakt egyezést kell kiadni, hanem a szócserét is:
    "megy a kutya a boltba"
    "a kutya megy a boltba"
    Igen. Vagy arra építed a marketinged, hogy te egzakt egyezésre (is) keresel, a google meg nem. Természetesen a végletekig lehet finomítani, ahogy a nagy keresőknek a mai napig sem kiforrott az algoritmusa. Lehet bevinni supervised learning-et, ha sokan kattintanak az 5. találatra, 4. lesz belőle, stb. Millióegy ötlet és kihívás. És tényleg brutál nehéz, de élvezetes feladat.

    Mutatót a rangsoroláshoz kitalálni akkor van értelme, ha sok adatod van
    Nagyon sok értékes információt ki lehet szedni az oldalakból, szerintem egész jól meg tudnánk közelíteni a mozrank szintjét pl. Azt nem szabad elfelejteni, hogy logikusan a neves oldalaknál nagyobb a valószínűsége hogy feltérképezésre kerülnek, tehát az adathalmaz még hiányzó része microblogokból fog állni, amelyre nagyon kevés vagy nulla link mutat. Emiatt nem kell aggódni, hogy nem teljes adathalmaz esetén kevésbé precíz a mutató, mert annak pontatlansága a feltérképezés során logaritmikusan csökken.

    Egy példa: van olyan adatbázisom, ami 300Giga, ami önmagában nem sok, de amikor mentés után vissza akarom importálni, akkor 2-3 napig fut a művelet, mert sok millió soror, tele indexekkel. És ez csak 300G, ami tényleg nem sok. Itt meg legalább 10-szeres léptékek lesznek, ezt is bele kell tervezni, hogy "mi van, ha valami elszáll?".
    Ha még mindig mysqlről van szó, nem ajánlom. Én úgy képzelem el, hogy egy nosql adatbázisba kerülnek a bot által begyűjtött adatok, és onnan egy külön program dolgozza fel őket egy strapabíróbb relációs adatbázisba (postgres). Ha valami elszáll, akkor az adatbázisnaplóból helyreállítható, többféle naplózási/visszaállítási módszer van, ezeket külön befolyásolni is lehet a program igényei szerint.


    Utoljára módosítva: earnnet által : 2017-02-03 11:40

Oldal: 1 / 2 12 UtolsóUtolsó

Könyvjelzők

Hozzászólás szabályai

  • Új témákat nem hozhatsz létre
  • Válaszokat nem küldhetsz
  • Fájlokat nem csatolhatsz
  • A hozzászólásaidat nem módosíthatod
  •