Oldal: 1 / 3 123 UtolsóUtolsó
Eredmény: 1 - 10 (25) összesen

Téma: Weboldal adatbázisba mentése

  1. #1
    Szerkesztő
    Csatlakozott
    11-06-06
    Hozzászólás
    240
    Begyűjtött 24 köszönetet
    16 hozzászólásával

    Alapbeállítás Weboldal adatbázisba mentése

    Kicsit jogi is a kérdés és etikai is, ráadásul technikai, azért nyitottam ide
    Van egy partner, aki a weboldalán közli az új termékeket és a termékek lehetséges tulajdonságait (pl. ddr2 ram: 1gb, 2gb). A tulajdonság egy legördülő menüből választható ki.
    Megnéztem az oldal forrását és onnan az adatok kinyerhetők. Léteznek is erre programok: data mining, scraping szavakra keresve. Nem ismeretlen technika ez.
    A kérdésem több oldalról közelíti a problémát:
    1. Van e jogom hozzá, hogy az adatokat ilymódon leszedjem valaki oldaláról? Voltaképp ugyanazt teszem, mintha egyenként végigkattintanám és kiírnám, ehelyett ráuszítok egy robotot.
    2. Erkölcsileg mi a véleményetek róla? Próbáltam az adatokat elkérni valamilyen emészthető formátumban, de mindig visszapattanok azzal, hogy "ott van a weboldalon". Megmondom őszintén, hogy nekem elég, ha erkölcsileg megkérdőjelezhető a tett, akkor inkább nem tenném. De nem tudom mennyire gázos ügy leszedni tartalmat adatbázisnak. Végülis az adatbázisom így is-úgy is előáll, csak így könnyebben...
    3. Ez már színtiszta technika Ha az első két ponton átmegyek, akkor mivel lehet megvalósítani az adat kinyerést? Próbáltam egy-két scraper programot, de gyík vagyok hozzá. Létezik olyan, ami kifejezetten ezt tudja produkálni?
    Végigmegy linkeken és bizonyos ismérvek alapján (nem tudom hogy fogalmazzam meg ezeket egyelőre) a talált adatokat kipakolja pl. egy excel fájlba.



  2. #2
    Rubyist Geri logója
    Csatlakozott
    07-12-15
    Hely
    \x90
    Hozzászólás
    5.750
    Begyűjtött 1.433 köszönetet
    895 hozzászólásával

    Alapbeállítás re: Weboldal adatbázisba mentése

    Idézet Lopez eredeti hozzászólása Hozzászólás megtekintése
    Kicsit jogi is a kérdés és etikai is, ráadásul technikai, azért nyitottam ide
    Van egy partner, aki a weboldalán közli az új termékeket és a termékek lehetséges tulajdonságait (pl. ddr2 ram: 1gb, 2gb). A tulajdonság egy legördülő menüből választható ki.
    Megnéztem az oldal forrását és onnan az adatok kinyerhetők. Léteznek is erre programok: data mining, scraping szavakra keresve. Nem ismeretlen technika ez.
    A kérdésem több oldalról közelíti a problémát:
    1. Van e jogom hozzá, hogy az adatokat ilymódon leszedjem valaki oldaláról? Voltaképp ugyanazt teszem, mintha egyenként végigkattintanám és kiírnám, ehelyett ráuszítok egy robotot.
    2. Erkölcsileg mi a véleményetek róla? Próbáltam az adatokat elkérni valamilyen emészthető formátumban, de mindig visszapattanok azzal, hogy "ott van a weboldalon". Megmondom őszintén, hogy nekem elég, ha erkölcsileg megkérdőjelezhető a tett, akkor inkább nem tenném. De nem tudom mennyire gázos ügy leszedni tartalmat adatbázisnak. Végülis az adatbázisom így is-úgy is előáll, csak így könnyebben...
    3. Ez már színtiszta technika Ha az első két ponton átmegyek, akkor mivel lehet megvalósítani az adat kinyerést? Próbáltam egy-két scraper programot, de gyík vagyok hozzá. Létezik olyan, ami kifejezetten ezt tudja produkálni?
    Végigmegy linkeken és bizonyos ismérvek alapján (nem tudom hogy fogalmazzam meg ezeket egyelőre) a talált adatokat kipakolja pl. egy excel fájlba.
    1 es 2 ha jol ertem, akkor nem kerdes mert neked ez egy partnered, igy kerheted a beleegyezeset.

    3,
    regular expression-okkel szepen fel lehet dolgozni az adatokat. hogy van e ehhez valamilyen program, azt nem tudom.


    If debugging is the process of removing software bugs, then programming must be the process of putting them in.
    Ruby blog
    Give a man a fish and you feed him for a day. Teach a man to fish and you feed him for a lifetime.
    Respect all, fear none

  3. #3
    MinderBinder edem logója
    Csatlakozott
    09-09-02
    Hely
    Budapest
    Hozzászólás
    1.093
    Thanked 1 Time in 1 Post

    Alapbeállítás re: Weboldal adatbázisba mentése

    Amiről beszélsz, az adatbányászat. Amennyire én tudom, nem törvénytelen. Amíg nem olyan információhoz akarsz hozzáférni, amit amúgy nem láthatnál (nem publikus), addig nem gond, a saját munkádat rövidíted le. Viszont, ha privát információt bányászol így ki, az már adathalászat. Az törvényileg és erkölcsileg is megkérdőjelezhető. Szerintem ez a lényeg.

    Ami a html értelmezését illeti reguláris kifejezések alapján, érdemes elolvasni ezt a kommentet (a 4437 szavazatosat)

    http://stackoverflow.com/questions/1...contained-tags

    Röviden: HTML-t nem lehet regex-el parse-olni.


    // Only illogics can find
    // hidden flaws in a straight logic line

  4. #4
    Rubyist Geri logója
    Csatlakozott
    07-12-15
    Hely
    \x90
    Hozzászólás
    5.750
    Begyűjtött 1.433 köszönetet
    895 hozzászólásával

    Alapbeállítás re: Weboldal adatbázisba mentése

    Idézet edem eredeti hozzászólása Hozzászólás megtekintése
    Röviden: HTML-t nem lehet regex-el parse-olni.
    ha nem ismered elegge a regular expression-onket, akkor valoban nem



  5. #5
    MinderBinder edem logója
    Csatlakozott
    09-09-02
    Hely
    Budapest
    Hozzászólás
    1.093
    Thanked 1 Time in 1 Post

    Alapbeállítás re: Weboldal adatbázisba mentése

    Idézet Geri eredeti hozzászólása Hozzászólás megtekintése
    ha nem ismered elegge a regular expression-onket, akkor valoban nem
    Erről nem nyitok vitát. TÉNY, hogy nem lehet regexp-el html-t parse-olni abból az egyszerű tényból kifolyólag, amit a linkben található válaszok között is megtalálsz, idézem:

    I think the flaw here is that HTML is a Chomsky Type 2 grammar (context free grammar) and RegEx is a Chomsky Type 3 grammar (regular expression). Since a Type 2 grammar is fundamentally more complex than a Type 3 grammar - you can't possibly hope to make this work. But many will try, some will claim success and others will find the fault and totally mess you up.

    Egyébként meg ha csak 1-1 tag-et akarsz azonosítani, nem egy egész DOM fát értelmezni, akkor lehet használni regex-et, egyébként meg xml parser kell.




  6. #6
    Szerkesztő
    Csatlakozott
    11-06-06
    Hozzászólás
    240
    Begyűjtött 24 köszönetet
    16 hozzászólásával

    Alapbeállítás re: Weboldal adatbázisba mentése

    Nem nagyon értem miről beszéltek de a parser szóból úgylátom talán kiindulhatok. Köszi. Azért ha valakinek van valami konkrét tippje, hogy hogyan álljak neki, azt szívesen venném.



  7. #7
    MinderBinder edem logója
    Csatlakozott
    09-09-02
    Hely
    Budapest
    Hozzászólás
    1.093
    Thanked 1 Time in 1 Post

    Alapbeállítás re: Weboldal adatbázisba mentése

    Neked web scraper kell, itt elolvashatod miről van szó:

    http://en.wikipedia.org/wiki/Web_scraping



  8. #8
    Törzsvendég
    Csatlakozott
    09-11-15
    Hely
    Hajdú-Bihar, Magyarország
    Hozzászólás
    101
    Begyűjtött 0 köszönetet
    0 hozzászólásával

    Alapbeállítás re: Weboldal adatbázisba mentése

    Publikus adatokat szerintem simán összegyűjthetsz, 1 dolog szokott erkölcsbe és néhány helyen szabályba/törvénybe is ütközni, az pedig az, ha le kell terhelned ehhez a művelthez a szerverüket.

    Ha egy-két oldalról össze tudod szedni, ami kell neked, az nem gáz. Ha van 56000 termékük és minden termékről, egyesével, külön oldalról kell az adat, akkor már lehet gond, hogy az összes oldalt nagyon gyorsan akarod betölteni. Ha ez a helyzet, akkor direkt lassítsd a kódot valahogy, hogy ne dögöljön be alatta a webszerver.



  9. #9
    Szerkesztő
    Csatlakozott
    11-06-06
    Hozzászólás
    240
    Begyűjtött 24 köszönetet
    16 hozzászólásával

    Alapbeállítás re: Weboldal adatbázisba mentése

    Köszi a válaszokat. A web scraper-re már rákerestem, két programot le is töltöttem, de láma vagyok hozzá... Nem tudom, hogy hogyan tudom megmondani, hogy a forráskódból miket vegyen ki. Persze túl sokat nem játszottam vele. Van valami jó tutorial ehhez?
    A lassításos tippet köszi, ez jó ötlet. Kb. 1-200 oldal letöltés lenne, az talán annyira nem durva, de mivel nem érdekes, hogy 1 perc alatt végez a progi vagy 2 óra alatt, ezért inkább lassítanám, nehogy bajt okozzak.



  10. #10
    Új tag
    Csatlakozott
    10-07-18
    Hozzászólás
    24
    Begyűjtött 0 köszönetet
    0 hozzászólásával

    Alapbeállítás re: Weboldal adatbázisba mentése

    Én az ilyen helyzetekben a PHP tudásom szoktam összekapni és azzal oldom meg a problémát. Persze ha nem értesz ilyen programozási-nyelvekhez, úgy nehezebb. Az is nehezítheti a helyzetet, ha az oldal dinamikus olyan szempontból, hogy az oldalak, amiken a termékek vannak nem minden esetben passzolnak oldal-felépítésileg egymáshoz. Szóval a ramnál mondjuk van olyan, hogy órajel, de egy merevlemeznél nem valószínű, hogy feltüntetnek ilyen infót. (Csak azért mondom, mert van ahol direkt használnak ilyen "trükköket" a másolás ellen. Példaként a port(pont)hu-t tudom felhozni.) Ha viszont az oldalak felépítése megegyezik, mint mondjuk a blogbejegyzéseknél, akkor ez a fajta infógyűjtés kivitelezhető. Órás lassításra pedig nincs szükség.



Oldal: 1 / 3 123 UtolsóUtolsó

A téma címkéi:

Könyvjelzők

Hozzászólás szabályai

  • Új témákat nem hozhatsz létre
  • Válaszokat nem küldhetsz
  • Fájlokat nem csatolhatsz
  • A hozzászólásaidat nem módosíthatod
  •