Tema: Re: Best practices - web scrapting
Autorius: Saras
Data: 2012-09-19 17:15:11
Javoj gali bandyti naudoti kazka panasaus i sita: 
http://htmlunit.sourceforge.net/


"Jornada Del Muerto"  wrote in message 
news:k3c3os$4er$1@trimpas.omnitel.net...

Sveiki,

    Si tema nn kartu diskutuota turbut, bet kazkaip nelabai reikejo, tai 
nenagrinejau daug, nors ir dabar grynai sportinis interesas, vienam zaidimui 
si ta padaryti, kalba apie diablo3 ir zaideju web profilius, tai noretusi 
padaryti softa, kuris galetu palyginti keliu profiliu heroju daiktus ir 
t.t.. ar aplamai harvestint itemus nuo zaideju, ta prasme issaugot kuo kas 
apsirenge, kaip pavizdi (pvz. gerai sukonstruotas herojus), nes siuo metu 
eina tik pasiziureti, o po to gali sugalvot subjektas perrengt pvz. prastais 
daiktais ta heroju.  Zodziu esme, kad tai ne blogam tikslui, pvz. vogt 
stevima turini.

    Domina kelios technologijos:

    1. PHP;
    2. C# (.NET);
    3. Java (konkreciau android).

    Konkreciau, geriausi budai kaip is gauto HTML isparsinti tai ko man 
reikia, kaip suprantu yra ivairiu libu, siuo atveju regexp'as nelabai gal 
padetu, nes traukt reiketu duomenis, kuriuos verst duomenu strukturom, o ne 
tiesiog iskast gabala teksto. Pvz. butu herojus, jis turetu n daiktu, vienas 
ju salmas, armoras, kelnes, pirstines, batai, ginklai ir t.t.. , kiekvienas 
is daiktu turi savybiu sarasa. Tai viska i atitinkama db struktura po to 
saugoti.

    Is esmes isivaizduoju kazkokia klase, kuri suparsina HTML ir pavercia 
herarciniu objektu rinkiniu, per kur po to browsini, ar ne taip darosi ?

JDM.