Tema: Re: Ats.:Kur gauti ~5-10k LT common žodžių išrušiuotų pagal populiarumą?
Autorius: rembo
Data: 2012-08-02 10:53:04
nu tada lieka pačiam darytis ko gero. Turint kelioliką skaitmeninių knygų, 
žurnalistinių straipsnių (hehe nuripinti delfi kokį), žurnalų ir kitokių 
tekstų juos splitini į atskirus žodžius. Po to žodžius sugrūdi į kokią DB ir 
selectini count(*) grupuojant, nu arba savo algoritmu kažkokiu skaičiuoji 
pvz su galūnių atmetimais, kad traktuotų kaip 1'ą tą patį žodį nors galūnės 
skiriasi.
Kuo daugiau teksto ir iš įvairesnių šaltinių, tuo geresnis rezultatas.
Šiaip visai idomus uždavinukas gaunasi.



"Vytook's" <DELETEvytautas59@inbox.lt> wrote in message 
news:jvda99$oa5$1@trimpas.omnitel.net...
> Nu arba gali buti kox nors jų reitingas, tada galima pačiam išrušiuoti.
> Kaip suprantu, nuo kalbos tas reitingas nepriklauso.
> KGB darbuotojai turėdavo tokius žodynus 1000 pop žodžių, kurie buvo 
> išrušiuoti būtent pagal populiarumą, ir tiesiog kaldavo juos nuo viršaus. 
> Pasirodo tie 1k žodžių sudaro net 80% mūsų šnekamosios kalbos.
>
>> ai pražiopsojau, kad pagal populiarumą reikia :) Ten pagal abėcėlę 
>> surūšiuota.
>
>>> atsisiusk:
>>> https://launchpad.net/ispell-lt/main/1.2.1/+download/ispell-lt-1.2.1.tar.gz
>>>
>>> ten bus viduje sąrašiukai :
>>> lietuviu.ivairus
>>> lietuviu.ivpk
>>> lietuviu.jargon
>>> lietuviu.vardai
>>> lietuviu.veiksmazodziai
>>> lietuviu.zodziai
>
>>>>O jeigu dar su visais linksniais, tai būtų visai gerai
>