Tema: Re: Ats.:Kur gauti ~5-10k LT common žodžių išrušiuotų pagal populiarumą?
Autorius: rembo
Data: 2012-08-02 10:53:04
nu tada lieka pačiam darytis ko gero. Turint kelioliką skaitmeninių knygų,
žurnalistinių straipsnių (hehe nuripinti delfi kokį), žurnalų ir kitokių
tekstų juos splitini į atskirus žodžius. Po to žodžius sugrūdi į kokią DB ir
selectini count(*) grupuojant, nu arba savo algoritmu kažkokiu skaičiuoji
pvz su galūnių atmetimais, kad traktuotų kaip 1'ą tą patį žodį nors galūnės
skiriasi.
Kuo daugiau teksto ir iš įvairesnių šaltinių, tuo geresnis rezultatas.
Šiaip visai idomus uždavinukas gaunasi.
"Vytook's" <DELETEvytautas59@inbox.lt> wrote in message
news:jvda99$oa5$1@trimpas.omnitel.net...
> Nu arba gali buti kox nors jų reitingas, tada galima pačiam išrušiuoti.
> Kaip suprantu, nuo kalbos tas reitingas nepriklauso.
> KGB darbuotojai turėdavo tokius žodynus 1000 pop žodžių, kurie buvo
> išrušiuoti būtent pagal populiarumą, ir tiesiog kaldavo juos nuo viršaus.
> Pasirodo tie 1k žodžių sudaro net 80% mūsų šnekamosios kalbos.
>
>> ai pražiopsojau, kad pagal populiarumą reikia :) Ten pagal abėcėlę
>> surūšiuota.
>
>>> atsisiusk:
>>> https://launchpad.net/ispell-lt/main/1.2.1/+download/ispell-lt-1.2.1.tar.gz
>>>
>>> ten bus viduje sąrašiukai :
>>> lietuviu.ivairus
>>> lietuviu.ivpk
>>> lietuviu.jargon
>>> lietuviu.vardai
>>> lietuviu.veiksmazodziai
>>> lietuviu.zodziai
>
>>>>O jeigu dar su visais linksniais, tai būtų visai gerai
>