Tema: Ats.:Ats.:Kur gauti ~5-10k LT common žodžių išrušiuotų pagal populiarumą?
Autorius: Vytooks
Data: 2012-08-02 11:10:03
Mano konkrečiai tixlas sukišti tuos žodžius į išmaniako virtualios klavos 
suflerį. Ten reikia būtent tokio išrušiavimo pagal vartojimo dažni

> nu tada lieka pačiam darytis ko gero. Turint kelioliką skaitmeninių knygų, 
> žurnalistinių straipsnių (hehe nuripinti delfi kokį), žurnalų ir kitokių 
> tekstų juos splitini į atskirus žodžius. Po to žodžius sugrūdi į kokią DB 
> ir selectini count(*) grupuojant, nu arba savo algoritmu kažkokiu 
> skaičiuoji pvz su galūnių atmetimais, kad traktuotų kaip 1'ą tą patį žodį 
> nors galūnės skiriasi.
> Kuo daugiau teksto ir iš įvairesnių šaltinių, tuo geresnis rezultatas.
> Šiaip visai idomus uždavinukas gaunasi.

>> Nu arba gali buti kox nors jų reitingas, tada galima pačiam išrušiuoti.
>> Kaip suprantu, nuo kalbos tas reitingas nepriklauso.
>> KGB darbuotojai turėdavo tokius žodynus 1000 pop žodžių, kurie buvo 
>> išrušiuoti būtent pagal populiarumą, ir tiesiog kaldavo juos nuo viršaus. 
>> Pasirodo tie 1k žodžių sudaro net 80% mūsų šnekamosios kalbos.
>>
>>> ai pražiopsojau, kad pagal populiarumą reikia :) Ten pagal abėcėlę 
>>> surūšiuota.
>>
>>>> atsisiusk:
>>>> https://launchpad.net/ispell-lt/main/1.2.1/+download/ispell-lt-1.2.1.tar.gz
>>>>
>>>> ten bus viduje sąrašiukai :
>>>> lietuviu.ivairus
>>>> lietuviu.ivpk
>>>> lietuviu.jargon
>>>> lietuviu.vardai
>>>> lietuviu.veiksmazodziai
>>>> lietuviu.zodziai
>>
>>>>>O jeigu dar su visais linksniais, tai būtų visai gerai
>>
>