Tema: Ats.:Ats.:Kur gauti ~5-10k LT common žodžių išrušiuotų pagal populiarumą?
Autorius: Vytooks
Data: 2012-08-02 11:10:03
Mano konkrečiai tixlas sukišti tuos žodžius į išmaniako virtualios klavos
suflerį. Ten reikia būtent tokio išrušiavimo pagal vartojimo dažni
> nu tada lieka pačiam darytis ko gero. Turint kelioliką skaitmeninių knygų,
> žurnalistinių straipsnių (hehe nuripinti delfi kokį), žurnalų ir kitokių
> tekstų juos splitini į atskirus žodžius. Po to žodžius sugrūdi į kokią DB
> ir selectini count(*) grupuojant, nu arba savo algoritmu kažkokiu
> skaičiuoji pvz su galūnių atmetimais, kad traktuotų kaip 1'ą tą patį žodį
> nors galūnės skiriasi.
> Kuo daugiau teksto ir iš įvairesnių šaltinių, tuo geresnis rezultatas.
> Šiaip visai idomus uždavinukas gaunasi.
>> Nu arba gali buti kox nors jų reitingas, tada galima pačiam išrušiuoti.
>> Kaip suprantu, nuo kalbos tas reitingas nepriklauso.
>> KGB darbuotojai turėdavo tokius žodynus 1000 pop žodžių, kurie buvo
>> išrušiuoti būtent pagal populiarumą, ir tiesiog kaldavo juos nuo viršaus.
>> Pasirodo tie 1k žodžių sudaro net 80% mūsų šnekamosios kalbos.
>>
>>> ai pražiopsojau, kad pagal populiarumą reikia :) Ten pagal abėcėlę
>>> surūšiuota.
>>
>>>> atsisiusk:
>>>> https://launchpad.net/ispell-lt/main/1.2.1/+download/ispell-lt-1.2.1.tar.gz
>>>>
>>>> ten bus viduje sąrašiukai :
>>>> lietuviu.ivairus
>>>> lietuviu.ivpk
>>>> lietuviu.jargon
>>>> lietuviu.vardai
>>>> lietuviu.veiksmazodziai
>>>> lietuviu.zodziai
>>
>>>>>O jeigu dar su visais linksniais, tai būtų visai gerai
>>
>