Tema: Re: Ats.:Kur gauti ~5-10k LT common žodžių išrušiuotų pagal populiarumą?
Autorius: unce
Data: 2012-08-02 17:30:54
geriau nuripint newsus, bus šnekamoji kalba :)

"rembo" <rembo@dziungles.ku> wrote in message 
news:jvdbl0$pvi$1@trimpas.omnitel.net...
> nu tada lieka pačiam darytis ko gero. Turint kelioliką skaitmeninių knygų, 
> žurnalistinių straipsnių (hehe nuripinti delfi kokį), žurnalų ir kitokių 
> tekstų juos splitini į atskirus žodžius. Po to žodžius sugrūdi į kokią DB 
> ir selectini count(*) grupuojant, nu arba savo algoritmu kažkokiu 
> skaičiuoji pvz su galūnių atmetimais, kad traktuotų kaip 1'ą tą patį žodį 
> nors galūnės skiriasi.
> Kuo daugiau teksto ir iš įvairesnių šaltinių, tuo geresnis rezultatas.
> Šiaip visai idomus uždavinukas gaunasi.
>
>
>
> "Vytook's" <DELETEvytautas59@inbox.lt> wrote in message 
> news:jvda99$oa5$1@trimpas.omnitel.net...
>> Nu arba gali buti kox nors jų reitingas, tada galima pačiam išrušiuoti.
>> Kaip suprantu, nuo kalbos tas reitingas nepriklauso.
>> KGB darbuotojai turėdavo tokius žodynus 1000 pop žodžių, kurie buvo 
>> išrušiuoti būtent pagal populiarumą, ir tiesiog kaldavo juos nuo viršaus. 
>> Pasirodo tie 1k žodžių sudaro net 80% mūsų šnekamosios kalbos.
>>
>>> ai pražiopsojau, kad pagal populiarumą reikia :) Ten pagal abėcėlę 
>>> surūšiuota.
>>
>>>> atsisiusk:
>>>> https://launchpad.net/ispell-lt/main/1.2.1/+download/ispell-lt-1.2.1.tar.gz
>>>>
>>>> ten bus viduje sąrašiukai :
>>>> lietuviu.ivairus
>>>> lietuviu.ivpk
>>>> lietuviu.jargon
>>>> lietuviu.vardai
>>>> lietuviu.veiksmazodziai
>>>> lietuviu.zodziai
>>
>>>>>O jeigu dar su visais linksniais, tai būtų visai gerai
>>
>