Tema: Re: Ats.:Kur gauti ~5-10k LT common žodžių išrušiuotų pagal populiarumą?
Autorius: unce
Data: 2012-08-02 17:30:54
geriau nuripint newsus, bus šnekamoji kalba :)
"rembo" <rembo@dziungles.ku> wrote in message
news:jvdbl0$pvi$1@trimpas.omnitel.net...
> nu tada lieka pačiam darytis ko gero. Turint kelioliką skaitmeninių knygų,
> žurnalistinių straipsnių (hehe nuripinti delfi kokį), žurnalų ir kitokių
> tekstų juos splitini į atskirus žodžius. Po to žodžius sugrūdi į kokią DB
> ir selectini count(*) grupuojant, nu arba savo algoritmu kažkokiu
> skaičiuoji pvz su galūnių atmetimais, kad traktuotų kaip 1'ą tą patį žodį
> nors galūnės skiriasi.
> Kuo daugiau teksto ir iš įvairesnių šaltinių, tuo geresnis rezultatas.
> Šiaip visai idomus uždavinukas gaunasi.
>
>
>
> "Vytook's" <DELETEvytautas59@inbox.lt> wrote in message
> news:jvda99$oa5$1@trimpas.omnitel.net...
>> Nu arba gali buti kox nors jų reitingas, tada galima pačiam išrušiuoti.
>> Kaip suprantu, nuo kalbos tas reitingas nepriklauso.
>> KGB darbuotojai turėdavo tokius žodynus 1000 pop žodžių, kurie buvo
>> išrušiuoti būtent pagal populiarumą, ir tiesiog kaldavo juos nuo viršaus.
>> Pasirodo tie 1k žodžių sudaro net 80% mūsų šnekamosios kalbos.
>>
>>> ai pražiopsojau, kad pagal populiarumą reikia :) Ten pagal abėcėlę
>>> surūšiuota.
>>
>>>> atsisiusk:
>>>> https://launchpad.net/ispell-lt/main/1.2.1/+download/ispell-lt-1.2.1.tar.gz
>>>>
>>>> ten bus viduje sąrašiukai :
>>>> lietuviu.ivairus
>>>> lietuviu.ivpk
>>>> lietuviu.jargon
>>>> lietuviu.vardai
>>>> lietuviu.veiksmazodziai
>>>> lietuviu.zodziai
>>
>>>>>O jeigu dar su visais linksniais, tai būtų visai gerai
>>
>