Tema: Re: klausimelis programeriams apie teksto panasumus
Autorius: ejs
Data: 2018-07-23 17:04:22
2018-07-23 16:36, fenix rašė:
> 2018.07.23 15:40, ejs rašė:
>> 2018-07-23 15:31, fenix rašė:
>>
>>> Anglu kalba koki nors fuzzy search, stemminga panaudojus gal kazka
>>> islauzciau, bet LT net neisivaizduoju nuo ko pradet :(((
>>
>> taigi čia elementarus N-mačio .. nors ne, M-mačio klasterizavimo norimu
>> spinduliu uždavinys.
>>
> 
> ar tai tas apie ka kalbi?
> https://stackoverflow.com/questions/41312594/scalable-way-to-search-for-similar-strings-in-a-database#
> 
> is esmes man beveik tiktu, tik reiktu pagalvot, kaip apdorot LT tekstus,
> gal susveplint? ir... dar tokia smulkmenele, kaip reaguotu i keliu simtu
> ar tukstanciu zodziu ilgio stringus? ar netruktu tas procesas
> savaitem?... :)

Tau reikia ne panašių eilučių, o semantiškai panašių tekstų. Tai gali 
padaryti tik klasterizavimas.