Teisingai, mano word 2007 irgi atpažino tik utf-8, kitas dvi - kaip kinišką ir japonišką koduotes. Aiškiai, mano prielaida dėl koduotės nuspėjimo analizuojant tekstą yra neteisinga. 2011.09.16 10:56, Laimis rašė: > RaR rašė: >> Beje, kiek suprantu, Microsoft produktai analizuoja tekstą ir patys >> parenka koduotę. Čia remiuosi Word savybe paprastai pasiūlyti teisingą > > Nemanau, kad analizuoja. Tokia analizė yra labai netrivialus reikalas. > Ne tiek resursų prasme, kiek netiksli ir tuo pasiremti yra vargiai > tikslinga (nebent tavęs neerzina, kaip dažnai word'as nusprendžia už > tave, ką tu nori padaryti su formatavimu, sąrašais, stiliais...). > Atspėti koduotę iš teksto, kai kalbų yra tiek daug ir dar daugiau > įvairių koduočių yra tikrai netrivialu. > >> skaitymo koduotę, jei neaišku kokia parašytas grynas tekstas. Negi tas >> algoritmas toks sudėtingas ar kaip nors teisiškai negalimas, kad jo >> negalima įdėti į atvirojo kodo produktus? > > Apie kokį tekstą, kokiuose failuose kalbama? Apie paprastus txt failus? > Word'as nemoka (teisingai) parinkti koduotės, jei ji kaip nors > nenurodyta... > Prikabinu tris failus: failas1.txt — windows-1257, failas2.txt — > iso-8859-4 (archajiška Baltic koduotė), failas3.txt — utf-8. Kaip > elgiasi taviškis word'as? Maniškis (off2k3), tai grybauja siūlydamas > kinietiškas/japoniška koduotes ir tik utf-8 failą parodo korektiškai, > nes jis pradžioje turi utf-8 žymą (BOM — Byte Order Mark), pagal kurią > galima parinkti koduotę. Jei ir taviškis word'as grybauja, tai ko > tikiesi iš kitų (pašto) programų; juk šių failų atvejis yra visiškai > tapatus laiškams su nenurodytomis koduotėmis...