Lev Walkin (lionet) wrote,
Lev Walkin
lionet

Categories:

Кто считает, что UCS-4 решает все проблемы

... с многобайтовыми кодировками, тот пусть попытается представить букву «д́» (с диакритикой) одним Unicode код-поинтом.

Я уже замучался говорить народу, что ничего нет лучше UTF-8. Для представления человекочитаемого символа что в UTF-16, что в UCS-4 ("UTF-32"), что в UTF-8 может потребоваться несколько комбинаций байт (8 и больше байт в UCS-4!). Это родовая болезнь Unicode, которая делает использование UTF-8 гораздо более правильным и привлекательным, чем все остальные кодировки.

Никогда с юникодом не будет $str[n]="A" правильно работать (заменять произвольный символ на «A») за гарантированную (не amortized) константу времени. Но все пытаются эти грабли непременно пошевелить.
Tags: unicode
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 137 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →