>> >> Кстати, такая ситуация IMHO близка к случаю документа на нескольких
>> >> языках - сначала кусок на русском, потом на польском, потом на
>> >> турецком.
>>
>> Т.е. Апачу надо сказать, что это документ в UTF-8? А внутри-то как языки
>> разделять? Как в HTML 4.0 предписано?
>
>Зачем? Как предписано в utf-8. Его прелесть как раз в том, что ничего там
>разделять не надо, места в кодировке хватает всем.
Видите ли... Например символ 'CYRILLC CAPITAL LETTER A' который
U+0410, может встречаться в тексте на русском <P LANG="ru">,
украинском <P LANG="uk">, белорусском <P LANG="by"> и еще на
целом ряде языков. А обработка, поиск и т.д. может существенно
отличаться. И для HTML и для XML.
Собственно для этого в MS Word существует такой пункт меню :
Сервис --> Язык --> Выбрать язык . Без этого, например, проверка
орфографии не работает.
Да, я знаю что в UNICODE 3.0 запланированы UTF-16 Language Marks.
Но это пока глубокий Proposal.
P.S. Но вообще, нас куда-то в сторону от apache занесло...
--
-=AV=-
=============================================================================
= Apache-Talk@lists.lexa.ru mailing list =
Mail "unsubscribe apache-talk" to majordomo@lists.lexa.ru if you want to quit.
= Archive avaliable at http://www.lexa.ru/apache-talk =