ПРОЕКТЫ 


  АРХИВ 


Apache-Talk @lexa.ru 

Inet-Admins @info.east.ru 

Filmscanners @halftone.co.uk 

Security-alerts @yandex-team.ru 

nginx-ru @sysoev.ru 

  СТАТЬИ 


  ПЕРСОНАЛЬНОЕ 


  ПРОГРАММЫ 



ПИШИТЕ
ПИСЬМА














     АРХИВ :: Apache-Talk
Apache-Talk mailing list archive (apache-talk@lists.lexa.ru)

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [apache-talk] meta charset problems



> 
>  alr> У меня есть патч к этому handler-у, который меняет таблицу перекодировки
>  alr> в зависимости от charset, найденого в META, причем, если такой таблицы
>  alr> нет (например: iso8859-1 в koi8-r), то оставляет META как есть.
> А что пpоисходит с <title>, котоpый обычно выше <meta> ?
Я писал об ограниченности моего изменения, но эта же проблема возникнет и 
браузеров, они тоже не определят charset.

Но все не так плохо, я просмотрел все html файлы которые содержат HTTP-EQUIV у
своих 800 пользователей, в том числе их NN cache - это порядка 7000 шт. И нашел
что почти все GENERATOR-ы: "Mozilla/4", "Microsoft Word 97", "Microsoft
FrontPage", "Internet Assistant for Microsoft Word 2.04z", "SGML-Tools" и
другие соблюдают порядок: сперва charset, потом <title>. Я заметил проблему
только у Mozilla/3.xxGold и LaTeX2HTML.

Но как писалось ранее, можно пропарсить N строк и определить charset заранее до
его выдачи, тем более что делается на 10 строк кода ранее, чем вырезание META.

На мой взгляд, это вполне разумная и давно назревшая фича, вот по каким
соображениям: 
1. 99% html файлов будут содержать этот таг в <HEAD>.

2. 90% html файлов будут содержать в этом таге ПРАВИЛЬНЫЙ!!! charset, в отличии
от метода описания в конфиг файлах когда число авторов на одном сервере, ничего
не знающих об желании webmaster-a держать все файлы в одной кодировке, будет
расти. В общем случаи эта вероятность для метода описания в конфиг файлах будет
стремится к 50% - угадал или не угадал. Кстати, метод по расширению  (.html -
koi8,  .htm - cp1251) уже почти не работает, уже и под Win делают расширениеe
.html

3. Заметных ресурсов процессора это не занимает, естественно, по сравнению с
обычным вырезанием или SSI, не говоря об динамических документах. Для тех кому
это критично, то они будут использовать другие способы.

Естественно остается проблема "только одного handler-а", тут не чего
не попишешь.

P.S. Все что описано выше - мой реальный опыт работы.
-- 

                      С наилучшими пожеланиями, Евгений Бырганов.
                      Best regards, Eugene Byrganov.

  mailto:E.B.Byrganov@inp.nsk.su
  work - http://www.inp.nsk.su/
=============================================================================
=               Apache-Talk@lists.lexa.ru mailing list                      =
Mail "unsubscribe apache-talk" to majordomo@lists.lexa.ru if you want to quit.
=       Archive avaliable at http://www.lexa.ru/apache-talk                 =



 




Copyright © Lexa Software, 1996-2009.