15.10.2012 13:01 пользователь "Dmitry Y. Labutin" <dmitry@xxxxxxxxxxx> написал:
Доброго времени суток.
Frontend nginx стоит в Москве. Backend nginx стоит в Нижнем Новгороде.
Между ними по traceroute 10 хостов. На Frontend в error лог наблюдает вот такая картина.
2012/10/15 10:33:31 [error] 5438#0: *67542270 upstream timed out (110: Connection timed out) while connecting to upstream
2012/10/15 10:34:42 [error] 5436#0: *67548075 upstream timed out (110: Connection timed out) while connecting to upstream
2012/10/15 10:34:44 [error] 5437#0: *67544442 upstream timed out (110: Connection timed out) while connecting to upstream
2012/10/15 10:34:44 [error] 5436#0: *67548077 upstream timed out (110: Connection timed out) while connecting to upstream
2012/10/15 10:34:44 [error] 5437#0: *67548502 upstream timed out (110: Connection timed out) while connecting to upstream
2012/10/15 10:34:45 [error] 5437#0: *67546503 upstream timed out (110: Connection timed out) while connecting to upstream
2012/10/15 10:34:46 [error] 5437#0: *67546508 upstream timed out (110: Connection timed out) while connecting to upstream
По статистике (делаю срезы раз в 10 минут) имеем в зависимости от количества посещение от 1 до 20 подобных ошибок за 10 минут.
При этом активность - это порядка 30-50 запросов в секунду.
Возьмем среднее. 10 ошибок в 10 минут и 40 запросов в секунду.
Получаем примерно 0.04% проблемных ситуаций. Замечу, что статистика пингов между хостами ВСЕГДА показывала около 1.5% потерь (ping timeout), а сообщения в логах nginx на frontend появилась только в середине прошлой недели.
Может быть подскажите, в какую сторону копать?