Apache-Talk mailing list archive (apache-talk@lists.lexa.ru)
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: [apache-talk] =?KOI8-R?Q?=F0=CF=C4=D3=DE=A3=D4_=D5=CE=C9=CB?==?KOI8-R?Q?=C1=CC=D8=CE=D9=C8_=D0=CF=D3=C5=D4=C9=D4=C5=CC=C5=CA_=D3=C1=CA?==?KOI8-R?Q?=D4=C1_=D0=CF_=CB=D5=CB=C1=CD?= (mod_uid)
On Tue, 21 Jan 2003 18:15:03 +0300
Alex Tutubalin <lexa@lexa.ru> wrote:
> > Пытаюсь посчитать количество уникальных посетителей сайта за прошедший
> > день, записи mod_uid в логе идут последними полями. Считаю вот так:
> >
> > $ cat 2003.01.20.log | perl -pi -e 's#^.*uid=([0-9A-F]{32})" "-"$#$1#' |
>sort -u | uniq -u | wc -l
> > 5294
> >
> > Цифра, выданная выше - сказка, ибо Спайлог вчера показал 1808, а HotLog -
> > 1529. Вопрос - где я лопухнулся и что неправильно в консерватории?
>
>
> Всякие роботы и подобные предметы, которые куки не принимают (точнее,
> не отдают) на каждый запрос будут получать новую куку.
угу, это понятно.
> Т.е. если считать только куки _полученные_ от пользователя (uid_got),
> то цифра получается совместимой со счетчиками (чуть выше по понятным
> причинам). При этом на каждой странице придется иметь обязательную
> картинку, отдаваемую с того же сервера - чтобы посчитать клиентов,
> которые пришли на одну страницу впервые и больше никуда не ходили
так и делал. Только ошибка вкралась в regex, и каждый хит с отданной кукой
старым регекспом не обрабатывался и считался потом как уникальный. Всем
пардон, ниже исправленная версия:
$ bzcat 2003.01.20.log.bz2 | perl -pi -e 's#^.*"(uid=[0-9A-F]{32}|-)"
"(?:-|uid=[0-9A-F]{32})"$#$1#' | fgrep -v '-' | sort -u | uniq -u | wc -l
1993
--
WBR, Andrey Brindeew.
"No one person can understand Perl culture completely"
(C) Larry Wall.
Attachment:
pgp00025.pgp
Description: PGP signature
|