In <Pine.LNX.3.96.990208210347.30938A-100000@cec.vstu.vinnica.ua> Dmitri V.
Ivashina (demon@vstu.vinnica.ua) wrote:
DI> Подскажите , как Apache настроить, чтобы wget не могли скачать мои HTML
Дам ответ в лучших традициях USSR (который продавал оружие обоим воюющим
сторонам :)
Wget о себе говорит в "User-Agent", что он "Wget/1.5.3" (ну или какая уж там
версия). На этом основании его можно отловить и послать "на север" (через
mod_rewrite или кому как нравится).
Теперь совет для другой стороны: у wget'а есть (уже весьма давно) полезный
ключик -U -- указать "User-Agent" принудительно. Соответствено нужно
пользовать либо
wget -U "Mozilla/4.5 [en] (Win98; I)" ...
либо вписать это файл стандартных настроек wget'а. При этом, правда, Russian
Apache выдаст вам все в кодировке windows-1251, но тут уж ничего не поделаешь
(можно говорить и "Mozilla/4.5 [en] (X11; I; Linux 2.2.2 i686)" или
"Mozilla/4.5 [en] (X11; I; SunOS 5.5.1 sun4u)" или даже
"Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)" притворяясь Netscape'ом
для Linux'а, SunOS'а или MS IE 4.01 для Windows 98 соответственно -- это уж
смотря по тому, кого пускают :-))
Можно еще опираться на то, что Netscape всегда посылает кривой "Accept-charset"
"iso-8859-1,*,utf-8", а MS IE дополнительно посылает разную информацию о
системе, но это тоже легко исправляется в wget'е (благо исходники доступны).
Далее можно учитывать скорость, с которой человек может щелкать по сслыкам,
а wget придется править на тему не слишком активного скачивания и вообще
более "правдоподобных" действий. Следующий этап, видимо, проверка OS с помощью
методов queso (что, правда, уже отсечет часть посетителей -- тех, что ходят
через proxy да и вообще всех использующих не Winblows), что уже лечится
сложнее (придется править ядро), но лечится если приспичит...
Ну в общем "на войне, как на войне". Обычная такая "гонка вооружений".
Web-site'ы, которые отсекают Wget по User-Agent я уже видел и скачивать с них
wget'ом я тоже научился. Дельнейшие шаги -- пока теория, но, думаю, со
временем ее реализуют на практике.
P.S. Web-site, на которые нельзя зайти потому что какие-то кретины поставили
firewall с отфильтровыванием всех icmp-пакетов (если кто-нибудь не понимает
почему этого делать нельзя -- почитайте на досуге описание TCP/IP :-) я уже
видел. Посмотрим к чему приведет эта война...
=============================================================================
= Apache-Talk@lists.lexa.ru mailing list =
Mail "unsubscribe apache-talk" to majordomo@lists.lexa.ru if you want to quit.
= Archive avaliable at http://www.lexa.ru/apache-talk =