Hello достопочтенному собранию!
Позволю себе немножко вернуться в проблеме wget'а в частности
и вопросе о мирроринге сайтов вообще. Некоторое время назад тут
была дисскуссия, переросшая в сильнофилософские рассуждения о
невозможности полной защиты с доказательствами и т.п., что говорит
о хорошем уровне академического образования уважаемых коллег по
майл-листу... интересной наблюдение как-то мне рассказал один из
мужичков, работающих у нас : "Если дать.... ну нерешаемую задачу
студенту ( выпускнику ) МГУ ( в его случае МехМат ) и ФизТеха, то
( с большой вероятностью ) МГУ'шник начнет доказывать невозможность
решить задачу, а ФихТех'овец начнет пытаться ее решить. Пусть не на
всех возможных значениях параметров, но все же... ау, МехМат! И хоть
сам я являюсь представителем школы МГУ ( правда, не МехМат а ВМиК ),
попробую ( хоть тут ) чуток поопровергнуть такое мнение относительно
родной Альма-матер.
Врочем, sorry за столь длинное вступление. Итак, хочу немножко
поделиться мыслями ( возникшими в связи со вчерашней бессонницей )
на тему "воспрепятствование _автоматизированного_ мирроринга
WEB-сайта".
1. JavaScript. До чего ж люблю я Netscape... такую классную штуку
придумали. А подлый Microsoft его передрал - а когда пишешь, что
MS JavaScript не совместим с оригинальным -- отписывают "У нас,
мол, на JavaScript, а JScript." Почувствуйте разницу.
Итак, как мы обычно описываем ссылки ?
<a href='file.html'>Ссылка</a>.
А кто сказал, что это единственный способ их описания? Вот почти то
же самое :
<a href='javascript:location = "file.html"'>Ссылка</a>
Каюсь, таким образом отсекаются пользователи Lynx'а и некоторых
бровзеров, не поддерживающих JavaScript. Но если человеку сильно нужно
посмотреть сайт, то он запустит-таки Netscape. А в связи с тем, что
сайт хотят смироррить, вероятность этого "нужно" довольно высока.
Конечно, можно научить wget брать подобные ссылки. Но можно ведь
пойти дальше :
<script> Link = 'file.html' </script>
...
<a href='javascript:location = Link'>Ссылка</a>
Кроме того -- а кто сказал, что ссылки необходимо размещать _явно_ в
теле документа :
<script> document.write(unescape('%3C') + 'a hr' + 'ef="file.html">' +
'Ссылка' + unescape('%3C') + '/a>') </script>
Понятное дело, этим дело далеко не ограничивается, и тут уже приходится
писать wget, который занимается интерпретацией JavaScript. Причем не как
статический JavaScript, а динамический ( где-то в конце документа ) :
<script> setTimeout('Link = "file1.html"', 1000) </script>
Пойди догадайся, что и в какой момент будет в переменной Link. Решениеи
идти по всем возможным значениям переменных натыкается на такой веселый код :
<script>
function a()
{
if (confirm('Are you stupid?')) while(1) do_nothing();
location = 'file.html';
}
...
<a href='javascript:a()'>Ссылка</script>
Как думаете, чем будет заниматься такой интеллектуальный wget ?
Таким образом, грамотное использование JavaScript практически решает
задачу. Задача написания столь высокоинтеллектуального wget'а, на мой
взгляд, настолько дорогостоящая, что никто этим заниматься не будет.
2. "Добрые ссылки". Напишем простенький CGI ( поклонники Perl'а не бить!
Ну не силен я в Perl'е ) :
// surprise.c ==> surprise.cgi
#include <stdio.h>
#include <stdlib.h>
main()
{
int i = 0;
if (getenv("QUERY_STRING")) i = atoi(getenv("QUERY_STRING"));
printf("Content-type: text/html");
printf("\n");
printf("<a href='surprise.cgi?%d'>%d</a>\n", i, i);
}
При вызове 'surprise.cgi' он выдает ссылку на ''surprise.cgi?1', тот в
свою очередь на ''surprise.cgi?2' .... "У попа была собака". Как думаете,
за сколько умный wget выкачает такую ссылку ???
Только не говорите, что wget не будет качать CGI. Никаких нет проблем
( с помощью аккуратной настройке Apache "ErrorDocument 404" и nph-CGI )
сделать директорию, при обращении к которой последовательно выдаются ссылки
на '1.html', '2.html' ...
Проблема так-же не решается ограничением глубины поиска для wget'а. Никто
не мешает модифицировать предыдущий вариант так, чтоб при обращинии к файлу
с _любым_ именем в данной директории выдается HTML содержищий 10 ( 100 )
ссылок на файлы с произвольными именами в той-же директории. При глубине
скачивания три ( что _явно_ недостаточно ) wget'у придется скачать с сайта
100 + 100*100 + 100*100*100 файлов. Не знаю, сколько времени ему, бедолаге,
на это потребуется.
Наводните документы ссылками типа
<a href='surptise.cgi'>Don't click this link!!!</a>
или
<a href='/surprise/xmm.html'><img src='1x1.gif' border=0 heigth=1
width=1></a>
и wget будет бессилен... где-то в Inet я видел сайт, который генерирует
N ( задается пользователем через форму ) килобайт почти связанного русского
текста. Сгенерите такой текст, разбавив его ссылками в '/surprise/' ...
Подведу некоторые итоги. Никто не говорит о _теоретическом_ решении этой
задачи. Теоретически можно скачать все. Практически... теоретически можно
поставить друг на дружку 10 яиц. Прктически... да хоть одно поставьте! Разве
что Наполеон ( поправьте меня, если это не он ) решил эту задачу надломом
яйца :-)) Да, можно яйцо поставить на конец раскрутив его ( surprise.cgi,
href='javascript:location=..' ), а 10 уже никак не поставишь.... хотя это
и возможно теоретически.
Проблема, как мы видим, решается довольно простыми методами. Никто не
говорит об абсолютном запрещении мирроринга. Но очень сильно подпортить
кровь желающим это сделать можно элементарно, что делает задачу оного
мирроринга практически невыполнимой и малорентабельной.
Сразу извиняюсь за столь долгие излияния, надуюсь кому-то мои мысли
помогут, "синсерзли ойрз",
Felix A. Milovanov,
http://chat.portal.ru/
=============================================================================
= Apache-Talk@lists.lexa.ru mailing list =
Mail "unsubscribe apache-talk" to majordomo@lists.lexa.ru if you want to quit.
= Archive avaliable at http://www.lexa.ru/apache-talk =