Раскрутка

Хочу защитить проект от парсинга

Господа, у меня на подходе интересный проект и в силу интересности он однозначно вызовет интерес всяких нехороших вредных личностей, поэтому будет нуждаться в защите.
Контентом там будут не авторские тексты, а некая весьма полезная информация, являющаяся результатом работы некоего аналитического алгоритма. Поэтому каждая индивидуальная страница объектом авторских прав являться не будет, ее и не требуется защищать от копипаста.
Т.е. каждую индивидуальную страницу защищать от копипаста не надо. Если кому то данные со страницы понадобятся - пусть копипастят.
А надо защитить сайт от полного парсинга всех страниц, т.е. надо защитить от создания полных копий сайта. И то лишь в период юности сайта. Количество страниц будет - несколько десятков тысяч.
Также не стоит задача полностью исключить возможность парсинга, достаточно будет сильно усложнить. Потенциальные вредители - не из нашей среды, сами они парсеры писать не умеют и не будут, они будут эту работу заказывать на стороне. Поэтому требуется, чтобы эта работа не была дешевой.
Основным методом доступа к нужной странице на сайте будет встроенный поиск.
Пока склоняюсь к такому решению:
1) Пока сайт молодой доступ ко всем страницам через ссылки категорий исключить. Оставить доступ к страницам только через строку поиска.
2) К урлам добавить случайные щепотки соли, чтобы основываясь на структуре урлов нельзя было написать парсер.
3) Для индексации поисковыми системами (Гуглом и Яндексом) создать карту сайта, но не публиковать ее на самом сайте, а загрузить в панели вебмастера поисковиков.
Что думаете? Поможет? Может быть еще что посоветуете?
borisd, Баньте всякого кто с нездоровым интересом и все. Другого пути нет. Айпи всякого кто ведет себя странно не похоже на среднего пользуна, в бан беспощадно. + жесткое кеширование, контроль за rss, не стандартные пагенации и тд. Но что мне говорит, что все равно не справитесь или проблема преувеличена.
Легче на уровне сервера добавить капчу или какую нибудь другую защиту. Открыли 5 страниц сразу = введи капчу
Реально никак не сделать защиту. Парсят все даже YA и G
Если необходимо что бы google и юзер "адекватно" могли читать сайт, то от копирования контента, не как не защититься.

tommy-gung, Я работаю с продвижением ресурсов которые аккумулируют спарсенные данные с разных ресурсов. И хорошо представляю какие проблемы могут создать те ресурсы которые парсятся, если пред ними появится такая задача. Они их не специально и то создают, а ели зададутся задачей просто из принципа, то многим кислород перекроют. Не стоит говорить, что все и всегда решаемо в приемлемые суммы. Не все и не всегда.
У всего есть себестоимость, а у дурости она бесконечна.
Единственный вариант, как мне кажется, динамически менять html теги, тогда сложно будет спарсить определенный участок сайта. Только страницу целиком.
Присущ, я про это и говорю. Если захотят, спарсят что угодно
Говорю то, что мне может затруднить парсинг: не отдавайте структуру сайта в открытом виде, т.е. затрудните максимально его обход. При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше. Таким образом тот кто захочет спарсить не сможет найти ту точку через которую сможет размотать весь сайт.
Товарищи, опять повторюсь, мне не надо невозможного - не надо абсолютной защиты от парсинга.
3) Register your data as database to send copyright infrigement letter to hosting/police/somewhere else in the future.
Оптимизайка, регистрировать пока нет смысла. Программный код по любому будет недоступен, а база данных по факту будет автоматически генерироваться, поэтому как набор данных не может быть объектом авторских прав. Можно конечно не упоминать об автоматической генерации, типа всё вручную делалось, но в общем не хочу замарачиваться, тем более на данном этапе.
---------- Добавлено 26.10.2016 в 00:16 ----------
я вас расстрою.
спарсить можно все. без труда.
все ваши защиты не обойдут запуск управляемой копии браузера.
а вы не обладаете уровнем знаний. чтобы уже на странице отличить живого юзера, от браузера управляемого через прокси
ваш сайт никому не нужен кроме вас. каждый день тысячи сайтов новых создаются. вот сидят конкуренты и генерят себе копию инета....