Не нравятся результаты поиска? Попробуйте другой поиск!
DLE FAQ » Все вопросы » Общие вопросы » Как побороть граббинг сайта?

Как побороть граббинг сайта?


     02.08.2020    Все вопросы » Общие вопросы    1406

вопрос
Доброго врмени суток.

Столкнулся с проблемой - кто-то парсит сайт и выкачивает все файлы что я заливаю к себе на сервер.

Принцип парсинга не могу понять, т.к. я могу добавить и опубликовать статью1, потом статью2 раньше статьей1 (изменив время публикации), затем статью3 перед статья2, т.е порядок на сайте получается статья2 - статья3 - статья1, а у него они появляются в порядке: статья1 - статья2 - статья3...
rss откючен в настройках, никуда дополнительно ссылки на посты не публикуются.
Как такое взможно, парсить в той последовательности что я добавлял в админке?

ip, с которого он выкачивает файлы я вижу пологам сервера, но бан не помогает, т.к. на след. раз ip уже другой... и ip выкачивания не совпадает с ip парсера ( я его вычислить не могу).

И еще вопрос.
Как можно в fail2ban заблокировать ip, который совершает много коннектов за короткий промежуток времени?
Как побороть граббинг сайта?

Ответа пока нет


17 комментариев

nikolay.safronov
Юзер

nikolay.safronov - 2 августа 2020 17:08 -

Либо подключайте Cloudflare и настраивайте фильтрацию всех ботов там, либо ставьте: https://searchengines.guru/ru/forum/981615

Еще вроде у DDoS-Guard могут по запросу подключить фильтрацию ботов. И в Imunify360 есть фильтрация.

Больше вариантов не придумал пока никто, только проверка на поддержку кук и js, что отсекает 99% всяких примитивных ботов.

По поводу последовательности парсинга, наверно граббер просто по id проверяет появилась ли новая новость или нет: site.ru/55-.html и т.д.

UsurpatorVaticana
Юзер

UsurpatorVaticana - 2 августа 2020 17:54 -

В htacess заблоч Ip или его зону

6nick9
Юзер

6nick9 - 2 августа 2020 18:22 -

А если внимательнее перечитать его вопрос ещё раз?) Зону для парсера бесполезно блокировать, он без проблем может и российский IP использовать, это же не DDoS, абузы ничего не дадут.

UsurpatorVaticana
Юзер

UsurpatorVaticana - 2 августа 2020 18:56 -

Если он действительно проверяет не выпущенные публикации, напиши простой скрипт который сохраняет время и IP просмотренной страницы 404, но сразу все эти айпи в бан опасно, могут быть роботы ПС, но хотя бы можно полуавтомат сделать кнопку добавить текущий айпи в блоклист дле

nikolay.safronov
Юзер

nikolay.safronov - 2 августа 2020 20:42 -

Самое смешно, что автор сам парсит чужие сайты: https://dle-faq.ru/ordersdesk/27139-parser-i-zapolnenie-doppoley.html А когда решили спарсить у него самого, ему не понравилось)

deadluk
Юзер

deadluk - 3 августа 2020 03:23 -

ну даааа))) так обычно

Vidok
Юзер

Vidok - 3 августа 2020 02:24 -

Спасибо, попробую копнуть в сторону ловли на невыпущенных публикаций.

nikolay.safronov
Юзер

nikolay.safronov - 3 августа 2020 02:34 -

Как вариант, выключите в настройках «Обрабатывать неверные URL ЧПУ», а sitemap переименуйте и уберите из robots.txt (просто добавьте его в панели гугла и яндекса, а остальным смотреть его не обязательно). Тогда просто по ID не получится проверять новые новости.

Еще посмотрите, вырезает ли парсер ссылки и можно как-то обойти это. Можно закинуть тогда ему на сайт ссылку на казино/вирусы/порно и кинуть абузу в РКН и поисковики. Либо, может можно видео вставить и фотографии)

Еще можете переименовывать постоянно дивы в новостях, чтобы парсер ломался. Рано или поздно чел задолбается его чинить и найдет другой сайт-донор.

Vidok
Юзер

Vidok - 3 августа 2020 05:08 -

nikolay.safronov,
Отключение чпу не помогает, т.к. обращение идет чрез /index.php?newsid=123456

nikolay.safronov
Юзер

nikolay.safronov - 3 августа 2020 07:22 -

Поставьте антибота на сайт. Либо перенесите сайт к бегету, они сами смогут включить свою защиту от ботов по запросу (будут также проходить только белые боты, все остальные будут получать 403).

Ловить ботов на невыпущенных новостях всё равно не решение проблемы. Сегодня вас парсят, завтра тупо проксировать начнут весь сайт.

P.S. А IP из разных подсетей у них? Вообще если подсеть принадлежит не интернет-провайдеру, а дата-центру, то блокируйте сразу всю подсеть целиком, живых пользователей там быть не может.

Vidok
Юзер

Vidok - 3 августа 2020 09:04 -

Там ipv6 от hetzner - 2a01:4f8:242:4a5a::2
пробовал забанить в htaccess (Deny from 2a01:4f8:242:4a5a::/64) ? но чет не сработало, все равно в логах есть...
Думал копнуть в сторону fail2ban, попробовать создать правило и банить.

Во первых, мне интересно разобраться как от подобного защищаются. И думаю что он создает лишнюю нагрузку на сервер своими 2-3 запроса в секунду 24/7
А во вторых, вы правы - от этого не спастись в интернете все друг у друга тырят. И он не первый кто это делает.

nikolay.safronov
Юзер

nikolay.safronov - 3 августа 2020 09:45 -

Кстати, а пробовали создать новость и удалить? Следующая новость будет уже со следующим id, а бот будет проверять удаленную новость, получать 404 и думать, что новых новостей нет.

dj-avtosh
PHP-developer

dj-avtosh - 3 августа 2020 09:48 -

я уверен, что у него ничего не грабят - тупо проксируют. Но он же не проверив сюда начал строчить.

По заказам пишем сюда: @Rud00y

ЯД: 41001679231462
Заказы в telegram (ремонт модулей, оптимизация нагрузок и т.п.):
В телегу писать сразу задачу и бюджет.

Vidok
Юзер

Vidok - 3 августа 2020 10:48 -

nikolay.safronov,
Попробую.

dj-avtosh
PHP-developer

dj-avtosh - 3 августа 2020 09:46 -

в логах разве ipv6? Вы че ерундой маетесь? То что у Вас дешевая капля на хецнере, все уже поняли, однако в логах у вас ipv4, зачем Вы лезете в ipv6?

По заказам пишем сюда: @Rud00y

ЯД: 41001679231462
Заказы в telegram (ремонт модулей, оптимизация нагрузок и т.п.):
В телегу писать сразу задачу и бюджет.

Vidok
Юзер

Vidok - 3 августа 2020 10:51 -

dj-avtosh, хреновый из вас экстрасенс.

cortin
Юзер

cortin - 4 августа 2020 08:02 -

Есть способ отключить довнлоад ботов, хотите могу написать плагин для тестов, если что пиши в личку

Чтобы комментировать - войдите или зарегистрируйтесь на сайте

Похожие вопросы

 06.02.2014 tbietotbi  Общие вопросы
наверх