С какой целью порой может использоваться закрытие веб-сайта или каких-то его разделов, страниц от индексации поисковыми системами? Вариантов с ответами имеются несколько:
- Следует убрать от всеобщего обзора ту или иную информацию, в которой могут находиться секретные данные.
- Если нужно сформировать подходящий релевантный контент: случаются варианты, если очень сильно возникает желание сообщить пользователям Интернете больший поток информации, однако которая делает туманной релевантность по тексту.
- Закрыть от роботов дублирующий контекст.
- Спрятать информацию, которая не представляет интереса для пользователей, и которую так не любят поисковые роботы, считая ее спамом в медиа-контенте.
Например, это могут быть портфолио, материалы сайта с устаревшим смыслом, какие-то расписания в справочниках.
Запрет на индексацию сайта или каких-то частей с помощью файла robots.txt
Для начала нужно создать текстовый файл с названием robots.txt.
Затем прописываем там следующий код:
1 User-agent: *
2 Disallow: /
После этого полученный файл robots.txt уже с помощью FTP заливаем в корень сайта.
Если необходимо запретить индексацию сайта только от роботов Яндекса нужно прописать:
1 User-agent: Yandex
2 Disallow: /
Если же нужно закрыть сайт только от роботов Google, то код примет следующий вид:
1 User-agent: Googlebot
2 Disallow: /
Закрытие сайта от индексации через файл .htaccess
Способ первый – прописать отдельную строку для каждой поисковой системы
Для этого в файле .htaccess делаем следующие записи в коде:
1 SetEnvIfNoCase User-Agent «^Yandex» search_bot
2 SetEnvIfNoCase User-Agent «^Googlebot» search_bot
3 SetEnvIfNoCase User-Agent «^Mail» search_bot
4 SetEnvIfNoCase User-Agent «^Aport» search_bot
5 SetEnvIfNoCase User-Agent «^Yahoo» search_bot
6 SetEnvIfNoCase User-Agent «^msnbot» search_bot
7 SetEnvIfNoCase User-Agent «^Robot» search_bot
8 SetEnvIfNoCase User-Agent «^Snapbot» search_bot
9 SetEnvIfNoCase User-Agent «^WordPress» search_bot
10 SetEnvIfNoCase User-Agent «^Parser» search_bot
11 SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot
12 SetEnvIfNoCase User-Agent «^spider» search_bot
13 SetEnvIfNoCase User-Agent «^bot» search_bot
14 SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot
15 SetEnvIfNoCase User-Agent «^php» search_bot
Способ второй
Для страницы, которую необходимо закрыть, можно в файле .htaccess прописать любой из следующих ответов сервера:
1 403 «Доступ к ресурсу запрещен», т.е. код 403 Forbidden
2 410 «Ресурс недоступен», т.е. окончательно удален
Способ третий
Можно закрыть индексацию к сайту с помощью доступа только по паролю:
В этом случае, в файле .htaccess, вставляем следующий код:
1 AuthType Basic
2 AuthName «Password Protected Area»
3 AuthUserFile /home/user/www-pass/.htpasswd
4 Require valid-user
Значит в корне сайта создаем — home/user/www-pass/.htpasswd
где .htpasswd — файл с паролем, который создаем сами в файле.
Но затем следует добавить пользователя в файл паролей htpasswd — /home/user/www-pass/.htpasswd USERNAME
где USERNAME — это имя пользователя для авторизации.
Здесь можно прописать свой вариант.
Как закрыть отдельный блог от индексации?
Зачастую бывает, что необходимо закрыть от поисковой индексации не весь сайт целиком, а только конкретный источник: список, счетчик, запись, страницу либо какой-нибудь код.
В одно время, достаточно было использовать тег «noindex», но это больше подходило для роботов Яндекса, а для Google были достаточны обычные действия.
<noindex>Здесь может быть любой текст, ссылки или код</noindex>
Но затем роботы Яндекс стали меньше обращать внимания на такую техническую «уловку», а роботы Google вообще перестали понимать данную комбинацию. В результате, технические специалисты сайтов, стали применять иной вариант с целью закрытия индексации части текста на какой-либо странице, используя скрипты javascript, либо соответствующие плагины или модули.
Часть текста шифруется с помощью javascript. Но следует помнить, что затем непосредственно сам скрипт нужно будет закрыть от индексации в robots.txt.
Универсальный способ закрытия изображений (медиафайлов) от индексации
Многие сайты используют картинки, которые в основном берутся из Интернета, я значит никак не могу считаться уникальными. В результате таких действий, появляется боязнь, то, что роботы поисковиков отнесутся к таким сайтам негативно, а именно будут блокировать продвижение и повышение в рейтингах.
В этом случае следует на странице сделать следующую запись в коде:
<span class=»hidden-link» data-link=»https://goo.gl»><img src=»…»></span>
Скрипт, который будет обрабатывать элемент:
<script>$(‘.hidden-link’).replaceWith(function(){return'<a href=»‘+$(this).data(‘link’)+'»>’+$(this).html()+'</a>’;})</script>
Как закрыть от индексации внешние либо внутренние ссылки?
Такие действия нужно только в том случае, если нужно закрыть от индексации входящие ссылки от сайтов находящиеся под санкциями поисковых систем, а так же скрыть исходящие ссылки на сторонние ресурсы, чтобы предотвратить уменьшение веса сайта, а именно ТИЦ сайта донора.
Для этого нужно создать файл transfers.js
После этого нижеуказанную часть кода вставляем в файл transfers.js:
function goPage(sPage) {
window.location.href = sPage;
}
После этого данный файл уже размещаем в соответствующей папке сайта и на странице в head добавляем код:
<script type=»text/javascript» src=»/js/transfers.js»></script>
И теперь прописываем необходимую ссылку, которую нужно скрыть от индексации поисковых систем:
<a href=»javascript:goPage(‘http://указываем URL/’)»></a>
Как закрыть от индексации роботов отдельную страницу на сайте?
Первый метод — через файл robots.txt
</pre>
Disallow: /URL-страницы сайта
<pre>
Второй метод — закрытие с помощью метатегов
<meta name=»robots» content=»noindex, nofollow» />
Третий метод — в Вебмастере Яндекса, в разделе «Инструменты» с помощью «Удалить URL» можно отдельно по каждой ссылке сделать запрет на индексацию от роботов Яндекса.
Четвертый метод — сделать запрет на индексацию через ответ сервера:
404 — ошибка страницы
410 — страница удалена
И сделать добавление в файле .htaccess:
ErrorDocument 404 https://URL-сайта/404
Однако, данным метод используется весьма редко.
Как закрыть от индексации сразу весь раздел или категорию на сайте?
Лучший способ — реализовать это с помощью файла robots.txt, где внутри прописать:
User-agent: *
Disallow: /название раздела или категории
Дополнительные варианты:
Кроме указанных выше способов, также могут подойти способы, которые применяются для сокрытия страницы сайта целиком, либо какого-то раздела, — правда, если подобные действия могут быть сделаны автоматически:
- соответствующий ответ сервера для определенных страниц раздела сайта
- применение мета-тегов к определенным страницам
Все эти без исключения методы, возможно, осуществить программно, а никак не в «ручном» режиме назначать к любой страничке или части текста запрет на индексацию – весьма дороги трудовые затраты.
Конечно, ведь легче в целом сделать соответствующее запрещение в файле robots.txt, однако практика показывает, то что это не может гарантировать на 100% запрет на индексацию.
Как закрыть от индексации целиком папку?
В этом случае на закрытие пойдет непосредственно папка, а не раздел. Ведь нам нужно закрыть папку с файлами, которые не должны видеть поисковые роботы, а это могут быть какие-то разработки, документы, картинки и многое другое.
User-agent: *
Disallow: /folder/
Пять способов закрытия на сайте дублей от поисковой индексации
Первый способ — и наиболее верный, для того, чтобы их действительно не существовало — необходимо на физическом уровне освободиться от них, т.е. в любом варианте при открытии страницы, кроме оригинальной, должна демонстрироваться страница 404 — ответ сервера.
Второй способ — применять атрибут rel=»canonical», который как раз и является наиболее правильным решением. Таким образом, равно как атрибут не позволяет роботам индексировать дублирующиеся страницы, так перенаправляет вес с дублей на оригиналы.
Только на странице дубля в коде следует прописать:
<link rel=»canonical» href=»https://URL оригинальной страницы сайта»/>
Я, чтобы закрыть внешние ссылки в статьях, на страницах, в подвале и в сайдбаре, использую плагин WP No External Links. А вот. чтобы закрыть ссылки в комментариях – плагин ARK HideCommentLinks.