Как закрыть ссылки и страницы сайта от индексации?

Закрытие контента от индексации

С какой целью порой может использоваться закрытие веб-сайта или каких-то его разделов, страниц от индексации поисковыми системами? Вариантов с ответами имеются несколько:

  • Следует убрать от всеобщего обзора ту или иную информацию, в которой могут находиться секретные данные.
  • Если нужно сформировать подходящий релевантный контент: случаются варианты, если очень сильно возникает желание сообщить пользователям Интернете больший поток информации, однако которая делает туманной релевантность по тексту.
  • Закрыть от роботов дублирующий контекст.
  • Спрятать информацию, которая не представляет интереса для пользователей, и которую так не любят поисковые роботы, считая ее спамом в медиа-контенте.

Например, это могут быть портфолио, материалы сайта с устаревшим смыслом, какие-то расписания в справочниках.

Запрет на индексацию сайта или каких-то частей с помощью файла robots.txt

Для начала нужно создать текстовый файл с названием robots.txt.

Затем прописываем там следующий код:

1       User-agent: *

2       Disallow: /

После этого полученный файл robots.txt уже с помощью FTP заливаем в корень сайта.

Если необходимо запретить индексацию сайта только от роботов Яндекса нужно прописать:

1       User-agent: Yandex

2       Disallow: /

Если же нужно закрыть сайт только от роботов Google, то код примет следующий вид:

1       User-agent: Googlebot

2       Disallow: /

Закрытие сайта от индексации через файл .htaccess

Способ первый – прописать отдельную строку для каждой поисковой системы

Для этого в файле .htaccess делаем следующие записи в коде:

1       SetEnvIfNoCase User-Agent «^Yandex» search_bot

2       SetEnvIfNoCase User-Agent «^Googlebot» search_bot

3       SetEnvIfNoCase User-Agent «^Mail» search_bot

4       SetEnvIfNoCase User-Agent «^Aport» search_bot

5       SetEnvIfNoCase User-Agent «^Yahoo» search_bot

6       SetEnvIfNoCase User-Agent «^msnbot» search_bot

7       SetEnvIfNoCase User-Agent «^Robot» search_bot

8       SetEnvIfNoCase User-Agent «^Snapbot» search_bot

9       SetEnvIfNoCase User-Agent «^WordPress» search_bot

10     SetEnvIfNoCase User-Agent «^Parser» search_bot

11     SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot

12     SetEnvIfNoCase User-Agent «^spider» search_bot

13     SetEnvIfNoCase User-Agent «^bot» search_bot

14     SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot

15     SetEnvIfNoCase User-Agent «^php» search_bot

Способ второй

Для страницы, которую необходимо закрыть, можно в файле .htaccess прописать любой из следующих ответов сервера:

1       403 «Доступ к ресурсу запрещен», т.е. код 403 Forbidden

2       410 «Ресурс недоступен», т.е. окончательно удален

Способ третий

Можно закрыть индексацию к сайту с помощью доступа только по паролю:

В этом случае, в файле .htaccess, вставляем следующий код:

1       AuthType Basic

2       AuthName «Password Protected Area»

3       AuthUserFile /home/user/www-pass/.htpasswd

4       Require valid-user

Значит в корне сайта создаем — home/user/www-pass/.htpasswd

где .htpasswd — файл с паролем, который создаем сами в файле.

Но затем следует добавить пользователя в файл паролей htpasswd —  /home/user/www-pass/.htpasswd USERNAME

где USERNAME — это имя пользователя для авторизации.

Здесь можно прописать свой вариант.

Как закрыть отдельный блог от индексации?

Зачастую бывает, что необходимо закрыть от поисковой индексации не весь сайт целиком, а только конкретный источник: список, счетчик, запись, страницу либо какой-нибудь код.

В одно время, достаточно было использовать тег «noindex», но это больше подходило для роботов Яндекса, а для Google были достаточны обычные действия. 

<noindex>Здесь может быть любой текст, ссылки или код</noindex>

Но затем роботы Яндекс стали меньше обращать внимания на такую техническую «уловку», а роботы Google вообще перестали понимать данную комбинацию. В результате, технические специалисты сайтов, стали применять иной вариант с целью закрытия индексации части текста на какой-либо странице, используя скрипты javascript, либо соответствующие плагины или модули.

Часть текста шифруется с помощью javascript. Но следует помнить, что затем непосредственно сам скрипт нужно будет закрыть от индексации в robots.txt.

Универсальный способ закрытия изображений (медиафайлов) от индексации

Многие сайты используют картинки, которые в основном берутся из Интернета, я значит никак не могу считаться уникальными. В результате таких действий, появляется боязнь, то, что роботы поисковиков отнесутся к таким сайтам негативно, а именно будут блокировать продвижение и повышение в рейтингах.

В этом случае следует на странице сделать следующую запись в коде:

<span class=»hidden-link» data-link=»https://goo.gl»><img src=»…»></span>

Скрипт, который будет обрабатывать элемент:

<script>$(‘.hidden-link’).replaceWith(function(){return'<a href=»‘+$(this).data(‘link’)+'»>’+$(this).html()+'</a>’;})</script>

Как закрыть от индексации внешние либо внутренние ссылки?

Такие действия нужно только в том случае, если нужно закрыть от индексации входящие ссылки от сайтов находящиеся под санкциями поисковых систем, а так же скрыть исходящие ссылки на сторонние ресурсы, чтобы предотвратить уменьшение веса сайта, а именно ТИЦ сайта донора.

Для этого нужно создать файл transfers.js

После этого нижеуказанную часть кода вставляем в файл transfers.js:

function goPage(sPage) {

window.location.href = sPage;

}

После этого данный файл уже размещаем в соответствующей папке сайта и на странице в head добавляем код:

<script type=»text/javascript» src=»/js/transfers.js»></script>

И теперь прописываем необходимую ссылку, которую нужно скрыть от индексации поисковых систем:

<a href=»javascript:goPage(‘http://указываем URL/’)»></a>

Как закрыть от индексации роботов отдельную страницу на сайте?

Первый метод — через файл robots.txt

</pre>

Disallow: /URL-страницы сайта

<pre>

Второй метод — закрытие с помощью метатегов

<meta name=»robots» content=»noindex, nofollow» />

Третий метод — в Вебмастере Яндекса, в разделе «Инструменты» с помощью «Удалить URL» можно отдельно по каждой ссылке сделать запрет на индексацию от роботов Яндекса.

Четвертый метод — сделать запрет на индексацию через ответ сервера:

404 — ошибка страницы

410 — страница удалена

И сделать добавление в файле .htaccess:

ErrorDocument 404 https://URL-сайта/404

Однако, данным метод используется весьма редко.

Как закрыть от индексации сразу весь раздел или категорию на сайте?

Лучший способ — реализовать это с помощью файла robots.txt, где внутри прописать:

User-agent: *

Disallow: /название раздела или категории

Дополнительные варианты:

Кроме указанных выше способов, также могут подойти способы, которые применяются для сокрытия страницы сайта целиком, либо какого-то раздела, — правда, если подобные действия могут быть сделаны автоматически:

  • соответствующий ответ сервера для определенных страниц раздела сайта
  • применение мета-тегов к определенным страницам

Все эти без исключения методы, возможно, осуществить программно, а никак не в «ручном» режиме назначать к любой страничке или части текста запрет на индексацию – весьма дороги трудовые затраты.

Конечно, ведь легче в целом сделать соответствующее запрещение в файле robots.txt, однако практика показывает, то что это не может гарантировать на 100% запрет на индексацию.

Как закрыть от индексации целиком папку?

В этом случае на закрытие пойдет непосредственно папка, а не раздел. Ведь нам нужно закрыть папку с файлами, которые не должны видеть поисковые роботы, а это могут быть какие-то разработки, документы, картинки и многое другое.

User-agent: *

Disallow: /folder/

Пять способов закрытия на сайте дублей от поисковой индексации

Первый способ — и наиболее верный, для того, чтобы их действительно не существовало — необходимо на физическом уровне освободиться от них, т.е. в любом варианте при открытии страницы, кроме оригинальной, должна демонстрироваться страница 404 — ответ сервера.

Второй способ — применять атрибут rel=»canonical», который как раз и является наиболее правильным решением. Таким образом, равно как атрибут не позволяет роботам индексировать дублирующиеся страницы, так перенаправляет вес с дублей на оригиналы.

Только на странице дубля в коде следует прописать:

<link rel=»canonical» href=»https://URL оригинальной страницы сайта»/>

Posted in ПОЛЕЗНОЕ, SEO оптимизация and tagged , , , , , .

One Comment

  1. Я, чтобы закрыть внешние ссылки в статьях, на страницах, в подвале и в сайдбаре, использую плагин WP No External Links. А вот. чтобы закрыть ссылки в комментариях – плагин ARK HideCommentLinks.

Добавить комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.