Приватность (конфиденциальность) данных имеет большое значение, особенно в таких проектах как дистанционное образование на базе Moodle, так как администратору приходится загружать много внутренней информации: приказы, списки, методические указания, сертификаты итп. Согласитесь, эта информация предназначена лишь для узкого круга лиц, т.е. для внутреннего пользования, утечка же такой информации не только не желательно, но и, в некоторых случаях, просто крайне недопустима, например, если речь идет о платном контенте/курсах. В любом случае внутренние данные лучше скрыть, даже если на данный момент у Вас нет большого количества контента/файлов на сайте СДО Moodle.
Как ваши приватные файлы могут быть найдены
Роботы поисковых систем индексируют огромное количество информации, которая может быть «неправильно лежать». Это значит что поисковой машине все равно какой контент индексировать, стоит лишь какой-нибудь ссылке на приватную информацию попасться ему на глаза. Есть несколько примеров когда информация об элитной зарубежной недвижимости государственных чиновников России индексировалась в Google, видимо о родине там лучше думается. При этом не нужно быть, «хакером» чтобы достать такую информацию, достаточно лишь изучить результаты запроса в Google: site:needlesite.ru
.
Что делать?
Все поисковые системы подчиняются правилам, прописанным в файле robots.txt
, лежащего в корне сайта, например: https://lmstech.ru/robots.txt
. Если данного файла нет, то и запретов для индексации сайта тоже нет, ну а если файл есть, то робот индексировать контент согласно описанным там правилам.
Для сайта на базе Moodle достаточно сложно написать универсальный файл robots.txt
, так как все зависит от подключенных модулей, а также от желания администратора сайта индексировать тот или иной контент. Например, у Вас установлен и работает модуль форума, но хотите ли Вы индексировать сообщения пользователей в нем? С одной стороны, как правило, ничего секретного в форуме нет, а лишний проиндексированный контент, в итоге, увеличивает поисковый трафик, с другой же стороны некоторые администраторы не хотят «выносить сор из избы». Поэтому вкратце объясню принцип построения файла robots.txt
.
Создание
По расширению файла .txt
понятно что это обычный текстовый файл, поэтому можно его создать в любом текстовом редакторе, предпочтительно использовать такие программы как Notepad++ или Notepad2. Также необязательно, но желательно чтобы кодировка файла была UTF-8
.
Заполнение
В основном, нет никаких отличий для построения файла под разные поисковые системы, все имеют одинаковые правила, но Яндекс имеет свою директиву Host по которой он определяет главное зеркало сайта, поэтому лучше отделять правила для Яндекса и для всех остальных поисковых систем, потому что из-за данной директивы у поисковых систем могут быть проблемы.
Для начала закроем от индексирования сайт и откроем лишь некоторые разделы и главную страницу:
User-agent: Yandex Disallow: / Allow: /$ Allow: index.php$ Allow: /course/info.php?id= Allow: /course/view.php?id=
Тут такой принцип: сначала запрещаем все, а потом разрешаем что-то по отдельности, например, в примере выше мы разрешили индексировать только информацию о курсах и главной странице.
Долго собирая информацию мы пришли к более-менее универсальному варианту настройки robots.txt для Moodle, возможно мы что-то упустили или Вас не устраивает в файле доступ к определенным разделам, поэтому Вы можете поправить его в любой момент. Итак, что получилось:
User-agent: Yandex Disallow: / Allow: /$ Allow: /index.php$ Allow: /calendar/view.php Allow: /course/info.php?id= Allow: /course/view.php?id= Allow: /mod/page/view.php?id= Allow: /mod/forum/view.php?id= Clean-param: search /mod/forum/view.php Clean-param: showall /mod/forum/view.php Clean-param: mode /mod/forum/view.php Allow: /mod/forum/discuss.php?d= Allow: /mod/wiki/view.php?id= Allow: /pix Allow: /user/view.php?id= Host: your-moodle-site.com User-agent: * Disallow: / Allow: /$ Allow: /index.php$ Allow: /calendar/view.php Allow: /course/info.php?id= Allow: /course/view.php?id= Allow: /mod/page/view.php?id= Allow: /mod/forum/view.php?id= Clean-param: search /mod/forum/view.php Clean-param: showall /mod/forum/view.php Clean-param: mode /mod/forum/view.php Allow: /mod/forum/discuss.php?d= Allow: /mod/wiki/view.php?id= Allow: /pix Allow: /user/view.php?id=
Очень важно соблюдать переносы строк!
Дмитрий
Давно искал данное решение, каким-то образом ПС google действительно индексирует лишние файлы, не понимаю как правда он до них «добирается»?
LMS Tech
Добрый вечер, Дмитрий! иногда бывает что администраторы Moodle открывают гостевой доступ и в нем доступ к определенным файлам и страницам, а гугл как «гость» заходит туда и индексирует все что под руку попадется, ну либо магия от Google. Только не забудьте что данный формат robots.txt достаточно специфичен, например, если Вы не хотите открывать страницу с информацией о курсах, то папку упоминание папки course лучше убрать итд.