Краулер OpenAI будет сканировать Интернет. Какие изменения принесет GPTBot?

OpenAI не перестает нас удивлять! Мы только узнали, что GPTBot - краулер, который будет сканировать сеть, выходит в свет. Как это изменит производительность ChatGPT? И стоит ли пускать нового поискового робота на свой сайт?

GPTBot копается в Интернете. Как это будет работать?

На веб-сайте OpenAI в разделе документации ChatGPT появилась новая информация о GPTBot - сканере, который будет сканировать Интернет в режиме реального времени точно так же, как в настоящее время это делают поисковый бот от Яндекса или сканеры из других инструментов (таких, как GoogleBot). Информация, собранная с сайтов, потенциально может быть использована для улучшения моделей искусственного интеллекта OpenAI в будущем.

OpenAI утверждает, что предоставление их поисковым роботам бесплатного доступа к веб-сайтам поможет создать лучшие языковые модели в будущем. Однако вполне возможно, что некоторые более крупные и опытные владельцы сайтов заблокируют GPTBot например, из-за боязни потерять уникальность контента, который находится на их веб-страницах.

На какие сайты GPTBot не попадет?

GPTBot также должен фильтровать сайты, использующие платный доступ, что означает, что они не будут сканироваться. Это сильно отличается от того же Googlebot. Тем не менее даже если у вас есть контент, который находится за платным доступом (что в основном близко для издателей прессы), вы все равно хотите, чтобы поисковый робот от Яндекса имел доступ к указанному платному контенту, чтобы он индексировал и отображал его в поисковой системе. Очевидно, GPT хочет избежать обвинений в нарушении прав интеллектуальной собственности, поэтому не хочет сканировать контент, который распространяется через платный доступ.

Сайты, собирающие личную информацию (например, социальные сети) или содержащие текст, нарушающий стандарты OpenAI, также не будут сканироваться.

Как изменить файл robots.txt для GPTBot?

Это не сложно. Доступ GPTBot к сайту можно заблокировать или модерировать точно так же, как и для бота Яндекса, т.е. с помощью файла robots.txt.

Чтобы заблокировать доступ GPTBot к странице, введите:

User-agent: GPTBot
Disallow: /

Чтобы, в свою очередь, изменить свой доступ, например, чтобы GPTBot мог заходить только на определенные подстраницы, введите:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Ну, и что дальше?

Это хороший вопрос. Интересно, какие ресурсы понадобятся GPTBot для обхода всего Интернета. Если ChatGPT станет еще более популярным, многие сайты захотят, чтобы его ответы выдачи основывались на их содержании. Нам просто интересно, будет ли GPT ссылаться на источники, как это делают Яндекс и Google.