Dennis 

september 6, 2023

Chat-GPT: De Large Language Model Chatbot die je nu vast wel kent.

Door de hoeveelheid aan data die ze hebben kan je Chat-GPT inzetten voor het schrijven van recepten, of het programmeren van je nieuwste SaaS-oplossing. Het nadeel van Chat-GPT is attributie: als content van jouw site wordt gehaald als antwoord op een query, komt er geen bron vermelding en geen link bij te staan.

Dit is de reden dat veel sites nu robots.txt gebruiken om Chat-GPT te blokkeren.

Of valt dat nog wel mee?

Onderzoek van Elias Dabbas

Elias Dabbas van Advertools (Python tool specifiek voor SEO & SEA) heeft een poll op twitter (X) geplaatst:

Dus uit een dataset van 10k URLs, is het 7,3k keer succesvol geweest om de robots.txt op te halen. Zijn poll had maar 32 stemmers. Hieronder zie je de antwoorden:

Wat zegt deze afbeelding? 

Dat mensen een hoge verwachting hebben als het aankomt op het blokkeren van Chat-GPT bot.

De werkelijkheid?

Het werkelijke aantal valt nu nog mee. In totaal zijn er in de gebruikte dataset 327 sites die GTPbot blokkeren. 

Hoe zit het met Nederlandse sites?

.nl domeinen die GPTBot uitsluiten

Elias Dabbas heeft zijn code gepubliceerd en deze heb ik letterlijk gebruikt op een andere dataset. Namelijk de top .nl domeinen volgens Ahrefs.

Hier de code van Elias: https://www.kaggle.com/code/eliasdabbas/websites-blocking-chat-gpt

Hoe zijn de resultaten in Nederland?

Grootte van de dataset

De gebruikte set is de top 10k .nl domeinen volgens Ahrefs.

Aantal robots.txt gedownload

robots.txt

Aantal URLs

Aantal gedownload

9870

Aantal zonder fouten

7426


Aantal domeinen met Disallow regel

User-Agent

Aantal URLs

GPTBot

40

ChatGPT-User

13

CCBot

1

Nog wat data

User-Agents

Twee van de User-Agents hierboven zijn bots van ChatGPT. De reguliere bot de User bot die pas in actie komt als een gebruiker een plugin gebruikt in combinatie met een query om een site of pagina te bezoeken.

GPTBot

GPTBot is OpenAI’s web crawler and can be identified by the following user agent and string.

Een disallow regel in je robots.txt:

User-agent: GPTBot
Disallow: /

Voor meer informatie over deze bot kijk je op: https://platform.openai.com/docs/gptbot

ChatGPT-User

ChatGPT-User is used by plugins in ChatGPT. This user-agent will only be used to take direct actions on behalf of ChatGPT users and is not used for crawling the web in any automatic fashion.

Een disallow regel in je robots.txt:

User-agent: ChatGPT-User
Disallow: /

Voor meer informatie over deze bot kijk je op: https://platform.openai.com/docs/plugins/bot

CCBot

Common Crawl is a 501(c)(3) non-profit organization dedicated to providing a copy of the Internet to Internet researchers, companies and individuals at no cost for the purpose of research and analysis.

Een disallow regel in je robots.txt:

User-agent: CCBot
Disallow: /

Voor meer informatie over deze bot kijk je op: https://commoncrawl.org/faq

TLDR

Ik heb een dataset met volgens Ahrefs de 10000 grootste .nl sites gebruikt om een analyse van hun robots.txt bestand uit te voeren. Specifiek wil ik weten hoeveel sites ChatGPT uitsluiten van crawlen.

Van de 10k sites kon ik 9870 robots.txt files downloaden, maar 'slechts' 7426 zonder fouten.

Hiervan zijn er 40 sites die GPTBot uitsluiten, 13 sites die ChatGPT-User uitsluiten en 1 site die CCBot uitsluit.

Wil je dat ik robots.txt van deze sites op iets anders check? Laat het me weten.

About the author 

Dennis

Hey ik ben Dennis.
Vader van Noah & Deyn (Nodeyn).

Daarnaast ben ik zoekmachinemarketing specialist dagelijks bezig met het optimaliseren van websites en advertentiecampagnes.

Laat een reactie achter:

Your email address will not be published. Required fields are marked

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}