L’attività principale di Google è stata la ricerca e ora vuole trasformarne una parte fondamentale in uno standard Internet.
Google ha delineato i piani per trasformare il protocollo di esclusione dei robot (REP), meglio noto come robots.txt, in uno standard Internet dopo 25 anni. A tal fine, ha anche reso disponibile il suo parser C ++ robots.txt che sostiene il crawler web di Googlebot su GitHub affinché chiunque possa accedervi.
Volevamo aiutare i proprietari di siti Web e gli sviluppatori a creare esperienze straordinarie su Internet invece di preoccuparsi di come controllare i crawler”, ha affermato Google. “Insieme all’autore originale del protocollo, ai webmaster e ad altri motori di ricerca, abbiamo documentato come il REP viene utilizzato sul Web moderno e lo abbiamo inviato all’IETF.”
Il REP è uno dei cardini dei motori di ricerca web e aiuta i proprietari di siti Web a gestire più facilmente le risorse del server. I crawler Web, come Googlebot , sono il modo in cui Google e altri motori di ricerca eseguono regolarmente la scansione di Internet per scoprire nuove pagine Web e aggiungerle al loro elenco di pagine note.
I crawler vengono inoltre utilizzati da siti come la Wayback Machine per raccogliere e archiviare periodicamente pagine Web e possono essere progettati con l’intento di acquisire dati da siti Web specifici a scopo di analisi.
To help developers create parsers that reflect the Robots Exclusion Protocol requirements, we’re releasing our robots.txt parser as open source!
Updated to cover all corner cases, the parser ensures that Googlebot only crawls what it’s allowed to.https://t.co/NmbLRzDkHF— Google Webmasters (@googlewmc) 1 luglio 2019
Il file robots.txt di un sito Web informa in modo specifico i crawler automatici su quali contenuti scansionare e quali escludere, riducendo così al minimo l’indicizzazione e la pubblicazione di pagine inutili. Può anche vietare ai crawler di visitare informazioni riservate archiviate in determinate cartelle e impedire che questi file vengano indicizzati da altri motori di ricerca.
Con l’approvvigionamento aperto del parser utilizzato per decifrare il file robots.txt, Google mira a eliminare tutta la confusione creando una sintassi standardizzata per creare e analizzare le regole .
“Questo è un problema difficile per i proprietari di siti Web perché l’ambiguo standard di fatto ha reso difficile scrivere le regole correttamente”, ha scritto Google in un post sul blog .
Ha affermato che la libreria aiuterà gli sviluppatori a creare i propri parser che “riflettono meglio l’analisi e la corrispondenza di robots.txt di Google”.
Lo standard robots.txt è attualmente nella fase di bozza e Google ha richiesto feedback dagli sviluppatori. Lo standard verrà modificato man mano che i creatori del web specificano “quante informazioni vogliono rendere disponibili a Googlebot e, per estensione, idonee a comparire nella Ricerca”.