Come raschiare le pagine dei risultati di ricerca di Google (SERP)

Come fare, Scraping, Agosto-01-20215 minuti di lettura

It needs no introduction that Google is the widely used platform for search-related queries of people across the globe. According to the Statista website, Google’s share of the global search market is 87.35%. Further, the stats have shown that Google exceeds 2 trillion users annually, indexing over 130 trillion pages. These statistics prove that Google

Non c'è bisogno di presentazioni per dire che Google è la piattaforma più utilizzata dalle persone di tutto il mondo per le ricerche. Secondo il sito web Statista, la quota di Google nel mercato globale delle ricerche è dell'87,35%. Inoltre, le statistiche dimostrano che Google supera i 2.000 miliardi di utenti all'anno, indicizzando oltre 130.000 miliardi di pagine.

Queste statistiche dimostrano che Google dispone di dati completi disponibili pubblicamente sulle sue SERP, preziosi per i marketer di Internet e non solo. Pertanto, lo scraping delle SERP è diventato una priorità tra i marketer di Internet. Tuttavia, quando si supera un certo numero di richieste, Google blocca il vostro indirizzo IP.

In questo articolo ci occuperemo quindi di come effettuare lo scraping delle SERP senza essere bloccati. Prima di ciò, tratteremo le basi del web scraping.

Che cos'è il web scraping?

Supponiamo di dover copiare un'ampia serie di dati da diverse pagine web. In un primo momento, si potrebbe essere tentati di copiare e incollare il contenuto in un foglio di calcolo. Tuttavia, trattandosi di un documento web di grandi dimensioni, l'estrazione manuale dei dati richiederebbe molto tempo. È quindi necessario automatizzare il processo di scraping, risparmiando così molto tempo.

Questo processo di automazione dello scraping dei dati è noto come web scraping. Con questo metodo, è possibile scaricare l'origine HTML senza inserire l'URL del sito web in un browser.

Per ulteriori informazioni sul web scraping, leggete qui.

Che cos'è lo scraping delle pagine dei risultati dei motori di ricerca (SERP)?

Proprio come il web scraping, lo scraping SERP è il processo di estrazione dei primi 10 o più risultati di una ricerca su Google per una serie di parole chiave. La maggior parte delle società di ottimizzazione dei motori di ricerca (SEO) utilizza questa tecnica per monitorare le classifiche dei siti web dei propri clienti per le parole chiave mirate.

Ci possono essere anche altre ragioni per eseguire lo scraping per le SERPS, come la verifica degli annunci, la generazione di lead e l'aggregazione di contenuti.

Di solito esistono strumenti di automazione per effettuare lo scraping delle SERP, che scoprirete nelle prossime sezioni di questo articolo. In alternativa, è possibile creare un proprio script utilizzando linguaggi di programmazione come Python. Tuttavia, è possibile farlo solo se si ha confidenza con la codifica e si dispone di competenze tecniche superiori. Inoltre, è possibile utilizzare anche cURL per effettuare lo scrape delle SERP di Google.

Una volta che questi strumenti hanno raschiato i dati dalle pagine web pertinenti, li hanno salvati in database, file CSV, XML o JSON. Questi dati sono in un formato strutturato che consente di determinare se i vostri sforzi SEO stanno funzionando correttamente. Questo perché è possibile vedere i posizionamenti della pagina nel tempo.

Inoltre, le SERP non sono costituite solo da contenuti testuali, ma anche da immagini, video, featured snippet, mappe di ricerca locali e molto altro.

Nella prossima sezione scoprirete un vantaggio significativo dello scraping dalle SERP.

In che modo lo scraping delle SERP vi aiuta a recuperare i danni causati dagli hacker?

Essere hackerati è qualcosa che si ripercuote sempre negativamente. Il vostro sito web violato e le sue credenziali di accesso possono finire sul dark web. Gli hacker potrebbero persino vendere backlink o eseguire malware del dark web sul vostro sito. Allo stesso modo, l'hacking ha un impatto negativo anche sul contesto della SEO.

Uno dei vantaggi significativi dello scraping delle SERP di Google è la capacità di identificare i potenziali danni che gli hacker potrebbero causare. Quando avete lavorato duramente per ottenere i vostri posizionamenti SEO nelle SERP, gli hacker possono facilmente infiltrarsi nelle vostre impostazioni di sicurezza e rovinare tutti i vostri sforzi SEO.

Qui potete trovare dettagli completi su come gli hacker dirottano i vostri sforzi SEO.

Secondo un sondaggio, il 48% dei professionisti SEO ha dichiarato che Google ha impiegato molti mesi per recuperare lo stato originale dei risultati delle SERF.

Il monitoraggio delle SERP per i vostri siti web fornisce informazioni utili su ciò che sta accadendo con le vostre classifiche. Inoltre, vi aiuta a determinare i potenziali esiti delle vostre classifiche durante i tentativi di hacking. Pertanto, è possibile richiedere rapidamente a Google di ripristinare le classifiche precedenti. Di conseguenza, i tempi di inattività del vostro sito e i cali di posizionamento nei motori di ricerca verrebbero drasticamente ridotti.

D'altra parte, se il vostro sito web è infettato da malware, questo pregiudica il vostro posizionamento sui motori di ricerca. Il sito ha anche una maggiore probabilità di essere inserito nella lista nera. Secondo Godaddy, ciò vale soprattutto per i siti web delle piccole imprese. Il 90% dei siti Godaddy non sapeva che il malware li aveva infettati.

Pertanto, lo scraping continuo di tutte le SERP consente di individuare in anticipo potenziali tentativi di hacking e sicuramente aiuta Google a ripristinare i risultati.

Come raschiare i risultati di ricerca di Google?

Come ho detto in precedenza, esistono diversi modi per effettuare lo scraping delle SERP di Google. In questa sezione scoprirete diversi modi per farlo.

Raschietto web visivo

Octoparse

Si tratta di uno strumento generale di scraper web che può essere utilizzato per lo scraping delle SERP di Google. Non si limita a raschiare le SERP, ma è anche in grado di raschiare i dati dalle mappe di Google.

Una delle caratteristiche principali di Octoparse è che evita abilmente le misure anti-scraping messe in atto dai siti web di destinazione. Inoltre, non richiede di essere un programmatore per utilizzare il suo strumento di scraping visivo. È piuttosto comodo da usare e disponibile sia come soluzione basata sul cloud che come software installabile.

Ulteriori informazioni su Octoparse sono disponibili qui.

Estensione del browser

Webscraper.io

Webscraper.io è un'estensione gratuita per il browser web Google Chrome. Può estrarre dati dalle pagine web di Google sotto forma di HTML e CSS. Può quindi esportare i dati in formato CSV. La versione dell'estensione per il browser è completamente gratuita ed è sufficiente per gestire le attività di scraping. Se si opta per l'opzione basata su cloud, si dovrà sostenere un costo.

È anche possibile estrarre le mappe di Google e convertirle in un database. Ulteriori informazioni su questa estensione sono disponibili qui.

API di ricerca di Google

Sapevate che Google offre un metodo ufficiale per estrarre dati dal suo motore di ricerca? Sebbene abbia i suoi limiti, come indicato di seguito, è attualmente disponibile per chiunque abbia bisogno dei dati delle SERP. Ecco le sue limitazioni:

Fornisce informazioni limitate rispetto ai web scraper visuali, alle estensioni del browser o ad altri strumenti di web scraping.
Google lo ha sviluppato con l'intento di effettuare ricerche su un singolo sito web o su un numero ridotto di siti. Tuttavia, è possibile configurarlo per cercare nell'intero World Wide Web (WWW), il che richiede una notevole competenza tecnica.
È incredibilmente costoso, in quanto vi costerebbe una fortuna inviare un mucchio di richieste.

Quindi, con le sue limitazioni e i suoi costi, l'API di ricerca di Google non è la piattaforma ideale per lo scraping dei risultati delle SERP. È sempre meglio adottare i metodi alternativi menzionati in questo articolo.

Utilizzo di Python, richieste e BeautifulSoup

Per coloro che sono esperti di codifica con Python, questo metodo sarebbe utile. Ridurrebbe indubbiamente il costo in primo luogo, oltre ad avere un maggiore controllo.

In questo programma, estrarremo le SERP per la query di ricerca "Come imparare Python". Per semplificare le cose, si codificherà la query di ricerca. Dopo aver estratto il set di risultati, stamperemo il titolo dei risultati. Entriamo nel vivo.

import requests
from bs4 import BeautifulSoup
import random
 
text = 'How to learn Python programming'
url = 'https://google.com/search?q=' + text
useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
       )
 
Agent = useragent[random.randrange(len(useragent))]
 
headers = {'user-agent': Agent}
req = requests.get(url, headers=headers)
 
soup = BeautifulSoup(req.text, 'lxml')
for info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Qui spiegherò chiaramente ogni riga di codice:

richieste di importazione

Utilizziamo la libreria request di Python per scaricare la SERP. Quindi il modulo request invia una richiesta get al server di Google. Questo permette al programma di scaricare il contenuto HTML della SERP.

da bs4 importa BeautifulSoup

La riga seguente è autoesplicativa e carica la libreria BeautifulSoup. Questa libreria consente di analizzare documenti HTML e XML.

text = "Come imparare la programmazione Python".
url = 'https://google.com/search?q=' + testo

Questo pezzo di codice imposta l'URL del motore di ricerca da cui raschiare i dati. Ho impostato l'URL come google.com e, per la query di ricerca, ho aggiunto il testo nella variabile text, 'How to learn Python programming' come query di ricerca.

useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, come Gecko) Chrome/92.0.4515.107 Safari/537.36" )

Quindi il codice precedente imposta la stringa dell'interprete.

req = requests.get(url, headers=intestazioni)

Il codice precedente invia la richiesta al server web per scaricare il contenuto HTML richiesto dei risultati della ricerca.

soup = BeautifulSoup(req.text, 'lxml')

Creare un'istanza di BeautifulSoup con i dati che il codice precedente ha richiesto dalle intestazioni di 'lxml'. È necessario installare il pacchetto 'lxml' per far funzionare il codice precedente.

per info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Quindi, utilizzando un ciclo for, vengono estratti tutti i tag h3 per visualizzare i titoli.

Utilizzo di proxy residenziali per lo scraping delle SERP di Google

Come accennato in precedenza, i motori di ricerca come Google impongono restrizioni, tra cui il divieto di utilizzo dell'indirizzo IP quando si supera il limite di scraping. È qui che i proxy svolgono un ruolo cruciale nel mascherare il vostro indirizzo IP. Tra tutti i proxy disponibili, i proxy residenziali sono la scelta ideale. Questo perché i loro IP provengono da veri proprietari di abitazioni.

Tuttavia, quando si effettua lo scraping delle prime SERP, Google noterà che le vostre azioni sono disumane. A quel punto bloccherebbe l'indirizzo IP del vostro proxy e voi dovreste affrontare i captchas.

È qui che la rete di proxy residenziali agisce da salvatore. Quando si utilizza una rete di proxy residenziali, ognuno di essi ha un indirizzo IP unico. In questo modo sarete in grado di effettuare lo scraping dalle SERP ruotando gli indirizzi IP. In questo modo le vostre azioni appariranno come umane al motore di ricerca.

Per una spiegazione dettagliata delle deleghe residenziali, consultare questo articolo.

Implicazioni legali nell'utilizzo di proxy residenziali per lo scraping delle SERP di Google

A questo punto, dovreste avere un'idea chiara di cosa siano i proxy residenziali e di come possano aiutarvi a superare i divieti IP. Ora analizzeremo un fattore cruciale che molti utenti trascurano quando effettuano lo scraping dalle SERP di Google. Si tratta delle implicazioni legali dell'uso dei proxy residenziali.

Prima di tutto, è legale utilizzare proxy residenziali per scrappare le SERP di Google. Per questo motivo, potreste essere tentati di inviare un numero illimitato di richieste ai motori di ricerca come Google. In questo modo, si sovraccaricherebbero i server di Google con un gran numero di richieste. Questa non è la cosa giusta da fare, nemmeno secondo l'algoritmo delle SERP di Google.

Pertanto, è necessario assicurarsi di essere sempre rispettosi del sito web o del motore di ricerca di destinazione da cui si intende effettuare lo scraping dei dati. Dovrete inoltre adottare le migliori pratiche di scraping possibili, compreso il rispetto del vostro scraper nei confronti del motore di ricerca di destinazione.

Dovete limitare immediatamente le richieste o interrompere il processo di scraping se voi o il vostro provider proxy ricevete un reclamo dal server web di destinazione. Il reclamo può essere dovuto al fatto che il server Web di destinazione potrebbe avere un carico di lavoro elevato a causa delle vostre richieste illimitate. Pertanto, è necessario prestare attenzione a questi fatti.

Domande frequenti

È illegale fare scraping da Google?

Di solito, Google non gradisce che gli scrapers ne traggano i dati. Come ho affermato più volte in questo articolo, può vietare gli indirizzi IP. Inoltre, fino ad oggi, Google non ha preso alcun provvedimento per l'eccessivo scraping dei dati. Ovviamente, le aziende SEO non avrebbero una via d'uscita se Google intraprendesse tali azioni.

Conclusione

Ci auguriamo che abbiate acquisito una conoscenza generale dei diversi metodi utilizzati dagli scraper del Web per raschiare i dati dalle SERP. Infine, avete appreso come utilizzare i proxy residenziali per lo scraping delle SERP e le relative implicazioni legali.

Ci auguriamo che questo articolo vi sia utile e restate sintonizzati per altri articoli.

A cura di: ProxyScrape