Scrapoxy: Lo strumento definitivo per lo scraping del web senza restrizioni

Raschiamento, Guide, Come fare, 15-giugno-20245 minuti di lettura

Il web scraping è diventato uno strumento essenziale per sviluppatori, data scientist e professionisti IT che vogliono estrarre dati preziosi dai siti web. Tuttavia, la sfida di evitare i divieti, gestire i tassi di richiesta e mantenere l'anonimato può essere scoraggiante. Entriamo in ProxyScrape e Scrapoxy, duepotenti strumenti che, se integrati, rendono lo scraping del web più efficiente ed efficace.

In questo post esploreremo come combinare ProxyScrape con Scrapoxy, offrendovi una soluzione perfetta per le vostre esigenze di scraping del web. Iniziamo!

Volete invece un video? - Guardate questo!

Introduzione a Scrapoxy e ProxyScrape

Che cos'è lo Scrapoxy?

Scrapoxy è uno strumento di gestione dei proxy che semplifica il processo di integrazione dei proxy nei progetti di scraping del Web. Assicura che le attività di scraping non vengano rilevate grazie alla rotazione dei proxy e alla gestione dei tassi di richiesta.

Che cos'è ProxyScrape?

ProxyScrape è un servizio robusto che offre un'ampia gamma di soluzioni proxy, tra cui elenchi di proxy gratuiti, proxy premium, proxy residenziali e un'API per lo scraping del web. Grazie a funzioni come il geo-targeting, il rendering JavaScript e l'esecuzione di azioni, ProxyScrape è progettato per gestire anche le attività di scraping più complesse.

L'importanza dei proxy nello scraping del Web

L'uso dei proxy è fondamentale per diversi motivi:

  • Raccolta di dati: I proxy consentono di raccogliere dati dai siti web senza essere bloccati.
  • Anonimato: Aiutano a mantenere l'anonimato mascherando il vostro indirizzo IP.
  • Bypassare le restrizioni: I proxy consentono di aggirare le geo-restrizioni e di accedere a contenuti provenienti da regioni diverse.

Integrazione di ProxyScrape con Scrapoxy

L'integrazione di ProxyScrape con Scrapoxy è un processo semplice che può migliorare notevolmente l'efficienza dello scraping del web. Seguite questi passaggi per iniziare:

Passo 1: Ottenere i proxy da ProxyScrape

  • Iscriviti a ProxyScrape: Visitare il sito web ProxyScrape e registrarsi per un account.
  • Scegliete il vostro piano di proxy: A seconda delle vostre esigenze, scegliete l'elenco di proxy gratuiti o un piano premium che offre proxy residenziali o dedicati.
  • Scaricare l'elenco dei proxy: Accedere alla propria dashboard e scaricare l'elenco dei proxy in formato .txt.

Fase 2: installazione di scrapoxy

Per configurare Scrapoxy, bisogna innanzitutto capire che funziona come un contenitore Docker. Ciò consente una facile distribuzione e gestione del gestore di proxy. Seguite questi passaggi per far funzionare Scrapoxy sul vostro computer locale:

  • Se non è già installato, installare prima Docker.
  • Avviare il **terminale** ed eseguire il seguente comando:
docker run -d -p 8888:8888 -p 8890:8890 -v ./scrapoxy:/cfg -e AUTH_LOCAL_USERNAME=admin-e AUTH_LOCAL_PASSWORD=password-e BACKEND_JWT_SECRET=secret1-e FRONTEND_JWT_SECRET=secret2-e STORAGE_FILE_FILENAME=/cfg/scrapoxy.json fabienvauchelles/scrapoxy
  • Sostituire admin, password, secret1 e secret2 con i propri valori.
  • È ora possibile accedere all'interfaccia utente all'indirizzo http://localhost:8890, con il nome utente "admin" e la password "password".

Passo 3: Impostazione di un nuovo progetto

In Scrapoxy, un progetto si riferisce a un insieme specifico di configurazioni e proxy gestiti per una particolare attività di scraping del web. Ogni progetto consente di definire i proxy da utilizzare, di impostare le credenziali e di configurare i tassi di richiesta e le politiche di rotazione. Questo approccio modulare facilita la gestione dei requisiti dei diversi siti web e migliora l'efficienza complessiva e il tasso di successo delle attività di scraping del web.

Per prima cosa, impostiamo un progetto in modo da poter passare alle fasi successive:

  • Nella pagina iniziale, fare clic sul pulsante "Crea nuovo progetto".
  • Qui vi verrà richiesto un modulo in cui dovrete inserire le informazioni di cui sopra:
  • Nome: Identificativo univoco del progetto;
  • Nome utente: nome utente di autenticazione utilizzato per l'autenticazione proxy nelle richieste. 
  • Password: password di autenticazione utilizzata per l'autenticazione proxy nelle richieste. 
  • Rinnova token: Fare clic su questo pulsante per rinnovare nome utente e password;
  • Deleghe minime: Il numero minimo di deleghe online quando lo stato del progetto è CALM;
  • Rotazione automatica dei proxy: se attivata, i proxy vengono ruotati automaticamente a intervalli casuali entro l'intervallo di ritardo specificato;
  • Auto Scale Up: se abilitato, lo stato del progetto passa a HOT alla ricezione di una richiesta e tutti i proxy vengono avviati;
  • Riduzione automatica della scala: se abilitato, lo stato del progetto passa a CALMA se non si ricevono richieste dopo un ritardo specificato e tutti i proxy vengono fermati;
  • Intercetta le richieste HTTPS con MITM: se abilitato, Scrapoxy intercetta e modifica le richieste e le risposte HTTPS.
  • Certificato: Installare questo certificato CA per evitare avvisi di sicurezza nei browser o negli scanner;
  • Mantenimento dello stesso proxy con l'iniezione di cookie: Se abilitato, Scrapoxy inietta un cookie per mantenere lo stesso proxy per una sessione del browser (sticky cookie);
  • Sovrascrivi User-Agent: Se abilitato, Scrapoxy sovrascrive l'intestazione User-Agent con il valore assegnato a un'istanza proxy. Tutte le richieste effettuate con questa istanza avranno la stessa intestazione User-Agent;

All'interno del progetto, possiamo collegare i nostri proxy utilizzando una funzione chiamata connettore in Scrapoxy. Nella fase successiva, analizziamo cosa comporta.

Passo 4: Impostare il connettore ProxyList

Come suggerisce il nome, un connettore funge da ponte tra il vostro provider di proxy e Scrapoxy. Permette di ottenere i proxy dal proprio provider e di gestirli in modo efficace. Poiché Scrapoxy non può supportare direttamente tutti i provider di proxy, è possibile inserire un elenco di proxy da qualsiasi provider e questi saranno integrati in Scrapoxy. In Scrapoxy, questo connettore è denominato ProxyList. Di seguito troverete una guida passo passo su come integrare un elenco di proxy nel connettore ProxyList.

Prima di creare il connettore, è necessario stabilire una nuova credenziale. Come dice il nome, una credenziale consente di autenticare i proxy da un connettore. In questo esempio, stiamo usando un connettore ProxyList. Poiché abbiamo già il nostro elenco di proxy, non è necessario autenticarli in Scrapoxy. Tuttavia, ricordiamo che ogni volta che creiamo un connettore, dobbiamo avere un'istanza di credenziale per esso. Nel connettore ProxyList, una credenziale serve semplicemente come segnaposto.

Nelle sezioni che seguono, verrà illustrato il processo di impostazione di una credenziale, seguito dalla configurazione del connettore ProxyList.

  • Aprire l'interfaccia utente di Scrapoxy, andare al progetto desiderato e selezionare Marketplace:
  • Creare una nuova credenziale:
  • Selezionare Elenco proxy per creare una nuova credenziale (utilizzare la ricerca se necessario).
  • Compilare il modulo inserendo un nome per questa credenziale e fare clic su "Crea".
  • Nel pannello di sinistra, fare clic su "Connettori" e creare un nuovo connettore, selezionando Proxy List come provider:
  • Compilare il modulo con le seguenti informazioni:
    • Credenziale: La credenziale precedente;
    • Nome: Il nome del connettore;
    • # Proxy: Il numero di istanze da creare.
    • Timeout dei proxy: Durata massima della connessione a un proxy prima di considerarlo offline;
    • Calcificazione dei proxy: Se abilitato, la durata massima della disconnessione di un proxy prima della sua rimozione dal pool;
    • Timeout dei freeproxies: Come il Timeout dei proxy, ma per il pool di freeproxies;
    • Calcio dei freeproxies: Come Proxies Kick, ma per il pool di freeproxies.

Aggiungere una fonte di proxy

  • Sul connettore, fare clic su Aggiorna.
  • Incollare l'elenco dei proxy di ProxyScrape nell'area di testo e fare clic sull'icona più.

Scrapoxy supporta i seguenti formati:

  • ip:porta
  • ip:port:username:password
  • http://ip:port
  • http://username:password@ip:port
  • https://ip:port
  • https://username:password@ip:port
  • socks://ip:port (shortcut for socks5://ip:port)
  • socks://username:password@ip:port (shortcut for socks5://username:password@ip:port)
  • socks4://ip:port
  • socks4//nomeutente:password@ip:porta
  • socks5://ip:port
  • socks5//nomeutente:password@ip:porta

 Avviare il connettore

  • Avviare il progetto;
  • Avviare il connettore.

Fase 5: Integrare Scrapoxy nel processo di scraping del web.

In questo esempio mostreremo come integrare scrapoxy con la famosa libreria HTTP Requests di Python.

  • Installare la libreria
    • pip installa le richieste
  • Recuperare il certificato CA e il token del progetto
    • Aprire l'interfaccia utente di Scrapoxy e andare alle Impostazioni del progetto;
    • Fate clic su Download CA certificate e salvate il file (ricordate il token del progetto (formato USERNAME:PASSWORD));
  • Creare ed eseguire lo script
    • Creare un file chiamato requests.py con il seguente contenuto:
import requests
ca = "/tmp/scrapoxy-ca.crt"
proxy = "http://USERNAME:PASSWORD@localhost:8888"
r = requests.get(
   "https://fingerprint.scrapoxy.io",
   proxies={"http": proxy, "https": proxy},
   verify=ca
)
print("proxy instance:", r.headers["x-scrapoxy-proxyname"])
print(r.json())

Sostituire USERNAME e PASSWORD con le credenziali copiate in precedenza.

Scrapoxy include un'intestazione x-scrapoxy-proxyname in ogni risposta, indicando il nome dell'istanza proxy assegnata per la richiesta.

Per ulteriori esempi di implementazioni di Scrapoxy, vi invitiamo a esplorare questo link.

Migliori pratiche per uno scraping efficace del Web

Per sfruttare al meglio ProxyScrape e Scrapoxy, considerate le seguenti best practice:

  • Ruotare i proxy: Ruotare regolarmente i proxy per evitare il rilevamento e i divieti.
  • Gestire i tassi di richiesta: Mantenete una frequenza di richieste ragionevole per evitare di sovraccaricare il sito web di destinazione.
  • Rimanere inosservati: Utilizzate intestazioni e cookie per imitare il comportamento umano ed evitare di attirare l'attenzione sulle vostre attività di scraping.

Caso d'uso nel mondo reale 

Supponiamo che stiate effettuando lo scraping dei dati dei prodotti da un sito web di e-commerce. Integrando ProxyScrape con Scrapoxy, è possibile:

  • Recuperare gli URL dei prodotti: Utilizzate i proxy di ProxyScrape per raccogliere gli URL dei prodotti senza essere bloccati.
  • Estrarre i dettagli del prodotto: Ruotare i proxy con Scrapoxy per estrarre i dettagli dei prodotti come prezzo, disponibilità e recensioni.
  • Archiviare i dati in modo efficiente: Salvare i dati estratti in un database per l'analisi.

Conclusione

L'integrazione di ProxyScrape con Scrapoxy offre una soluzione perfetta per un efficiente scraping del web. Utilizzando i proxy per mantenere l'anonimato, aggirare le restrizioni e gestire i tassi di richiesta, è possibile migliorare notevolmente le capacità di estrazione dei dati.

Siete pronti a portare il vostro scraping web al livello successivo? Iscrivetevi oggi stesso a ProxyScrape e iniziate a integrarlo con Scrapoxy per un'esperienza di scraping fluida, efficiente e potente.

Ci piacerebbe conoscere le vostre esperienze con ProxyScrape e Scrapoxy! Condividete le vostre storie di successo, le sfide e i suggerimenti nei commenti qui sotto. E non dimenticate di esplorare altri contenuti sul web scraping nel nostro blog. Buon scraping!