volete aiutarci? Ecco le opzioni disponibili:","Crunchbase","Chi siamo","Grazie a tutti per l'incredibile supporto!","Collegamenti rapidi","Programma di affiliazione","ProxyScrape prova premium","Controllore di proxy online","Tipi di proxy","Paesi proxy","Casi d'uso del proxy","Importante","Informativa sui cookie","Esclusione di responsabilità","Informativa sulla privacy","Termini e condizioni","Media sociali","Facebook","LinkedIn","Twitter","Quora","Telegramma","Discordia"," © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belgio | IVA BE 0749 716 760"]}
Uno dei modi più semplici per avere una buona clientela è quello di avere il maggior numero possibile di indirizzi e-mail aziendali e di inviare loro di volta in volta i dettagli del vostro servizio. Su Internet sono presenti molti strumenti di scraping che forniscono questi servizi gratuitamente, ma hanno limiti di prelievo dei dati. Offrono anche limiti di estrazione dei dati illimitati, ma sono a pagamento. Perché pagarli quando potete costruirne uno con le vostre mani? Vediamo i passaggi per costruire uno strumento di scraping di qualità utilizzando Python.
Anche se si tratta di un esempio molto semplice per i principianti, sarà un'esperienza di apprendimento, soprattutto per coloro che sono alle prime armi con il web scraping. Questo sarà un tutorial passo dopo passo che vi aiuterà a ottenere indirizzi e-mail senza alcun limite. Iniziamo con il processo di costruzione del nostro web scraper intelligente.
Per il nostro progetto utilizzeremo i seguenti sei moduli.
Di seguito sono riportati i dettagli dei moduli importati:
In questa fase, inizializzeremo un deque che salverà gli URL raschiati, gli URL non raschiati e una serie di e-mail di salvataggio raschiate con successo dai siti web.
Gli elementi duplicati non sono ammessi in un insieme, quindi sono tutti unici.
urlsplit() restituisce una 5-tupla: (schema di indirizzamento, posizione in rete, percorso, query, frammento, identificatore).
Non posso mostrare esempi di input e output per urlsplit() per motivi di riservatezza, ma una volta provato, il codice chiederà di inserire un valore (indirizzo del sito web). L'output mostrerà SplitResult() e all'interno di SplitResult() ci saranno cinque attributi.
Questo ci permetterà di ottenere la base e il percorso dell'URL del sito web.
The <a href=””> tag indicates a hyperlink that can be used to find all the linked URLs in the document.
Quindi troveremo i nuovi URL e li aggiungeremo alla coda unscraped se non sono presenti né in scraped né in unscraped.
Provando il codice da soli, si noterà che non tutti i link sono in grado di essere raschiati, quindi è necessario escluderli,
Per analizzare meglio i risultati, esporteremo le e-mail in un file CSV.
Se si utilizza Google Colab, è possibile scaricare il file sul computer locale tramite
Come già spiegato, non posso mostrare gli indirizzi e-mail scartati per questioni di riservatezza.
[Disclaimer! Alcuni siti web non permettono di fare web scraping e hanno bot molto intelligenti che possono bloccare permanentemente il vostro IP, quindi fate scraping a vostro rischio e pericolo].
Poiché le aziende hanno bisogno di numerosi indirizzi e-mail per costruire la loro lista di contatti, è necessario raccogliere i dati da più fonti. Il processo di raccolta manuale dei dati può essere noioso e richiede molto tempo. In questo caso, gli scrapers di solito scelgono i proxy per accelerare il processo e aggirare le restrizioni che si presentano. Proxyscrape fornisce proxy ad alta larghezza di banda che sono in grado di scrapare dati illimitati e funzionano 24 ore su 24, 7 giorni su 7, per garantire una funzionalità ininterrotta. Il livello di anonimato del proxy è sufficientemente alto da nascondere l'identità degli scrapers.
La creazione di una lista di contatti potenziali con indirizzi e-mail qualificati faciliterà il processo di raggiungimento del pubblico target. Poiché la maggior parte delle persone utilizza l'e-mail come mezzo di comunicazione, è più facile raggiungerle attraverso gli indirizzi e-mail.
Durante lo scraping degli indirizzi e-mail da più fonti, gli scrapers possono trovarsi di fronte ad alcune sfide come i blocchi IP o le barriere geografiche. In questo caso, i proxy nascondono gli indirizzi degli utenti con l'indirizzo proxy e rimuovono i blocchi nell'accesso ai siti web bloccati.
È sempre legale raccogliere dati disponibili al pubblico. Pertanto, gli scrapers devono assicurarsi che i dati che stanno raccogliendo siano disponibili nel pubblico dominio. In caso contrario, possono raccogliere i dati previa autorizzazione per mantenere la legalità dello scraping.
In questo articolo abbiamo esplorato un'altra meraviglia del web scraping mostrando un esempio pratico di scraping di indirizzi e-mail. Abbiamo tentato l'approccio più intelligente realizzando il nostro web crawler con Python, la libreria più semplice e allo stesso tempo più potente, chiamata BeautfulSoup. Il web scraping può essere di grande aiuto se fatto nel modo giusto, considerando le vostre esigenze. Anche se abbiamo scritto un codice molto semplice per lo scraping degli indirizzi e-mail, è totalmente gratuito e non è necessario affidarsi ad altri servizi. Ho fatto del mio meglio per semplificare il codice il più possibile e ho anche aggiunto spazio per la personalizzazione, in modo che possiate ottimizzarlo in base alle vostre esigenze.