Il Web Scraping è legale nel 2024?

Guide, Apr-05-20225 minuti di lettura

Se avete esperienza con i web scrapers, sapete come possono essere utili alla vostra azienda. Lo scraping del web fornisce dati che potete utilizzare per migliorare i vostri prodotti e servizi. Se i vostri dati personali sono stati raschiati dalle vostre pagine web, allora potreste essere arrabbiati perché potreste aver perso affari a causa di

Se avete esperienza con i web scrapers, sapete come possono essere utili alla vostra azienda. Lo scraping del web fornisce dati che potete utilizzare per migliorare i vostri prodotti e servizi.

Se i vostri dati personali sono stati scrapati dalle vostre pagine web, allora potreste essere arrabbiati perché potreste aver perso affari a causa di ciò. I proprietari di siti web sono contrariati dal fatto che il loro sito sia stato oggetto di scraping perché i dati presenti sul loro sito sono informazioni di identificazione personale.

Quando si fa data scraping sul web, si prendono le informazioni che qualcun altro ha messo insieme e le si usa per i propri scopi. Questo può essere fatto senza il permesso del proprietario del sito web. In alcuni casi, lo scraping di dati può violare i termini di servizio di un sito web.

Poiché sono in molti a farlo, si ritiene che l'uso di strumenti di scraping sia legale. Tuttavia, potreste anche aver sentito dire che il web scraping è illegale e può portare a multe salate. Qual è la verità? Il web scraping è legale nel 2023?

Che cosa sono i dati web?

Prima di discutere la legalità del web scraping, è importante capire i dati web. I dati web sono le informazioni che si trovano su un sito web. Comprendono il testo, le immagini, i video e gli altri contenuti che compongono un sito web e sono ciò che si cerca quando si effettua il web scraping.

I dati web si dividono in due categorie: pubblici e privati. I dati disponibili pubblicamente sono informazioni a cui chiunque può accedere e chiunque può accedere a questi siti web.

I dati privati o personali sono dati che non consentono l'accesso pubblico e la ricerca di questi dati sul Web può essere illegale.

Quando si fa web scraping, si prendono dati pubblici e li si usa per i propri scopi, motivo per cui il web scraping è legale nella maggior parte dei casi.

Che cos'è il Web Scraping?

 Il web scraping è un metodo per estrarre dati disponibili al pubblico da pagine web pubbliche. Gli scrapers possono raccogliere dati come informazioni di contatto, immagini, video e altro ancora.

Esistono diversi modi per estrarre i dati. Si può usare un semplice scraper che raccoglie solo dati testuali o uno scraper più sofisticato che raccoglie anche immagini e video.

Il web scraping consiste nel prendere informazioni dal sito web di qualcun altro e utilizzarle per i propri scopi. Questo può essere fatto senza il permesso della persona che ha creato il sito web. A seconda dei dati raccolti, il web scraping è legale o illegale.

Se le persone pubblicano dati pubblici su un sito web pubblico, è legale effettuare lo scraping di tali dati. Tuttavia, se si effettua lo scraping di dati privati o protetti da copyright, si potrebbe infrangere la legge.

Esistono diversi web scrapers disponibili online, alcuni dei quali possono essere utilizzati gratuitamente, mentre altri richiedono un abbonamento.

Perché le persone effettuano lo scraping del web?

Le persone utilizzano il web scraping per diversi motivi. Alcuni usano i web scrapers per estrarre dati a scopo di ricerca, altri per raccogliere informazioni di contatto o immagini. Ecco alcuni motivi comuni per effettuare lo scraping del web:

Raccogliere i dati dei concorrenti

Un'azienda potrebbe utilizzare un web scraper per estrarre dati sulla concorrenza e utilizzarli per migliorare i prodotti e i servizi dell'azienda o per scoprire nuove nicchie di mercato.

Campagne di vendita e marketing

Anche i venditori e gli esperti di marketing utilizzano i web scrapers. Gli esperti di marketing utilizzano i web scrapers per raccogliere dati su potenziali clienti e mercati e creare campagne di marketing mirate.

I venditori possono utilizzare uno strumento di web scraping per trovare le informazioni di contatto di un potenziale cliente e aggiungerlo a un elenco di chiamate o di e-mail. Questa è una pratica comune di lead generation resa possibile dal web scraping.

Estrarre le notizie da diverse fonti

Un motivo comune per effettuare lo scraping di dati pubblici è la raccolta di notizie da fonti diverse, che viene effettuata manualmente o utilizzando uno strumento di aggregazione di notizie.

Giornalisti e studenti utilizzano i data scrapers per documenti di ricerca, articoli e indagini. La possibilità di effettuare lo scraping di dati disponibili pubblicamente rende molto comodo il lavoro di giornalisti e ricercatori.

Raccogliere i dati per un modello di apprendimento automatico

I data scientist e le grandi aziende utilizzano i web scrapers per compilare i dati per i modelli di apprendimento automatico. Questi dati possono essere utilizzati per addestrare il modello a riconoscere modelli o fare previsioni su eventi futuri.

Gli scrapers web sono uno strumento importante per gli scienziati dei dati, in quanto consentono a questi modelli di accedere in modo automatizzato a una quantità di dati a cui altrimenti non avrebbero accesso. 

Siti web di spam

Alcune persone utilizzano anche strumenti di web scraping per spammare siti web. Questo avviene quando qualcuno raccoglie indirizzi e-mail da un sito web e poi invia al proprietario del sito e-mail indesiderate. Questo è uno dei motivi per cui alcuni mettono in dubbio l'etica del web scraping.

Rubare dati personali

Un altro uso non etico del web scraping è il furto di dati. Questo avviene quando qualcuno utilizza un web scraper per raccogliere dati privati, come numeri di carte di credito o credenziali di accesso, per commettere frodi o furti di identità.

Il web scraping è legale se viene utilizzato per rubare dati personali? Assolutamente no.

Nella maggior parte dei casi, lo scraping di dati pubblici è perfettamente legale. Tuttavia, esistono alcune eccezioni, che illustriamo in questo articolo.

Quando è legale lo scraping del web?

Il web scraping è legale nella maggior parte dei casi. Se state estraendo dati da un sito web pubblico, probabilmente non state violando alcuna legge. Negli Stati Uniti non esistono leggi federali che limitino lo scraping dei server web, ma non è possibile acquistare un numero eccessivo di bot per l'accesso automatico ai server in una sola volta.

In Europa, la situazione legale è simile, poiché non esistono leggi specifiche contro il web scraping. Tuttavia, se state effettuando lo scraping di dati protetti da leggi e termini di servizio, potreste violare il Regolamento generale sulla protezione dei dati (GDPR), che è un insieme di norme che proteggono la privacy dei cittadini europei.

Esistono alcune eccezioni a questa regola. Se state effettuando lo scraping di alcuni dati da un sito web che richiede un login o un paywall, potreste violare i termini di servizio di quel sito. 

Se si effettua lo scraping di dati protetti da copyright, l'utilizzo di tali dati può essere a rischio di violazione del copyright. Inoltre, se si tratta di scraping di dati privati, come informazioni di contatto o dati finanziari, ci si può trovare in difficoltà legali.

Quali sono i rischi del Web Scraping?

Sebbene lo scraping del web sia legale nella maggior parte dei casi, vi sono alcuni rischi associati che è bene conoscere. 

Violazione dei termini di servizio

Ogni sito web ha i suoi termini di servizio e la sua politica sulla privacy, che possono variare notevolmente. Alcuni siti web possono vietare del tutto il web scraping, mentre altri possono consentirlo a determinate condizioni. Se violate i termini di servizio di un sito web, potreste essere soggetti a una causa o ad altri problemi legali.

Scraping di dati protetti

Un altro rischio è che si possano raschiare dati protetti da copyright. La legge sul copyright protegge le opere creative, come libri, film e musica. Se si utilizzano strumenti di web scraping per i dati protetti da copyright, si potrebbe essere a rischio di violazione del copyright.

Inoltre, è possibile effettuare lo scraping di dati privati, tra cui informazioni di contatto o dati finanziari. Se si effettua lo scraping di questo tipo di dati senza l'autorizzazione del proprietario, si potrebbe violare il suo diritto alla privacy.

Violazione delle leggi locali

In alcuni casi, esistono normative locali associate al web scraping. Ad esempio, nell'Unione Europea, il GDPR protegge la privacy dei cittadini. Se accedete a dati protetti dal GDPR, potreste essere soggetti a una multa o ad altre conseguenze legali.

La legge sulla frode e l'abuso di computer

Il Computer Fraud and Abuse Act del 1986(CFAA) è una legge federale statunitense che vieta l'accesso non autorizzato ai sistemi informatici. Se si effettua lo scraping di dati da un sito web che richiede l'autenticazione senza l'autorizzazione del proprietario, si potrebbe incorrere in una violazione del CFAA.

La legge proibisce l'accesso non autorizzato a "computer protetti", che comprende qualsiasi computer in commercio o comunicazione interstatale o estera. In altre parole, se accedete a dati sensibili da un sito web negli Stati Uniti, potreste violare il Computer Fraud and Abuse Act.

Che cos'è la frode informatica?

La frode informatica è qualsiasi tipo di attività fraudolenta che coinvolge l'uso di un computer, e comprende attività come l'hacking in un sistema informatico, il furto di dati o il danneggiamento di un sistema informatico.

Il web scraping può essere considerato una frode informatica se si accede ai dati senza l'autorizzazione del proprietario. Ad esempio, se si accede a dati personali da un sito web che si trova dietro un paywall, si potrebbero violare i termini di servizio del sito stesso.

Inoltre, se accedete ai dati da un sito web che richiede un login, potreste anche violare i termini di servizio. Il semplice aggiramento della finestra pop-up e della schermata di login potrebbe essere considerato un accesso non autorizzato ai sensi della CFAA.

Le principali cause legali statunitensi sul web scraping

Negli Stati Uniti, ci sono numerosi esempi di aziende che hanno superato i limiti legali con il web scraping. Ecco alcune delle principali cause legali:

Linkedin vs. hiQ

Nel 2019 LinkedIn ha inviato una lettera di diffida alla startup hiQ, accusandola di aver effettuato il web scraping dei profili pubblici degli utenti. LinkedIn sosteneva che hiQ stesse violando la CFAA. La prima ordinanza del Nono Circuito ha dato ragione a hiQ, ma LinkedIn si è rivolta alla Corte Suprema degli Stati Uniti. Nel giugno del 2021, la Corte Suprema si è pronunciata a favore di un caso di revisione.

eBay vs. eBidder

Nel 2000, il sito di aste online eBay ha citato in giudizio la startup di dati eBidder per aver effettuato lo scraping del suo sito. Il caso è stato risolto al di fuori della Corte Suprema degli Stati Uniti e a eBidder è stato ordinato di smettere di effettuare lo scraping dei dati di eBay. Il motivo principale per cui eBay vinse la causa fu che le frequenti richieste al suo server web causavano l'esaurimento del sistema.

Facebook contro Power Ventures

Nel 2009, Facebook ha citato in giudizio il sito di social network Power Ventures per aver effettuato il web scraping dei dati degli utenti. Questo è stato uno dei primi esempi di causa legale che ha avuto origine dal punto di vista della proprietà intellettuale. Facebook sosteneva che Power Ventures stava violando i suoi termini di servizio.

Facebook ha vinto la causa sulla base del precedente legale secondo cui gli utenti di Facebook hanno diritti di proprietà intellettuale. Power Ventures stava effettuando lo scraping di dati personali, il che significa che una parte sostanziale dei dati personali era protetta dalle leggi sulla privacy.

Migliori pratiche di web scraping etico

Per assicurarsi di effettuare lo scraping di dati web in modo etico, è necessario seguire alcune pratiche:

Controllare i Termini di servizio

Prima di iniziare a utilizzare i web crawler su un sito web, assicuratevi di controllare i termini di servizio. Alcuni siti web possono vietare del tutto il web scraping, mentre altri possono consentirlo a determinate condizioni.

Ottenere l'autorizzazione prima di raschiare i dati privati

Se volete entrare in possesso di dati privati, come informazioni di contatto o dati finanziari, dovete prima ottenere il permesso del proprietario contattandolo. Potete farlo inviando loro un'e-mail o chiedendoglielo di persona.

Non scannerizzare i dati personali

Quando si effettua lo scraping dei dati, evitare di scrapare dati sensibili, come dati protetti da copyright, dati privati e altri tipi di informazioni sensibili.

Attenzione allo scraping di siti web locali

Se state effettuando lo scraping di dati pubblici da un sito web locale, assicuratevi di essere a conoscenza di tutte le normative locali applicabili. Ad esempio, nell'Unione Europea, il GDPR protegge la privacy dei cittadini e la CFAA fa lo stesso negli Stati Uniti.

Seguire la regola d'oro

Se volete minimizzare i rischi, seguite sempre la regola d'oro: trattate gli altri come vorreste essere trattati voi. Se non volete che qualcuno faccia lo scraping dei vostri dati senza il vostro permesso, non fatelo a qualcun altro.

Il bilancio

La legalità del web scraping è ancora una zona grigia dal punto di vista legale. Tuttavia, ci sono alcune cose che potete fare per assicurarvi di effettuare lo scraping in modo etico.

Verificate i termini di servizio del sito web che volete scrapare, chiedete l'autorizzazione prima di scrapare dati privati e fate attenzione quando scrapate dati sensibili.

Inoltre, assicuratevi sempre di accedere ai dati con una velocità di crawl ragionevole, per evitare di sovraccaricare inutilmente i server del sito web. Finché si tratta di scraping di dati accessibili pubblicamente, non dovrebbero esserci problemi.

Ricordate sempre che dall'altra parte dei vostri siti web ci sono utenti umani, quindi assicuratevi di seguire la regola d'oro: trattate gli altri come vorreste essere trattati voi.

Avete mai partecipato a un progetto di web scraping? Fatecelo sapere nei commenti qui sotto!