Guida pratica al Data Scraping per i Content Marketer

Come Digital Marketers dovremmo usare i big data come strumento decisionale. Usare determinate informazioni per capire cosa funziona all’interno del nostro settore è cruciale nelle campagne di content marketing e mi sbalordisce sapere che tante aziende non ci si focalizzino.

Una delle ragioni che sento spesso addurre dalle aziende, è che non hanno il budget per investire in strumenti complessi e costosi che gli procurino tonnellate di dati. Detto ciò, non si ha sempre bisogno di investire in strumenti costosi per raccogliere informazioni preziose – ed è proprio qui che entra in gioco il data scraping.

Per farvi un esempio, ecco una breve descrizione del Data Scraping estratta da Wikipedia:

“Data scraping is a technique in which a computer program extracts data from human-readable output coming from another program.”

Fondamentalmente si tratta di scorrere una pagina web e raccogliere pezzi di informazioni che potete usare per condurre la vostra analisi. Ad esempio, potete cercare in un sito come Search Engine Land e fare lo scrape dei nomi degli autori di ogni post pubblicato, in seguito potete correlarlo con i dati di social sharing per scoprire chi sono i top performing authors di quel sito.

Spero iniziate a capire quanto questi dati siano utili. Inoltre non si richiede nessuna conoscenza di codifica: seguendo alcune semplici istruzioni, potrete cominciare a raccogliere informazioni utili per le vostre campagne.

Nota: Prima che iniziate a leggere il post è necessario specificare che lo scraping di un sito rischia di violarne i termini di servizio. Dovete assicurarvi che questo non succeda prima di iniziare le vostre attività di scraping. Ad esempio, Twitter proibisce tassativamente lo scraping delle informazioni sul proprio sito.
Questo e’ ciò che si legge sulle Condizioni del Servizio di Twitter:

l’effettuazione di ricerche a scopo di indicizzazione (crawling) nei confronti dei Servizi è permesso se ciò avviene nel rispetto delle disposizioni del file robots.txt, tuttavia l’estrazione di informazioni effettuata con modalità automatizzate (scraping) senza il previo consenso di Twitter è espressamente vietato

In maniera analoga Google proibisce lo scraping del contenuti:

I Termini di servizio di Google non consentono l’invio al sistema di query automatizzate di alcun tipo senza il previo consenso esplicito di Google. L’invio di query automatizzate consuma risorse e prevede l’utilizzo di software (ad esempio WebPosition Gold) per stabilire il posizionamento di un sito o di una pagina web nei risultati di ricerca di Google per varie query. Oltre al controllo del ranking, anche altri tipi di accesso automatizzato a Google senza autorizzazione costituiscono una violazione delle nostre Istruzioni per i webmaster e dei nostri Termini di servizio.

Quindi, occhio ragazzi!

Analisi dei contenuti

Padroneggiare le basi del data scraping aprirà una gamma infinita di possibilità per l’analisi dei contenuti. Consiglio ad ogni content marketer (o almeno ad un membro del suo team) di tenersi aggiornato sull’argomento.

Prima che inizi con esempi specifici, assicuratevi che il vostro computer abbia Microsoft Excel (tutti dovrebbero avere Excel!) e anche il SEO Tools plugin per Excel (qui puoi scaricarlo gratuitamente). Ho anche realizzato un tutorial per SEO Tools plugin che potrebbe interessarvi.

Inoltre servirebbe uno strumento per il Web Crawling come Screaming Frog’s SEO Spider o Xenus Link (entrambi hanno opzioni gratuite). Una volta impostati, sarete in grado di fare tutto cio’ che descrivo a seguire. Qui imparerete come fare lo scraping finalizzato dell’analisi di contenuti e alcune modalità per applicarlo alle vostre campagne di content marketing.

1. Trovare i diversi autori di un blog

Analizzare importanti pubblicazioni e blog per scoprire chi sono gli autori influenti può fornirvi dei dati veramente importanti. Una volta ottenuta la lista degli autori di un blog, potrete scoprire quelli che hanno creato contenuti, ottenuto buoni risultati sui social media e generato molti commenti, e anche raccogliere statistiche supplementari circa il loro seguito sui social, ecc.

Io personalmente uso quotidianamente queste informazioni per stabilire relazioni con gli autori più influenti e riesco a far sì che il mio contenuto venga pubblicato sui siti web più importanti del settore. Ecco come fare:

Passo 1:

Raccogliete una lista di URL dal dominio che state analizzando utilizzando Screaming Frog’s SEO Spider. Basta aggiungere il root domain all’interno dell’interfaccia di Screaming Frog’s e premere start (se non avete mai usato questo strumento, date un’occhiata al mio tutorial). Non appena il tool avrà completato la raccolta di tutti gli URL (questa operazione può richiedere molto tempo per i siti di grandi dimensioni), semplicemente esportate tutto su un foglio Excel.

Passo 2:

Aprite Google Chrome e spostatevi in una delle pagine contenenti articoli all’interno del dominio che state analizzando e trovate dove si menziona il nome dell’autore (solitamente lo si trova all’interno della sezione bio di un autore oppure sotto il titolo del post). Una volta trovato, cliccate sul nome col tasto destro e selezionate la voce ispeziona elemento (arriverete così alla console sviluppatori di Chrome). All’interno della console sviluppatori, la linea di codice associata al nome dell’autore che avete selezionato sarà evidenziata (guardate l’immagine sotto). Ciò che dovete fare adesso è cliccare col tasto destro sulla linea di codice evidenziata e selezionare Copy XPath.

Per il sito Search Engine Land, il codice da copiare sarà il seguente:

Passo 3:

Riprendete il vostro foglio con gli URL ed eliminate tutte le informazioni extra che Screaming Frog vi ha fornito, lasciando unicamente la lista degli URL. Fatto questo, aggiungetele alla prima colonna (colonna A) del vostro foglio di lavoro.

Passo 4:

Nella cella B2 aggiungete la seguente formula:

Giusto per esemplificare meglio questa formula, la funzione XpathOnUrl vi consente di usare direttamente all’interno il codice XPath (ma solo con il SEO Tools plugin installato, senza non funzionerà). Il primo elemento della funzione specifica su quale URL stiamo per fare lo scrape. In questo esempio ho selezionato la cella A2, che contiene un URL che ho ottenuto dalla scansione fatta con Screaming Frog (in alternativa potreste semplicemente digitare la URL, facendo in modo che si trovi tra virgolette). Per finire, l’ultima parte della funzione e’ il nostro codice XPath. Dovete eliminare le virgolette dal codice e sostituirle con gli apostrofi. In questo esempio (mi riferisco alla sezione “leftCol”, che ho modificato in ‘leftCol’ ) se non lo fate Excel non sarà in grado di leggere correttamente la formula.

Una volta premuto Enter, probabilmente ci vorranno un paio di secondi affinchè il SEO Tools plugin scansioni la pagina.

Bisogna notare che all’interno dell’esempio fato sopra, stiamo cercando nomi di autori all’interno delle pagine di un articolo, quindi se provo ad usare un URL che non e’ un articolo (ad esempio: la homepage) otterrò un errore.

Il codice XPath funziona partendo dall’inizio del codice dell’URL specificato e seguendo le istruzioni riportate per trovare elementi on-page e restituire risultati. Quindi, per il seguente codice:

Stiamo dicendo che cercherà ogni elemento (//*) che ha un ID di leftCol e poi di scendere giù sino al secondo TAG DIV (div[2]), seguito da un TAG P, uno SPAN ed un A. Il risultato dovrebbe essere il testo contenuto dentro il TAG A.

Non vi preoccupate se non riuscite a capirlo, ma se ci arrivate, vi aiutera’ a creare il vostro XPath. Ad esempio, se volete estrarre il contenuto di un TAG A che contiene rel=auothor (un altro ottimo sistema per trovare autori di pagine), allora potreste usare un XPath che assomigli a questo:

La formula completa in Excel sara’ qualcosa del genere:

Una volta creata la formula, potete trascinarla giù e applicarla ad un gran numero di URL allo stesso tempo. Ciò comporta un enorme risparmio di tempo poiché, senza lo scraping, avreste dovuto andare manualmente su ogni sito e fare copia e incolla per ogni autore per ottenere gli stessi risultati. Un enorme perdita di tempo!

Ora che vi ho spiegato le basi, vi mostrerò altri modi in cui lo scraping puo’ essere usato.

2. Trovare altri dettagli nella pagina degli autori

Dunque, abbiamo trovato una lista di nomi di autori, ed è fantastico, ma per saperne veramente di più su di loro abbiamo bisogno di più dati. Lo ripeto: spesso questi dari possono essere recuperati con lo scraping del sito che si sta analizzando.

La maggior parte di blog/pubblicazioni che elencano i nomi degli autori degli articoli, hanno in realtà pagine sui singoli autori. Nuovamente, utilizzando Search Engine Land come esempio, se cliccate il mio nome in cima a questo post verrete portati su una pagina contenente più dettagli su di me, inclusi i miei profili Twitter, Google+ e Linkedin. Questo e’ il genere di dati che voglio raccogliere perchè mi forniscono un punto di contatto con l’autore che sto cercando di raggiungere.

Ecco come farlo.