Guida pratica al Data Scraping per i Content Marketer

I Big Data dovrebbero essere usati come strumento decisionale da ogni Content Marketer. Utilizzare queste informazioni per capire cosa funziona all’interno di un determinato settore è fondamentale per creare una campagna di content marketing. Ed è qui che risulta di notevole importanza il Data Scraping.

Come Digital Marketers dovremmo usare i big data come strumento decisionale. Usare determinate informazioni per capire cosa funziona all’interno del nostro settore è cruciale nelle campagne di content marketing e mi sbalordisce sapere che tante aziende non ci si focalizzino.

Una delle ragioni che sento spesso addurre dalle aziende, è che non hanno il budget per investire in strumenti complessi e costosi che gli procurino tonnellate di dati. Detto ciò, non si ha sempre bisogno di investire in strumenti costosi per raccogliere informazioni preziose – ed è proprio qui che entra in gioco il data scraping.

Per farvi un esempio, ecco una breve descrizione del Data Scraping estratta da Wikipedia:

“Data scraping is a technique in which a computer program extracts data from human-readable output coming from another program.”

Fondamentalmente si tratta di scorrere una pagina web e raccogliere pezzi di informazioni che potete usare per condurre la vostra analisi. Ad esempio, potete cercare in un sito come Search Engine Land e fare lo scrape dei nomi degli autori di ogni post pubblicato, in seguito potete correlarlo con i dati di social sharing per scoprire chi sono i top performing authors di quel sito.

Spero iniziate a capire quanto questi dati siano utili. Inoltre non si richiede nessuna conoscenza di codifica: seguendo alcune semplici istruzioni, potrete cominciare a raccogliere informazioni utili per le vostre campagne.

Nota: Prima che iniziate a leggere il post è necessario specificare che lo scraping di un sito rischia di violarne i termini di servizio. Dovete assicurarvi che questo non succeda prima di iniziare le vostre attività di scraping. Ad esempio, Twitter proibisce tassativamente lo scraping delle informazioni sul proprio sito.
Questo e’ ciò che si legge sulle Condizioni del Servizio di Twitter:

l’effettuazione di ricerche a scopo di indicizzazione (crawling) nei confronti dei Servizi è permesso se ciò avviene nel rispetto delle disposizioni del file robots.txt, tuttavia l’estrazione di informazioni effettuata con modalità automatizzate (scraping) senza il previo consenso di Twitter è espressamente vietato

In maniera analoga Google proibisce lo scraping del contenuti:

I Termini di servizio di Google non consentono l’invio al sistema di query automatizzate di alcun tipo senza il previo consenso esplicito di Google. L’invio di query automatizzate consuma risorse e prevede l’utilizzo di software (ad esempio WebPosition Gold) per stabilire il posizionamento di un sito o di una pagina web nei risultati di ricerca di Google per varie query. Oltre al controllo del ranking, anche altri tipi di accesso automatizzato a Google senza autorizzazione costituiscono una violazione delle nostre Istruzioni per i webmaster e dei nostri Termini di servizio.

Quindi, occhio ragazzi!

Analisi dei contenuti

Padroneggiare le basi del data scraping aprirà una gamma infinita di possibilità per l’analisi dei contenuti. Consiglio ad ogni content marketer (o almeno ad un membro del suo team) di tenersi aggiornato sull’argomento.

Prima che inizi con esempi specifici, assicuratevi che il vostro computer abbia Microsoft Excel (tutti dovrebbero avere Excel!) e anche il SEO Tools plugin per Excel (qui puoi scaricarlo gratuitamente). Ho anche realizzato un tutorial per SEO Tools plugin che potrebbe interessarvi.

Inoltre servirebbe uno strumento per il Web Crawling come Screaming Frog’s SEO Spider o Xenus Link (entrambi hanno opzioni gratuite). Una volta impostati, sarete in grado di fare tutto cio’ che descrivo a seguire. Qui imparerete come fare lo scraping finalizzato dell’analisi di contenuti e alcune modalità per applicarlo alle vostre campagne di content marketing.

1. Trovare i diversi autori di un blog

Analizzare importanti pubblicazioni e blog per scoprire chi sono gli autori influenti può fornirvi dei dati veramente importanti. Una volta ottenuta la lista degli autori di un blog, potrete scoprire quelli che hanno creato contenuti, ottenuto buoni risultati sui social media e generato molti commenti, e anche raccogliere statistiche supplementari circa il loro seguito sui social, ecc.

Io personalmente uso quotidianamente queste informazioni per stabilire relazioni con gli autori più influenti e riesco a far sì che il mio contenuto venga pubblicato sui siti web più importanti del settore. Ecco come fare:

Passo 1:

Raccogliete una lista di URL dal dominio che state analizzando utilizzando Screaming Frog’s SEO Spider. Basta aggiungere il root domain all’interno dell’interfaccia di Screaming Frog’s e premere start (se non avete mai usato questo strumento, date un’occhiata al mio tutorial). Non appena il tool avrà completato la raccolta di tutti gli URL (questa operazione può richiedere molto tempo per i siti di grandi dimensioni), semplicemente esportate tutto su un foglio Excel.

Passo 2:

Aprite Google Chrome e spostatevi in una delle pagine contenenti articoli all’interno del dominio che state analizzando e trovate dove si menziona il nome dell’autore (solitamente lo si trova all’interno della sezione bio di un autore oppure sotto il titolo del post). Una volta trovato, cliccate sul nome col tasto destro e selezionate la voce ispeziona elemento (arriverete così alla console sviluppatori di Chrome). All’interno della console sviluppatori, la linea di codice associata al nome dell’autore che avete selezionato sarà evidenziata (guardate l’immagine sotto). Ciò che dovete fare adesso è cliccare col tasto destro sulla linea di codice evidenziata e selezionare Copy XPath.

Per il sito Search Engine Land, il codice da copiare sarà il seguente:

codice sito search engine land

 Passo 3:

Riprendete il vostro foglio con gli URL ed eliminate tutte le informazioni extra che Screaming Frog vi ha fornito, lasciando unicamente la lista degli URL. Fatto questo, aggiungetele alla prima colonna (colonna A) del vostro foglio di lavoro.

foglio di lavoro raccolta urlPasso 4:

Nella cella B2 aggiungete la seguente formula:

formula

 

Giusto per esemplificare meglio questa formula, la funzione XpathOnUrl vi consente di usare direttamente all’interno il codice XPath (ma solo con il SEO Tools plugin installato, senza non funzionerà). Il primo elemento della funzione specifica su quale URL stiamo per fare lo scrape. In questo esempio ho selezionato la cella A2, che contiene un URL che ho ottenuto dalla scansione fatta con Screaming Frog (in alternativa potreste semplicemente digitare la URL, facendo in modo che si trovi tra virgolette). Per finire, l’ultima parte della funzione e’ il nostro codice XPath. Dovete eliminare le virgolette dal codice e sostituirle con gli apostrofi. In questo esempio (mi riferisco alla sezione “leftCol”, che ho modificato in ‘leftCol’ ) se non lo fate Excel non sarà in grado di leggere correttamente la formula.

Una volta premuto Enter, probabilmente ci vorranno un paio di secondi affinchè il SEO Tools plugin scansioni la pagina.

Bisogna notare che all’interno dell’esempio fato sopra, stiamo cercando nomi di autori all’interno delle pagine di un articolo, quindi se provo ad usare un URL che non e’ un articolo (ad esempio: la homepage) otterrò un errore.

screenshot urlIl  codice XPath funziona partendo dall’inizio del codice dell’URL specificato e seguendo le istruzioni riportate per trovare elementi on-page e restituire risultati. Quindi, per il seguente codice:

codice xpath

 

Stiamo dicendo che cercherà ogni elemento (//*) che ha un ID di leftCol e poi di scendere giù sino al secondo TAG DIV (div[2]), seguito da un TAG P, uno SPAN ed un A. Il risultato dovrebbe essere il testo contenuto dentro il TAG A.

Non vi preoccupate se non riuscite a capirlo, ma se ci arrivate, vi aiutera’ a creare il vostro XPath. Ad esempio, se volete estrarre il contenuto di un TAG A che contiene rel=auothor (un altro ottimo sistema per trovare autori di pagine), allora potreste usare un XPath che assomigli a questo:

rel author formula

 

La formula completa in Excel sara’ qualcosa del genere:

funzione completa excel

 

Una volta creata la formula, potete trascinarla giù e applicarla ad un gran numero di URL allo stesso tempo. Ciò comporta un enorme risparmio di tempo poiché, senza lo scraping, avreste dovuto andare manualmente su ogni sito e fare copia e incolla per ogni autore per ottenere gli stessi risultati. Un enorme perdita di tempo!

Ora che vi ho spiegato le basi, vi mostrerò altri modi in cui lo scraping puo’ essere usato.

2. Trovare altri dettagli nella pagina degli autori

Dunque, abbiamo trovato una lista di nomi di autori, ed è fantastico, ma per saperne veramente di più su di loro abbiamo bisogno di più dati. Lo ripeto: spesso questi dari possono essere recuperati con lo scraping del sito che si sta analizzando.

La maggior parte di blog/pubblicazioni che elencano i nomi degli autori degli articoli, hanno in realtà pagine sui singoli autori. Nuovamente, utilizzando Search Engine Land come esempio, se cliccate il mio nome in cima a questo post verrete portati su una pagina contenente più dettagli su di me, inclusi i miei profili Twitter, Google+ e Linkedin. Questo e’ il genere di dati che voglio raccogliere perchè mi forniscono un punto di contatto con l’autore che sto cercando di raggiungere.

Ecco come farlo.

Passo 1:

Per prima cosa abbiamo bisogno di avere gli URL del profilo autore così da poterne fare lo scrape e ottenere maggiori dettagli. Per farlo, potete usare lo stesso approccio usato per trovare il nome dell’autore, con una piccola aggiunta alla formula:

aggiunta formula url

L’aggiunta della parte “href” della formula estrarra’ la produzione dell’attributo href dell’A TAG. In altre parole si troverà il collegamento ipertestuale collegato al nome dell’autore e come risultato ne darà l’URL

lista urlPasso 2:

Ora che abbiamo gli URL delle pagine profilo dell’autore, potete procedere con il recupero dei profili sui social media. Invece di fare scraping sugli URL degli articoli, useremo gli URL dei profili.

Come prima, per raccogliere i link Twitter, Google+ e Linkedin abbiamo bisogno di trovare il codice XPath. Per farlo aprite Google Chrome e navigate in una delle pagine dei profili degli autori, cliccate il tasto destro sul link Twitter e selezionate Ispeziona Elemento. Una volta fatto, passate il mouse sopra il codice evidenziato all’interno di Chrome developer tools, cliccate con il tasto destro e selezionate Copy XPath.

come trovare codice xpathPasso 3:

Infine aprite il vostro foglio Excel e aggiungete la seguente formula (usando l’XPath che avete copiato sopra):

xpath codice

Ricordatevi che questo e’ il codice per fare scraping su Search Engine Land, quindi se lo state facendo su un sito diverso sarà quasi sicuramente differente. Una cosa importante da sottolineare è che qui ho selezionato la cella C2, che contiene l’URL del profilo dell’autore e non solo la pagina che contiene l’articolo. Oltre a questo, noterete che ho incluso “href” alla fine perchè vogliamo l’effettiva URL del profilo Twitter e non solo le parole ‘Twitter’.

fare scraping sui socialA questo punto potete ripetere la stessa procedura per ottenere gli URL dei profili Google+ e Linkedin e aggiungerli al vostro foglio di calcolo. Spero che stiate iniziando a vedere il valore di questo processo e capire come puo’ essere usato per raccogliere tante informazioni nascoste che possono essere utilizzate per tutti i tipi di attività online, non soltanto per le vostre campagne SEO e social media.

3. Raccogliere la lista dei follower dei Social Network

Ora che abbiamo gli account degli autori sui social media, è ragionevole avere l’elenco dei loro follower in modo che possano essere classificati in base alla loro influenza all’interno dell’elenco.
Qui trovate e formule finali XPath che potete collegare direttamente ad Excel per ogni social network per ottenere gli elenchi dei loro follower. Tutto cio’ che dovrete fare è sostituire il testo INSERT SOCIAL PROFILE URL con la cella di riferimento all’URL Google+/Linkedin:

Google+:

google+ formulaLinkedIn:

linkedin formula

4. Fare scraping con i titoli delle pagine

Una volta ottenuta una lista di URL, avrete voglia di sapere quali siano i contenuti. Utilizzando questo XPath per ogni URL verrà visualizzato il titolo della pagina:

title formula

Se utilizzate il plugin SEO Tools per Excel, potete semplicemente usare la funzione del programma che consente lo scrape dei titoli delle pagine, ma e’ sempre utile sapere come farlo manualmente!

Un’altra bella mossa per l’analisi è guardare il numero di parole usate all’interno dei titoli delle pagine. Per farlo usate la seguente formula:

conteggio parole formulaPartendo da qui potrete farvi un’idea di quale sia la lunghezza ottimale per un post all’interno di un sito. Questo è molto utile se state preparando un articolo su una pubblicazione specifica. Se create il post in maniera tale da farlo adattare al meglio al sito, avrete una maggiore possibilità di successo.
Facendo un ulteriore passo avanti, potrete raccogliere le condivisioni social di ogni URL usando le seguenti funzioni:

funzioni social

 

Nota: Per arrivare a questi risultati potreste usare anche uno strumento come URL Profiler, che funziona molto meglio su una grande quantità di dati.

Se volete ottenere ancora piu’ statistiche social, allora potete usare SharedCount API ed è così che si fa.
Prima di tutto create una nuova colonna nel vostro foglio Excel e aggiungete la seguente formula (dove A2 e’ l’URL della pagina web da cui si desidera estrapolare statistiche social):

formula statistiche socialA questo punto dovreste avere una cella che contiene l’URL della pagina web con il prefisso prefixed SharedCount API URL. Questo è ciò che useremo per raccogliere statistiche social. Ora ecco la formula Excel da usare per ogni network (dove B2 e’ la cella che contiene la formula sopra):

StumbleUpon:

formula stumbleuponReddit:

formula reddit

Delicious:

formula deliciousDigg:

formula diggsPinterest:

formula pinterest

LinkedIn:

formula linkedinFacebook Shares:

formula facebook sharesFacebook Comments:

formula facebook commentsUna volta ottenuti questi dati, potete cominciare a guardare più a fondo tra gli elementi di un post di successo.

Qui c’è l’esempio di un grafico che ho creato intorno ad un ampio campione di articoli analizzati all’interno di Upworthy.com

grafico articoli analizzatiIl grafico analizza la media delle condivisioni social che un articolo su Upworthy riceve vs. il numero di parole contenute nel suo titolo. Si tratta di dati preziosi che possono essere usati per tutta una serie di diversi elementi on-page per ottenere un modello perfetto di articolo per il sito che state lanciando.

Visto? I big data sono utili!

5. Data/ora in cui il post e’ stato pubblicato

Insieme all’analisi dei dettagli dei titoli che funzionano all’interno di un sito, per ottenere migliori risultati si consiglia di guardare anche gli orari migliori in cui vengono inseriti i post. Questo io lo faccio regolarmente nel mio blog per assicurarmi di trarre i migliori risultati dal tempo che impiego scrivendo.

Ogni sito e’ diverso, ed è percio’ molto difficile per uno strumento automatizzato raccogliere queste informazioni. Certi siti avranno questi dati all’interno della sezionenelle loro pagine web, ma altri le mostreranno direttamente sotto il titolo dell’articolo. Ancora una volta, Search Engine Land e’ un esempio perfetto di un sito che lo fa:

orari di pubblicazione di un postQuindi ecco come fare lo scrape di queste informazioni sugli articoli di Search Engine Land:

scraping orario articoli su un sitoOra avete data e orario del post. Si consiglia di ridurlo e riformattarlo per la vostra analisi dei dati, e considerato che avete già tutto nell’Excel dovrebbe risultare piuttosto semplice..

Approfondimenti

Il Data scraping e’ veramente potente, e dopo averlo sperimentato una volta realizzerete che non è poi così complicato. Gli esempi che vi ho fornito sono solo un punto di partenza, ma dopo che vi sarete affidati alla vostra creatività inizierete ad accorgervi delle opportunità che ne verranno fuori.

Ecco alcune letture extra che potreste trovare utili:

• http://findmyblogway.com/scraping-communities-with-xpath/
• http://builtvisible.com/data-entry-is-a-waste-of-time/
• http://www.seotakeaways.com/data-scraping-guide-for-seo/
• http://okdork.com/2014/04/30/the-step-by-step-guide-to-10x-growth-for-any-blog/

Riepilogando

>> Iniziate con l’usare dei dati reali per le vostre campagne invece di affidarvi alle vostre sensazioni di ‘pancia’
>> Raccogliete informazioni riguardo ai domini specifici che volete usare per l’inserimento dei contenuti e create l’articolo ideale per il loro pubblico.
>> Tenetevi aggiornati su XPath e JSON tramite l’uso del SEO Tools plugin per Excel
>> Dedicate più tempo ad analizzare quali contenuti vi portano maggiori risultati invece dei siti che vi portano piu’ link!
>> Prima di fare scraping controllate i Termini del servizio.

 

Titolo originale del post “A Content Marketer’s Guide to Data Scraping” di Matthew Barby pubblicato su Moz.com il 2 giugno 2014.