Oggi ho finito il Certificato professionale di analisi dei dati di Google

offerto da Google e Coursera e vorrei offrire la mia recensione e gli appunti del corso.

Ci sono otto corsi che devi completare prima di ottenere il certificato finale:

Competenze che guadagnerai

  • Ottieni una comprensione approfondita delle pratiche e dei processi utilizzati da un analista di dati junior o associato nel loro lavoro quotidiano

  • Apprendere competenze analitiche chiave (pulizia, analisi e visualizzazione dei dati) e strumenti (fogli di calcolo, SQL, programmazione R, Tableau)

  • Comprendere come pulire e organizzare i dati per l'analisi e completare analisi e calcoli utilizzando fogli di calcolo e programmazione SQL e R

  • Scopri come visualizzare e presentare i risultati dei dati in dashboard, presentazioni e piattaforme di visualizzazione di uso comune

     

Acquista il catalogo completo delle note sull'analisi dei dati

 

Il certificato finale

Certificato professionale di analisi dei dati di Google

Se hai aggiunto anche le mie note e il riepilogo per ciascun corso, inclusi frammenti di codice, concetti e altro materiale di cui potresti aver bisogno per superare il corso, riassumi ciò che hai imparato e conserva le note poiché potrebbero tornare utili quando ne avrai bisogno

Puoi scaricare la mia raccolta di riassunti e note dai link seguenti:

Programmazione R 

Analisi di Excel

Visualizzazioni di dati

Programmazione SQL

Recensione video

Riepilogo dei concetti che imparerai:

# Le sei fasi del processo di analisi dei dati
Fare domande e definire il problema.
Preparare i dati raccogliendo e archiviando le informazioni.
Elaborare i dati pulendo e controllando le informazioni.
Analizzare i dati per trovare modelli, relazioni e tendenze.
Condividi i dati con il tuo pubblico.
Agisci sui dati e utilizza i risultati dell'analisi.

Ecosistema dati #
I vari elementi che interagiscono tra loro per produrre, gestire, archiviare, organizzare, analizzare e condividere dati.

# Una mentalità tecnica
L'abilità analitica che comporta la scomposizione dei processi in passaggi più piccoli e il lavoro con essi in modo ordinato e logico

# Progettazione dei dati
Abilità analitiche che riguardano il modo in cui organizzi le informazioni

# Scienza dei dati
Un campo di studio che utilizza dati grezzi per creare nuovi modi di modellare e comprendere l'ignoto

# Strategia dei dati
La gestione delle persone, dei processi e degli strumenti utilizzati nell'analisi dei dati

# Analisi degli scostamenti
Un metodo per esaminare e valutare lo stato attuale di un processo al fine di identificare opportunità di miglioramento per il futuro

# Linguaggio di interrogazione
Un linguaggio di programmazione informatico utilizzato per comunicare con un database

Ciclo di vita dei dati # e analisi dei dati
Il ciclo di vita dei dati riguarda le fasi che i dati attraversano durante la loro vita utile; l’analisi dei dati è il processo di analisi dei dati.

# Formula vs Funzione
Una formula è un insieme di istruzioni utilizzate per eseguire un calcolo specifico; una funzione è un comando preimpostato che esegue automaticamente un processo specificato

# I sei problemi con cui lavora un analista di dati:
Fare previsioni
Categorizzare le cose
###### Un analista di dati che identifica le parole chiave dalle recensioni dei clienti e le etichetta come positive o neutre è un esempio di categorizzazione delle cose.
Avvistare qualcosa di insolito
###### Il tipo di problema relativo all'individuazione di qualcosa di insolito potrebbe comportare che un analista di dati esamini il motivo per cui un set di dati ha un punto dati sorprendente e raro. Individuare qualcosa di insolito significa identificare e analizzare qualcosa fuori dall’ordinario.
-Identificare i temi
###### I progettisti dell'esperienza utente (UX) potrebbero fare affidamento sugli analisti per analizzare i dati di interazione dell'utente. Analogamente ai problemi che richiedono agli analisti di classificare le cose, i progetti di miglioramento dell'usabilità potrebbero richiedere agli analisti di identificare temi per aiutare a stabilire la priorità delle giuste funzionalità del prodotto da migliorare. I temi vengono spesso utilizzati per aiutare i ricercatori a esplorare determinati aspetti dei dati. In uno studio sugli utenti, le convinzioni, le pratiche e i bisogni degli utenti sono esempi di temi.
###### A questo punto ti starai chiedendo se esiste una differenza tra categorizzare le cose e identificare i temi. Il modo migliore per pensarci è questo: categorizzare le cose generalmente classifica le stesse cose insieme, come un punteggio di prodotto pari a 10, mentre identificare i temi classifica simili cose che potrebbero non essere le stesse, come il feedback positivo degli utenti; ogni utente dice qualcosa di diverso, ma sta comunicando cose positive sul prodotto, che diventa un tema. - Scoprire connessioni
-Trovare modelli
###### La ricerca di modelli riguarda l'identificazione delle tendenze in un set di dati.

# Le domande intelligenti sono:
-specifico: la domanda ha un contesto e un problema di indirizzo. e le risposte aiutano a raccogliere informazioni
solo ad elementi specifici o strettamente correlati.
-misurabili: le risposte possono essere misurate e raccolte per essere classificate e valutate per vedere quali sono le più e le meno
importante
-orientato all'azione: quando riceve risposta aiuta a prendere decisioni incentrate sulla risoluzione di problemi specifici o sull'invenzione
nuova caratteristica.
-rilevante: riguarda il problema?
-limitato nel tempo: le risposte risolveranno il problema prima o poi? è possibile creare un piano per l'implementazione
soluzioni che gli acquirenti preferiscono e riducono le funzionalità meno importanti?

# Pensiero strutturato
Rivelare lacune e opportunità
Riconoscere il problema o la situazione attuale
Organizzazione delle informazioni disponibili

# Categorizzare le cose comporta l'assegnazione di elementi a categorie. L’identificazione dei temi porta queste categorie a un ulteriore passo avanti, raggruppandole in temi o classificazioni più ampi.

# Dati qualitativi e quantitativi
I dati qualitativi possono aiutare gli analisti a comprendere meglio i propri dati quantitativi fornendo una ragione o una spiegazione più approfondita. In altre parole, i dati quantitativi generalmente ti danno il cosa, mentre i dati qualitativi generalmente ti danno il perché

I dashboard # monitorano i dati in entrata in tempo reale da più set di dati e organizzano le informazioni in un'unica posizione centrale.

# Dati e metriche
I dati sono una raccolta di fatti. Le metriche sono tipi di dati quantificabili utilizzati per la misurazione

Algoritmo #
un processo o un insieme di regole da seguire per un compito specifico

# Metrica
Una metrica è un tipo singolo e quantificabile di dati utilizzato durante l'impostazione e la valutazione degli obiettivi.

# Il pensiero strutturato è il processo di riconoscimento del problema o della situazione attuale, di organizzazione delle informazioni disponibili, di rivelazione di lacune e opportunità e di identificazione delle opzioni.

# Funzione e formula

Le formule vengono create dall'utente, mentre le funzioni sono comandi preimpostati nei fogli di calcolo

# Le quattro domande per una strategia di comunicazione efficace (utilizzate principalmente nelle email)
Chi è il tuo pubblico?
Cosa sanno già?
Cosa hanno bisogno di sapere?
Come puoi comunicare al meglio ciò che hanno bisogno di sapere?

# Dati proprietari
Dati che raccogli tu stesso

# Dati di seconda parte
I dati che vengono raccolti direttamente da un altro gruppo e poi venduti.

# Dati di terze parti
I dati di terze parti potrebbero provenire da diverse fonti.
I dati di terze parti vengono venduti da un fornitore che non ha raccolto i dati direttamente.

# Se raccogli i tuoi dati, prendi decisioni ragionevoli sulla dimensione del campione

# Un campione casuale di dati esistenti potrebbe andare bene per alcuni progetti

# L'osservazione è il metodo di raccolta dati più spesso utilizzato dagli scienziati.

# Dati primari
Raccolto da un ricercatore da fonti di prima mano
es: dati di un'intervista che hai condotto

# Dati secondari
Raccolti da altre persone o da altre ricerche
Dati demografici raccolti da un'università

# Dati continui
Dati misurati che possono avere quasi qualsiasi valore numerico
Altezza dei bambini nelle classi terze (52,5 pollici, 65,7 pollici)

# Dati discreti
Dati che vengono conteggiati e hanno un numero limitato di valori
Numero di persone che si recano quotidianamente in ospedale (10, 20, 200)

Dati nominali #
Un tipo di dati qualitativi che non sono classificati con un ordine prestabilito
Cliente per la prima volta, cliente abituale, cliente abituale

Dati ordinali #
Un tipo di dati qualitativi con un ordine o una scala prestabiliti
Classificazioni dei film (numero di stelle: 1 stella, 2 stelle, 3 stelle)

# Dati strutturati
Dati organizzati in un determinato formato, come righe e colonne
Note spese

# Dati non strutturati
Dati che non sono organizzati in alcun modo facilmente identificabili
Post sui social media

# La modellazione dei dati è il processo di creazione di diagrammi che rappresentano visivamente il modo in cui i dati sono organizzati e strutturati.

Queste rappresentazioni visive sono chiamate modelli di dati
Tipi di modellazione dati #
###### La modellazione concettuale dei dati offre una visione di alto livello della struttura dei dati, ad esempio il modo in cui desideri che i dati interagiscano all'interno di un'organizzazione.
###### La modellazione logica dei dati si concentra sui dettagli tecnici del modello come relazioni, attributi ed entità
###### La modellazione fisica dei dati dovrebbe effettivamente rappresentare il modo in cui è stato costruito il database. In questa fase, stai delineando come verrà messo in atto ogni database e come i database, le applicazioni e le funzionalità interagiranno in dettaglio specifico
# Tecniche di modellazione dei dati
Gli ERD rappresentano un modo visivo per comprendere la relazione tra le entità nel modello dati
Gli UML sono diagrammi molto dettagliati che descrivono la struttura di un sistema mostrando le entità, gli attributi, le operazioni e le relazioni del sistema
# La trasformazione dei dati è il processo di modifica del formato, della struttura o dei valori dei dati
# I dati lunghi sono dati in cui ogni riga è un punto dati per un singolo soggetto. Ogni soggetto ha dati su più righe.
# Dati wide sono dati in cui ciascun interessato ha un'unica riga con più colonne per i valori dei vari attributi (o variabili) dell'interessato
# L'operatore booleano Or espande il numero di risultati quando viene utilizzato in una ricerca per parola chiave

# Deidentificazione
Un processo utilizzato per cancellare dai dati tutte le informazioni di identificazione personale
# Un database relazionale è un database che contiene una serie di tabelle che possono essere collegate per mostrare le relazioni.
Fondamentalmente, consentono agli analisti di dati di organizzare e collegare i dati in base a ciò che hanno in comune.
# Un database relazionale è un database che contiene una serie di tabelle che possono essere collegate per mostrare le relazioni.
Fondamentalmente, consentono agli analisti di dati di organizzare e collegare i dati in base a ciò che hanno in comune.
# Chiave primaria
Un identificatore univoco in una tabella che fa riferimento a una colonna in cui il valore di tale chiave in ogni riga è univoco.
# Chiave esterna
Un campo in una tabella ed è una chiave primaria in un'altra tabella.
# Una tabella può avere solo una chiave primaria, ma può avere più chiavi esterne.
Queste chiavi sono ciò che crea le relazioni tra le tabelle in un database relazionale,
che aiuta a organizzare e connettere i dati su più tabelle nel database.
# La normalizzazione di un database è una tecnica per ridurre la ridondanza dei dati
# Uno schema è un modo di descrivere come è organizzato qualcosa
# Uno schema di database rappresenta qualsiasi tipo di struttura applicata al database

# Due schemi comunemente usati sono gli schemi a stella e gli schemi a fiocco di neve
Lo schema a stella # è semplice, non è normalizzato e presenta molta ridondanza di dati
# Uno schema a fiocco di neve è complesso, è normalizzato e presenta pochissimi dati ridondantici

Grafico a colonne #
Un istogramma è efficace nel dimostrare le differenze tra diversi elementi in uno specifico intervallo di valori
# Grafico a linee
I grafici a linee sono efficaci per dimostrare tendenze e modelli, ad esempio il modo in cui la popolazione cambia nel tempo.
# I metadati strutturali indicano esattamente in quante raccolte risiedono i dati.
Fornisce informazioni su come è organizzato un dato e se fa parte di una o più raccolte dati.
# La governance dei dati garantisce che il patrimonio di dati di un'azienda sia gestito correttamente.
# La data e l'ora di creazione di un database sono un esempio di metadati amministrativi.
La tokenizzazione # sostituisce gli elementi di dati che desideri proteggere con dati generati casualmente denominati "token".
I dati originali vengono archiviati in una posizione separata e mappati sui token.
Per accedere ai dati originali completi, l'utente o l'applicazione deve disporre dell'autorizzazione per utilizzare i dati tokenizzati e la mappatura dei token.
Ciò significa che anche se i dati tokenizzati vengono violati, i dati originali sono comunque al sicuro e protetti in un luogo separato.

**Gli analisti di dati dovrebbero pensare a modificare un obiettivo aziendale quando i dati non sono in linea con l'obiettivo originale e quando non ci sono dati sufficienti per raggiungere l'obiettivo**

**I dati utilizzati per l'analisi dovrebbero essere in linea con gli obiettivi aziendali e aiutare a rispondere alle domande delle parti interessate**

# Cosa fare quando riscontri un problema con i tuoi dati

## Problema dati 1: nessun dato

Se non c'è tempo per raccogliere i dati, eseguire l'analisi utilizzando i dati proxy di altri set di dati. _Questa è la soluzione più comune._

Se stai analizzando gli orari di punta dei pendolari ma non disponi dei dati per una città in particolare, utilizza i dati di un'altra città con dimensioni e dati demografici simili.

## Problema dati 2: dati insufficienti

Esegui l'analisi utilizzando dati proxy insieme ai dati effettivi.

Se stai analizzando le tendenze per i proprietari di golden retriever, amplia il tuo set di dati includendo i dati dei proprietari di labrador.

Modifica la tua analisi per allinearla ai dati che già possiedi.

Se mancano i dati relativi ai giovani di età compresa tra 18 e 24 anni, esegui l'analisi ma prendi nota della seguente limitazione nel rapporto: _questa conclusione si applica solo agli adulti di età pari o superiore a 25 anni_.

## Problema dati 3: dati errati, inclusi dati con errori

Possibili soluzioni

Se hai dati errati perché i requisiti sono stati fraintesi, comunica nuovamente i requisiti.

Se hai bisogno dei dati per gli elettori donne e hai ricevuto i dati per gli elettori uomini, ribadisci le tue esigenze.

Identificare gli errori nei dati e, se possibile, correggerli alla fonte cercando uno schema negli errori.

Se i tuoi dati sono in un foglio di calcolo ed è presente un'istruzione condizionale o un valore booleano che causa calcoli errati, modifica l'istruzione condizionale invece di correggere semplicemente i valori calcolati.

Se non puoi correggere tu stesso gli errori nei dati, puoi ignorare i dati errati e procedere con l'analisi se la dimensione del campione è ancora abbastanza grande e ignorare i dati non causerà distorsioni sistematiche.

Se il tuo set di dati è stato tradotto da una lingua diversa e alcune traduzioni non hanno senso, ignora i dati con una traduzione errata e procedi con l'analisi degli altri dati.

![[Note-raccolta-dati.jpg]]

**Popolazione**

L'intero gruppo a cui sei interessato per il tuo studio. Ad esempio, se stai intervistando le persone della tua azienda, la popolazione sarebbe costituita da tutti i dipendenti della tua azienda.

**Campione**

Un sottoinsieme della tua popolazione. Proprio come un campione di cibo, viene chiamato campione perché è solo un assaggio. Pertanto, se la tua azienda è troppo grande per effettuare indagini su ogni individuo, puoi intervistare un campione rappresentativo della tua popolazione.

**Margine di errore**

Poiché un campione viene utilizzato per rappresentare una popolazione, si prevede che i risultati del campione differiscano da quelli che si sarebbero ottenuti se si fosse esaminata l'intera popolazione. Questa differenza è chiamata margine di errore. Minore è il margine di errore, più i risultati del campione si avvicinano a quello che sarebbe stato se avessi intervistato l’intera popolazione.

Il margine di errore viene utilizzato per determinare quanto il risultato del campione è vicino a quello che sarebbe stato probabilmente se avessi potuto esaminare o testare l'intera popolazione. Il margine di errore ti aiuta a comprendere e interpretare i risultati del sondaggio o dei test nella vita reale. Calcolare il margine di errore è particolarmente utile quando ti vengono forniti i dati da analizzare. Dopo aver utilizzato una calcolatrice per calcolare il margine di errore, saprai quanto i risultati del campione potrebbero differire dai risultati dell'intera popolazione

**Livello di confidenza**

Quanto sei sicuro dei risultati del sondaggio. Ad esempio, un livello di confidenza 95% significa che se dovessi eseguire lo stesso sondaggio 100 volte, otterresti risultati simili 95 di quelle 100 volte. Il livello di confidenza viene fissato prima di iniziare lo studio perché influirà sull'entità del margine di errore alla fine dello studio.

Nella maggior parte dei casi viene utilizzato il livello di confidenza 90% o 95%. Ma, a seconda del settore, potresti voler impostare un livello di confidenza più rigoroso. Un livello di confidenza 99% è ragionevole in alcuni settori, come quello farmaceutico

**Intervallo di confidenza**

L'intervallo di possibili valori in cui si collocherebbe il risultato della popolazione al livello di confidenza dello studio. Questo intervallo è il risultato del campione +/- il margine di errore.

**Significato statistico**

La determinazione se il tuo risultato potrebbe essere dovuto a un caso casuale o meno. Quanto maggiore è il significato, tanto meno è dovuto al caso.

**Affinché un esperimento sia statisticamente significativo, i risultati dovrebbero essere reali e non causati dal caso.**

**Per avere un elevato livello di fiducia in un sondaggio tra i clienti, la dimensione del campione dovrebbe riflettere accuratamente l'intera popolazione.**

## Tipi di dati sporchi

Dati duplicati
Dati obsoleti
Dati incompleti
Dati errati/imprecisi
Dati incoerenti

**Un valore nullo indica che un valore non esiste. Uno zero è una risposta numerica.**

**La mappatura dei dati è il processo di corrispondenza dei campi da un'origine dati a un'altra.**

Documentazione #

Gli ingegneri utilizzano gli **ordini di modifica tecnica** (ECO) per tenere traccia dei dettagli di progettazione di nuovi prodotti e delle modifiche proposte ai prodotti esistenti. Gli autori utilizzano le **cronologie delle revisioni dei documenti** per tenere traccia dei cambiamenti e delle modifiche al flusso dei documenti. Inoltre, gli analisti dei dati utilizzano i **registri delle modifiche** per tenere traccia della trasformazione e della pulizia dei dati

I log delle modifiche sono estremamente utili per aiutarci a comprendere i motivi per cui sono state apportate modifiche. I log delle modifiche non hanno un formato prestabilito e puoi persino inserire le tue voci in un documento vuoto. Ma se utilizzi un registro delle modifiche condiviso, è meglio concordare con altri analisti di dati il formato di tutte le voci del registro

Un analista junior probabilmente ha bisogno solo di sapere quanto sopra con un'eccezione. Se un analista sta apportando modifiche a una query SQL esistente condivisa in tutta l'azienda, molto probabilmente l'azienda utilizza quello che viene chiamato un **sistema di controllo della versione**. Un esempio potrebbe essere una query che ricava le entrate giornaliere per creare un dashboard per il senior management.

# Sistema di controllo versione

Ecco come un sistema di controllo della versione influisce su una modifica a una query:

1. Un'azienda dispone di versioni ufficiali di query importanti nel proprio **sistema di controllo della versione**.
2. Un analista si assicura che la versione più aggiornata della query sia quella che verrà modificata. Questa si chiama **sincronizzazione**
3. L'analista apporta una modifica alla query.
4. L'analista potrebbe chiedere a qualcuno di rivedere questo cambiamento. Questa operazione è chiamata **revisione del codice** e può essere eseguita in modo informale o formale. Una revisione informale potrebbe essere semplice come chiedere a un analista senior di dare un'occhiata al cambiamento.
5. Dopo che un revisore ha approvato la modifica, l'analista invia la versione aggiornata della query a un repository in
6. il sistema di controllo della versione dell'azienda. Questo è chiamato **commit del codice**. Una procedura consigliata consiste nel documentare esattamente quale è stata la modifica e il motivo per cui è stata apportata in un'area commenti. Tornando al nostro esempio di query che ricava le entrate giornaliere, un commento potrebbe essere: _Entrate aggiornate per includere le entrate provenienti dal nuovo prodotto, Calypso_.
7. Dopo che la modifica è stata **inviata**, tutti gli altri nell'azienda saranno in grado di accedere e utilizzare questa nuova query quando si **sincronizzeranno** con le query più aggiornate archiviate nel sistema di controllo della versione.
8. Se la query presenta un problema o le esigenze aziendali cambiano, l'analista può **_annullare_** la modifica alla query utilizzando il sistema di controllo della versione. L'analista può consultare un elenco cronologico di tutte le modifiche apportate alla query e di chi ha apportato ciascuna modifica. Quindi, dopo aver individuato la propria modifica, l'analista può **tornare** alla versione precedente.
9. La query torna allo stato in cui si trovava prima che l'analista apportasse la modifica. E anche tutti in azienda vedono questa query originale ripristinata.

Senza dati sufficienti per identificare le tendenze a lungo termine, un’opzione è parlare con le parti interessate e chiedere di adeguare l’obiettivo. Potresti anche chiedere di attendere ulteriori dati e fornire una sequenza temporale aggiornata.

I **valori anomali** sono punti dati molto diversi dai dati raccolti in modo simile e potrebbero non essere valori affidabili

## Ordinamento e filtraggio

L'**ordinamento** avviene quando si organizzano i dati in un ordine significativo per facilitarne la comprensione, l'analisi e la visualizzazione. Classifica i tuoi dati in base a una metrica specifica scelta. Puoi ordinare i dati in fogli di calcolo, database SQL (quando il set di dati è troppo grande per i fogli di calcolo) e tabelle nei documenti.

Ad esempio, se devi classificare le cose o creare elenchi cronologici, puoi ordinare in ordine crescente o decrescente. Se sei interessato a scoprire i film preferiti di un gruppo, potresti ordinarli per titolo del film per capirlo. L'ordinamento organizzerà i dati in modo significativo e ti fornirà informazioni immediate. L'ordinamento ti aiuta anche a raggruppare insieme dati simili tramite una classificazione. Per i film, puoi ordinare per genere: azione, dramma, fantascienza o romanticismo.

Il **filtro** viene utilizzato quando sei interessato solo a vedere i dati che soddisfano un criterio specifico e a nascondere il resto. Il filtraggio è davvero utile quando si hanno molti dati. Puoi risparmiare tempo concentrandoti sui dati veramente importanti o sui dati che presentano bug o errori. La maggior parte dei fogli di calcolo e dei database SQL ti consente di filtrare i tuoi dati in vari modi. Il filtraggio ti dà la possibilità di trovare ciò che stai cercando senza troppi sforzi.

Ad esempio, se sei interessato solo a scoprire chi ha guardato i film nel mese di ottobre, potresti utilizzare un filtro sulle date in modo che vengano visualizzati solo i record dei film guardati nel mese di ottobre. Quindi, potresti controllare i nomi delle persone per capire chi ha guardato i film in ottobre.

**Nel processo di analisi dei dati, l'obiettivo dell'analisi è identificare tendenze e relazioni all'interno di tali dati in modo da poter rispondere con precisione alla domanda che stai ponendo.**

Circa l'autore

Creo note sulla sicurezza informatica, note di marketing digitale e corsi online. Fornisco anche consulenza di marketing digitale, inclusi ma non limitati a SEO, annunci Google e Meta e amministrazione CRM.

Visualizza articoli