Hoy terminé el Certificado profesional de análisis de datos de Google

ofrecido por Google y Coursera y me gustaría ofrecer mi reseña y notas del curso.

Hay ocho cursos que debes completar antes de obtener el certificado final:

Habilidades que ganarás

  • Obtenga una comprensión inmersiva de las prácticas y procesos utilizados por un analista de datos junior o asociado en su trabajo diario.

  • Aprenda habilidades analíticas clave (limpieza, análisis y visualización de datos) y herramientas (hojas de cálculo, SQL, programación R, Tableau)

  • Comprender cómo limpiar y organizar datos para el análisis y completar análisis y cálculos utilizando hojas de cálculo, programación SQL y R.

  • Aprenda a visualizar y presentar hallazgos de datos en paneles, presentaciones y plataformas de visualización de uso común.

     

Compre el catálogo completo de notas de análisis de datos

 

El certificado final

Certificado profesional de análisis de datos de Google

Si también agregué mis notas y el resumen de cada curso, incluidos fragmentos de código, conceptos y otras cosas que pueda necesitar para aprobar el curso, resuma lo que ha aprendido y guarde las notas, ya que pueden resultarle útiles cuando las necesite.

Puede descargar mi colección de resúmenes y notas desde los enlaces a continuación:

Programación R 

Análisis de Excel

Visualizaciones de datos

Programación SQL

Revisión de vídeo

Resumen de los conceptos que aprenderás:

# Los seis pasos del proceso de análisis de datos
Haga preguntas y defina el problema.
Preparar datos recopilando y almacenando la información.
Procesar datos limpiando y comprobando la información.
Analice datos para encontrar patrones, relaciones y tendencias.
Comparte datos con tu audiencia.
Actuar sobre los datos y utilizar los resultados del análisis.

Ecosistema de datos #
Los diversos elementos que interactúan entre sí para producir, gestionar, almacenar, organizar, analizar y compartir datos.

# Una mentalidad técnica
La habilidad analítica que implica dividir los procesos en pasos más pequeños y trabajar con ellos de manera ordenada y lógica.

Diseño de datos #
Habilidades analíticas que involucran cómo organizar la información.

# Ciencia de datos
Un campo de estudio que utiliza datos sin procesar para crear nuevas formas de modelar y comprender lo desconocido.

Estrategia de datos #
La gestión de las personas, procesos y herramientas utilizadas en el análisis de datos.

Análisis de brechas #
Un método para examinar y evaluar el estado actual de un proceso con el fin de identificar oportunidades de mejora en el futuro.

# Lenguaje de consulta
Un lenguaje de programación de computadoras utilizado para comunicarse con una base de datos.

Ciclo de vida de datos # frente a análisis de datos
El ciclo de vida de los datos trata de las etapas por las que pasan los datos durante su vida útil; El análisis de datos es el proceso de analizar datos.

Fórmula # frente a función
Una fórmula es un conjunto de instrucciones que se utilizan para realizar un cálculo específico; una función es un comando preestablecido que realiza automáticamente un proceso específico

# Los seis problemas con los que trabaja un analista de datos:
Haciendo predicciones
categorizar cosas
###### Un analista de datos que identifica palabras clave de las opiniones de los clientes y las etiqueta como positivas o neutrales es un ejemplo de categorización de cosas.
Detectar algo inusual
###### El tipo de problema de detectar algo inusual podría implicar que un analista de datos examine por qué un conjunto de datos tiene un punto de datos sorprendente y raro. Detectar algo inusual consiste en identificar y analizar algo fuera de lo común.
-Identificar temas
###### Los diseñadores de experiencia de usuario (UX) pueden confiar en los analistas para analizar los datos de interacción del usuario. De manera similar a los problemas que requieren que los analistas clasifiquen cosas, los proyectos de mejora de la usabilidad pueden requerir que los analistas identifiquen temas para ayudar a priorizar las características correctas del producto para mejorar. Los temas se utilizan con mayor frecuencia para ayudar a los investigadores a explorar ciertos aspectos de los datos. En un estudio de usuarios, las creencias, prácticas y necesidades de los usuarios son ejemplos de temas.
###### A estas alturas quizás te estés preguntando si hay una diferencia entre categorizar cosas e identificar temas. La mejor manera de pensarlo es la siguiente: categorizar cosas generalmente clasifica las mismas cosas juntas, como una puntuación de producto de 10, mientras que identificar temas clasifica cosas similares. cosas que pueden no ser iguales, como comentarios positivos de los usuarios; cada usuario dice algo diferente, pero están comunicando cosas positivas sobre el producto, que se convierte en un tema.-Descubriendo conexiones
-Encontrar patrones
###### Encontrar patrones consiste en identificar tendencias en un conjunto de datos.

# Las preguntas inteligentes son:
-específico: la pregunta tiene contexto y aborda el problema. y ¿las respuestas ayudan a recopilar información?
a un elemento específico o a otros estrechamente relacionados.
-medibles: las respuestas se pueden medir y recopilar para clasificarlas y calificarlas para ver cuáles son más y menos
importante
-orientado a la acción: cuando se responde ayuda a tomar decisiones que se centran en resolver un problema específico o inventar
nueva caracteristica.
-relevante: ¿se trata del problema?
-De duración determinada: ¿las respuestas resolverán el problema más temprano que tarde? ¿Se puede crear un plan para implementar?
¿Soluciones que prefieren los compradores y recortar las características menos importantes?

# Pensamiento estructurado
Revelando brechas y oportunidades
Reconocer el problema o situación actual.
Organizar la información disponible

# Categorizar cosas implica asignar elementos a categorías. La identificación de temas lleva esas categorías un paso más allá, agrupándolas en temas o clasificaciones más amplias.

# Datos cualitativos versus cuantitativos
Los datos cualitativos pueden ayudar a los analistas a comprender mejor sus datos cuantitativos al proporcionar una razón o una explicación más detallada. En otras palabras, los datos cuantitativos generalmente dan el qué, y los datos cualitativos generalmente dan el por qué.

Los paneles # monitorean los datos entrantes en vivo de múltiples conjuntos de datos y organizan la información en una ubicación central.

# Datos vs métricas
Los datos son una colección de hechos. Las métricas son tipos de datos cuantificables que se utilizan para la medición.

Algoritmo #
Un proceso o conjunto de reglas a seguir para una tarea específica.

Métrica #
Una métrica es un tipo de datos único y cuantificable que se utiliza al establecer y evaluar objetivos.

# El pensamiento estructurado es el proceso de reconocer el problema o situación actual, organizar la información disponible, revelar brechas y oportunidades e identificar las opciones.

# Función vs fórmula

Las fórmulas las crea el usuario, mientras que las funciones son comandos preestablecidos en las hojas de cálculo.

# Las cuatro preguntas para una estrategia de comunicación eficaz (utilizada principalmente en correos electrónicos)
¿Quién es tu audiencia?
¿Qué saben ya?
¿Qué necesitan saber?
¿Cómo puedes comunicar mejor lo que necesitan saber?

Datos propios del #
Datos que usted mismo recopila

# Datos de segunda parte
Los datos que son recopilados directamente por otro grupo y luego vendidos.

# Datos de terceros
Los datos de terceros pueden provenir de varias fuentes diferentes.
Los datos de terceros son vendidos por un proveedor que no recopiló los datos por sí mismo.

# Si recopila sus propios datos, tome decisiones razonables sobre el tamaño de la muestra

# Una muestra aleatoria de datos existentes puede estar bien para algunos proyectos

# La observación es el método de recopilación de datos más utilizado por los científicos.

Datos primarios #
Recopilado por un investigador de fuentes de primera mano.
ej: datos de una entrevista que realizó

# Datos secundarios
Recopilados por otras personas o de otras investigaciones.
Datos demográficos recopilados por una universidad.

# Datos continuos
Datos que se miden y pueden tener casi cualquier valor numérico.
Altura de los niños de tercer grado (52,5 pulgadas, 65,7 pulgadas)

# Datos discretos
Datos que se cuentan y tienen un número limitado de valores.
Número de personas que visitan un hospital diariamente (10, 20, 200)

Datos nominales del #
Un tipo de datos cualitativos que no están categorizados con un orden establecido.
Cliente nuevo, cliente recurrente, cliente habitual

Datos ordinales del #
Un tipo de datos cualitativos con un orden o escala establecidos.
Clasificaciones de películas (número de estrellas: 1 estrella, 2 estrellas, 3 estrellas)

# Datos estructurados
Datos organizados en un formato determinado, como filas y columnas.
Reporte de gastos

# Datos no estructurados
Datos que no están organizados de ninguna manera fácilmente identificable.
Publicaciones en redes sociales

# El modelado de datos es el proceso de creación de diagramas que representan visualmente cómo se organizan y estructuran los datos.

Estas representaciones visuales se denominan modelos de datos.
Tipos de modelado de datos #
###### El modelado de datos conceptuales le brinda una vista de alto nivel de su estructura de datos, por ejemplo, cómo desea que interactúen los datos en una organización.
###### El modelado de datos lógicos se centra en los detalles técnicos del modelo, como relaciones, atributos y entidades.
###### El modelado de datos físicos debería representar realmente cómo se construyó la base de datos. En esta etapa, usted está definiendo cómo se implementará cada base de datos y cómo interactuarán las bases de datos, las aplicaciones y las características en detalle específico.
# Técnicas de modelado de datos
Los ERD son una forma visual de comprender la relación entre entidades en el modelo de datos.
Los UML son diagramas muy detallados que describen la estructura de un sistema mostrando las entidades, atributos, operaciones y relaciones del sistema.
# La transformación de datos es el proceso de cambiar el formato, la estructura o los valores de los datos.
# Los datos largos son datos en los que cada fila es un punto de datos para un sujeto individual. Cada tema tiene datos en varias filas.
# Los datos amplios son datos en los que cada interesado tiene una sola fila con múltiples columnas para los valores de los diversos atributos (o variables) del tema.
# El operador booleano O amplía el número de resultados cuando se utiliza en una búsqueda por palabra clave

# Desidentificación
Un proceso utilizado para borrar los datos de toda la información de identificación personal.
# Una base de datos relacional es una base de datos que contiene una serie de tablas que se pueden conectar para mostrar relaciones.
Básicamente, permiten a los analistas de datos organizar y vincular datos en función de lo que tienen en común.
# Una base de datos relacional es una base de datos que contiene una serie de tablas que se pueden conectar para mostrar relaciones.
Básicamente, permiten a los analistas de datos organizar y vincular datos en función de lo que tienen en común.
# Clave primaria
Un identificador único en una tabla que hace referencia a una columna donde el valor de esa clave en cada fila es único.
# Clave externa
Un campo en una tabla y es una clave principal en otra tabla.
# Una tabla sólo puede tener una clave primaria, pero puede tener varias claves externas.
Estas claves son las que crean las relaciones entre tablas en una base de datos relacional,
que ayuda a organizar y conectar datos en varias tablas de la base de datos.
# Normalizar una base de datos es una técnica para reducir la redundancia de datos
# Un esquema es una forma de describir cómo se organiza algo
# Un esquema de base de datos representa cualquier tipo de estructura que se aplica a la base de datos.

# Dos esquemas de uso común son los esquemas en estrella y los esquemas en copo de nieve.
El esquema en estrella # es simple, no está normalizado y tiene mucha redundancia de datos.
# Un esquema de copo de nieve es complejo, está normalizado y tiene muy pocos datos redundantescy

Gráfico de columnas #
Un gráfico de columnas es eficaz para demostrar las diferencias entre varios elementos en un rango específico de valores.
Gráfico de líneas #
Los gráficos de líneas son eficaces para demostrar tendencias y patrones, como cómo cambia la población con el tiempo.
Los metadatos estructurales # indican exactamente en cuántas colecciones se encuentran los datos.
Proporciona información sobre cómo se organiza un dato y si forma parte de una o más de una recopilación de datos.
# El gobierno de datos garantiza que los activos de datos de una empresa se gestionen adecuadamente.
# La fecha y hora en que se creó una base de datos es un ejemplo de metadatos administrativos.
La tokenización # reemplaza los elementos de datos que desea proteger con datos generados aleatoriamente denominados "token".
Los datos originales se almacenan en una ubicación separada y se asignan a los tokens.
Para acceder a los datos originales completos, el usuario o la aplicación debe tener permiso para utilizar los datos tokenizados y la asignación de tokens.
Esto significa que incluso si los datos tokenizados son pirateados, los datos originales siguen estando seguros en una ubicación separada.

**Los analistas de datos deberían pensar en modificar un objetivo de negocio cuando los datos no se alinean con el objetivo original y cuando no hay suficientes datos para cumplir el objetivo**

**Los datos que se utilizan para el análisis deben alinearse con los objetivos comerciales y ayudar a responder las preguntas de las partes interesadas**

# Qué hacer cuando encuentras un problema con tus datos

## Problema de datos 1: sin datos

Si no hay tiempo para recopilar datos, realice el análisis utilizando datos proxy de otros conjuntos de datos. _Esta es la solución más común._

Si está analizando las horas pico de viaje para quienes viajan diariamente pero no tiene los datos de una ciudad en particular, use los datos de otra ciudad con un tamaño y demografía similares.

## Problema de datos 2: muy pocos datos

Realice el análisis utilizando datos proxy junto con datos reales.

Si está analizando tendencias de propietarios de golden retrievers, amplíe su conjunto de datos incluyendo datos de propietarios de labradores.

Ajuste su análisis para alinearlo con los datos que ya tiene.

Si le faltan datos para personas de 18 a 24 años, haga el análisis pero tenga en cuenta la siguiente limitación en su informe: _esta conclusión se aplica a adultos de 25 años y mayores_ _solamente_.

## Problema de datos 3: datos incorrectos, incluidos datos con errores

Soluciones posibles

Si tiene datos incorrectos porque se malinterpretaron los requisitos, comuníqueselos nuevamente.

Si necesita los datos de las votantes femeninas y recibió los datos de los votantes masculinos, vuelva a expresar sus necesidades.

Identifique errores en los datos y, si es posible, corríjalos en la fuente buscando un patrón en los errores.

Si sus datos están en una hoja de cálculo y hay una declaración condicional o booleana que hace que los cálculos sean incorrectos, cambie la declaración condicional en lugar de simplemente corregir los valores calculados.

Si no puede corregir los errores de los datos usted mismo, puede ignorar los datos incorrectos y continuar con el análisis si el tamaño de su muestra aún es lo suficientemente grande e ignorar los datos no causará un sesgo sistemático.

Si su conjunto de datos fue traducido de un idioma diferente y algunas de las traducciones no tienen sentido, ignore los datos con una mala traducción y continúe con el análisis de los demás datos.

![[Notas-de-recopilación-de-datos.jpg]]

**Población**

Todo el grupo que te interesa para tu estudio. Por ejemplo, si está encuestando a personas de su empresa, la población serían todos los empleados de su empresa.

**Muestra**

Un subconjunto de su población. Al igual que una muestra de comida, se llama muestra porque es sólo un sabor. Entonces, si su empresa es demasiado grande para encuestar a cada individuo, puede encuestar a una muestra representativa de su población.

**Margen de error**

Dado que se utiliza una muestra para representar una población, se espera que los resultados de la muestra difieran de los que habrían sido si se hubiera encuestado a toda la población. Esta diferencia se llama margen de error. Cuanto menor sea el margen de error, más se acercarán los resultados de la muestra a lo que habrían sido si se hubiera encuestado a toda la población.

El margen de error se utiliza para determinar qué tan cerca está el resultado de su muestra de lo que probablemente habría sido si hubiera podido encuestar o evaluar a toda la población. El margen de error le ayuda a comprender e interpretar los resultados de encuestas o pruebas en la vida real. Calcular el margen de error es particularmente útil cuando se le dan los datos para analizar. Después de usar una calculadora para calcular el margen de error, sabrá cuánto pueden diferir los resultados de la muestra de los resultados de toda la población.

**Nivel de confianza**

Qué tan seguro está de los resultados de la encuesta. Por ejemplo, un nivel de confianza 95% significa que si ejecutara la misma encuesta 100 veces, obtendría resultados similares 95 de esas 100 veces. El nivel de confianza se fija antes de comenzar el estudio porque afectará el tamaño del margen de error al final del estudio.

En la mayoría de los casos, se utiliza un nivel de confianza 90% o 95%. Pero, dependiendo de su industria, es posible que desee establecer un nivel de confianza más estricto. Un nivel de confianza 99% es razonable en algunas industrias, como la industria farmacéutica.

**Intervalo de confianza**

El rango de valores posibles que tendría el resultado de la población en el nivel de confianza del estudio. Este rango es el resultado de la muestra +/- el margen de error.

**Significancia estadística**

La determinación de si su resultado podría deberse al azar o no. Cuanto mayor es la importancia, menos se debe al azar.

**Para que un experimento sea estadísticamente significativo, los resultados deben ser reales y no causados por el azar.**

**Para tener un alto nivel de confianza en una encuesta de clientes, el tamaño de la muestra debe reflejar con precisión a toda la población.**

## Tipos de datos sucios

Datos duplicados
Datos obsoletos
Datos incompletos
Datos incorrectos/inexactos
Datos inconsistentes

**Un valor nulo indica que un valor no existe. Un cero es una respuesta numérica.**

**El mapeo de datos es el proceso de hacer coincidir campos de una fuente de datos con otra.**

Documentación #

Los ingenieros utilizan **órdenes de cambio de ingeniería** (ECO) para realizar un seguimiento de los detalles del diseño de nuevos productos y los cambios propuestos para los productos existentes. Los redactores utilizan **historiales de revisión de documentos** para realizar un seguimiento de los cambios en el flujo y las ediciones de los documentos. Y los analistas de datos utilizan **registros de cambios** para realizar un seguimiento de la transformación y limpieza de los datos.

Los registros de cambios son muy útiles para ayudarnos a comprender los motivos por los que se realizaron los cambios. Los registros de cambios no tienen un formato establecido e incluso puedes realizar tus entradas en un documento en blanco. Pero si está utilizando un registro de cambios compartido, es mejor acordar con otros analistas de datos el formato de todas las entradas de su registro.

Un analista junior probablemente sólo necesite saber lo anterior con una excepción. Si un analista realiza cambios en una consulta SQL existente que se comparte en toda la empresa, lo más probable es que la empresa utilice lo que se llama un **sistema de control de versiones**. Un ejemplo podría ser una consulta que obtenga ingresos diarios para crear un panel para la alta dirección.

Sistema de control de versiones #

Así es como un sistema de control de versiones afecta un cambio en una consulta:

1. Una empresa tiene versiones oficiales de consultas importantes en su **sistema de control de versiones**.
2. Un analista se asegura de que la versión más actualizada de la consulta sea la que cambiarán. Esto se llama **sincronización**
3. El analista realiza un cambio en la consulta.
4. El analista podría pedirle a alguien que revise este cambio. Esto se denomina **revisión de código** y puede realizarse de manera informal o formal. Una revisión informal podría ser tan simple como pedirle a un analista senior que observe el cambio.
5. Después de que un revisor aprueba el cambio, el analista envía la versión actualizada de la consulta a un repositorio en
6. el sistema de control de versiones de la empresa. Esto se llama **compromiso de código**. Una mejor práctica es documentar exactamente cuál fue el cambio y por qué se realizó en un área de comentarios. Volviendo a nuestro ejemplo de una consulta que genera ingresos diarios, un comentario podría ser: _Ingresos actualizados para incluir los ingresos provenientes del nuevo producto, Calypso_.
7. Después de **enviar** el cambio, todos los demás miembros de la empresa podrán acceder y utilizar esta nueva consulta cuando **sincronicen** las consultas más actualizadas almacenadas en el sistema de control de versiones.
8. Si la consulta tiene un problema o el negocio necesita un cambio, el analista puede **_deshacer_** el cambio en la consulta utilizando el sistema de control de versiones. El analista puede consultar una lista cronológica de todos los cambios realizados en la consulta y quién realizó cada cambio. Luego, después de encontrar su propio cambio, el analista puede **volver** a la versión anterior.
9. La consulta vuelve a ser como era antes de que el analista realizara el cambio. Y todos en la empresa también ven esta consulta original revertida.

Sin datos suficientes para identificar tendencias a largo plazo, una opción es hablar con las partes interesadas y pedir que se ajuste el objetivo. También puede solicitar esperar más datos y proporcionar un cronograma actualizado.

**Valores atípicos** son puntos de datos que son muy diferentes de datos recopilados de manera similar y que pueden no ser valores confiables.

## Clasificación versus filtrado

**Clasificar** consiste en organizar los datos en un orden significativo para que sean más fáciles de entender, analizar y visualizar. Clasifica sus datos según una métrica específica que elija. Puede ordenar datos en hojas de cálculo, bases de datos SQL (cuando su conjunto de datos es demasiado grande para hojas de cálculo) y tablas en documentos.

Por ejemplo, si necesita clasificar cosas o crear listas cronológicas, puede ordenarlas en orden ascendente o descendente. Si está interesado en descubrir las películas favoritas de un grupo, puede ordenarlas por título de película para descubrirlas. La clasificación organizará los datos de manera significativa y le brindará información inmediata. Ordenar también le ayuda a agrupar datos similares mediante una clasificación. En el caso de las películas, puedes ordenarlas por género, como acción, drama, ciencia ficción o romance.

**El filtrado** se utiliza cuando solo está interesado en ver datos que cumplen con un criterio específico y ocultar el resto. El filtrado es realmente útil cuando tienes muchos datos. Puede ahorrar tiempo concentrándose en los datos que son realmente importantes o en los datos que tienen errores o fallas. La mayoría de las hojas de cálculo y bases de datos SQL le permiten filtrar sus datos de diversas formas. El filtrado le brinda la posibilidad de encontrar lo que busca sin demasiado esfuerzo.

Por ejemplo, si solo está interesado en saber quién vio películas en octubre, puede usar un filtro en las fechas para que solo se muestren los registros de películas vistas en octubre. Luego, puedes consultar los nombres de las personas para saber quiénes vieron películas en octubre.

**En el proceso de análisis de datos, el objetivo del análisis es identificar tendencias y relaciones dentro de esos datos para que pueda responder con precisión la pregunta que hace.**

Acerca del Autor

Instructor de Ciberseguridad y Nadador

Ver Artículos