Big Data | Notion

Es un curso brindado por la fundación telefónica, para conocer los conceptos básicos asociados a Big Data.

Globalización de las marcas, personalización de las ofertas, y la multiplicación de los canales de ventas.
Big data, son muchos datos, se necesitan de herramientas especializadas para analizarlas y gestionarlas. Se almacenan en cubos de información.
Amplio conjunto de herramientas de código abierto.

En los años 80, el programa de ordenador componen en lineas de código para resolver un problema, se programaba para ejecutar en un solo ordenador. Conforme pasaban los años necesitaba más recursos.
En los años 90, llegaron la programación distribuida, un conjunto de maquinas que cooperan entre si. Cuando fallaba algo en los servidores debía solucionar.
Era costoso en tiempo y mantenimiento para poder replicar los datos de un server replicador a un server central.
La tecnología de Big Data tiene sus inicios en Google, ellos continuaron con la investigación en índices invertidos, concretamente en Google File System y el paradigma Map/Reduce (Año 2003 y 2004 por Jeef Dean)
Indice invertido son estructuras de datos que identifican mediante una palabra en las diversas webs.
GFS, nuevo sistema distribuido, y habría multiples servidores mas cerca de los servidores
Map/Reduce: Es un marco de trabajo que permite
- Fase 1 Map: Cada servidor genera listas ordenas de la info q tiene localmente.
- Fase 2 Shuffle and Sort: Con todas las listas se ordenan
- Fase 3 reduce: son tareas que genera un indice invertido en base a la palabra.
Estas dos tecnologias permiten administracion de petabytes de datos —>hadoop(el elefante de su hijo del creador: Duke lake), genera escalabilidad, variedad, volumen, servidores, localidad de los datos (evita la latencia).

Fase 1: Identificación, Identificar las fuentes de datos del proyecto
Fase 2: Ingesta de Data Lake, Ingesta y/o almacenamiento de los datos, “almacenamiento de datos sin ninguna estructura”.
- Herramientas:
  - Desarrollo de una función para la Captura e ingesta de datos en el Data Lake con:
    - Sqoop(bd estructurada)
    - Flume y Kafka(BD No Estructurada)
Fase 3: Almacenamiento
- Tecnologías:
  - HDFS(No SQL)
  - SQL
Fase 4: Tratamiento de datos en conocimiento
- Herramientas: Estas herramientas desechan data no valorada, y pr ejemplo spark puede hacer una valoración de sentimientos,
  - Hadoop
  - Hive
  - Pig
  - Spark
Fase 5: Visualización, esta fase es para resumir y visualizar
- Herramientas:
  - Power BI
  - Tableau
  - Qlik
  - Kibana
  - Grafana