Big Data: Tecnologie e Problematiche

I Big Data rappresentano la principale tendenza in campo informatico degli ultimi anni.

Con Big Data si intendono dataset aventi dimensioni e caratteristiche tali da rendere la loro elaborazione difficoltosa con strumenti tradizionali basati sul modello relazionale.

Questo non vuol dire che gli strumenti di gestione dati normalmente presenti in azienda non siano in grado di trattare i Big Data ma che il loro utilizzo può essere poco produttivo in termini di tempi e costi di elaborazione.

A tal fine, gli strumenti tradizionali, possono essere affiancati (mai sostituiti) da nuovi prodotti quali file system distribuiti, database NoSQL e framework di elaborazione distribuita come Apache Spark.

Ognuno di questi strumenti è differente dagli altri ed è ottimizzato per eseguire determinati compiti: la scelta dello strumento da utilizzare  non può essere fatta in modo superficiale e deve essere basata sui requisiti di business dell'azienda.

Ma quali caratteristiche devono avere i dati per essere considerati "Big"? Quali vantaggi di business possono derivare dalla loro elaborazione? Quali sono le principali tecnologie per la loro memorizzazione, elaborazione e gestione?

Questo corso vuole fornire una panoramica sullo stato dell'arte delle tecnologie e dei processi per la gestione di Big Data in modo da fornire ai discenti strumenti pratici per iniziare ad introdurli in azienda.

Gli argomenti sono descritti tramite l'esposizione di casi di studio reali.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Introduzione ai Big Data:

  • cosa sono i Big Data
  • quanto sono grandi i Big Data?
  • le principali proprietà : volume, velocità , varietà , valore, veracità
  • classificazione dei Big Data
  • come individuare i Big Data
  • sorgenti di provenienza dei Big Data
  • quali opportunità per il business?
  • vantaggi e svantaggi nel loro utilizzo
  • come si posizionano i Big Data rispetto agli strumenti tradizionali (RDBMS, DWH, BI,...)
  • il processo di gestione dei Big Data

Come memorizzare i Big Data:

  • pattern architetturali per la memorizzazione dei Big Data
  • utilizzo di file system distribuiti (es. HDFS)
  • database NoSQL e loro classificazione
  • criteri per la scelta dello strumento di storage in base alle esigenze di business
  • il concetto di Data Lake: cos'è e come implementarlo
  • come trasferire i dati da e verso il Data Lake
  • memorizzare i dati in base alle esigenze del busines
  • strumenti per il trasferimento dei dati

Come elaborare e analizzare i Big Data:

  • elaborazione distribuita
  • Map/Reduce e principali pattern di implementazione
  • strumenti per l'implementazione del Map/Reduce (YARN, TEZ, PIG, ...)
  • integrazione con i linguaggi di programmazione tradizionali
  • real-time analytics e complex event processing
  • R programming language
  • concetti base di Data Mining

Come interrogare e come visualizzare i Big Data:

  • utilizzo degli strumenti e dei linguaggi di interrogazione nativa
  • mapping su SQL (Hive, Drill, Impala, ...)
  • integrazione con RDBMS e con strumenti di Business Intelligence tradizionali

Big Data Governance:

  • che cos'è la data governance
  • processo di governance dei Big Data
  • il repository dei metadati
  • ruoli e responsabilità
  • nuove figure professionali (es. Data Scientist).

Introduzione ad Hadoop:

  • che cos'è Hadoop
  • principali strumenti forniti
  • principali pattern architetturali
  • principali distribuzioni a confronto (MapR, Cloudera, Hortonworks)

Principali NoSQL Database a confronto:

  • architettura, caratteristiche e funzionalità di MongoDB, Cassandra, CouchDB e altri

Integrazione con i sistemi aziendali esistenti:

  • architetture di integrazione
  • strumenti utilizzabili

Problematiche di sicurezza e privacy:

  • come memorizzare i dati in modo sicuro
    gestione multitenancy
    politiche di accesso

Casi di studio ed esempi pratici

Durata

3 giorni

NOTA: a seconda delle esigenze del cliente, questo corso è predisposto per una durata variabile; ad esempio:

  • 1 giorno - semplice introduzione alle problematiche dei Big Data e alla loro introduzione in azienda
  • 3 giorni - il corso standard che fornisce una panoramica a 360 gradi sul mondo dei Big Data
  • 5 giorni - un corso più approfondito con la possibilità di vedere il funzionamento pratico di un maggior numero di strumenti e la descrizione di un maggior numero di casi d'uso

 

Destinatari

  • capi progetto
  • analisti
  • progettisti
  • sviluppatori
  • chiunque voglia iniziare a capire i Big Data.

 

Prerequisiti

Conoscenze base sul funzionamento di Internet e delle applicazioni distribuite.

 

Requisiti per l'aula

Il rispetto dei seguenti requisiti è indispensabile per la corretta erogazione del corso:

  • videoproiettore con risoluzione nativa minima di 1024x768 (meglio se superiore) funzionante
  • connessione ad internet non filtrata per il portatile del docente
  • lavagna a fogli mobili o a secco con pennarelli di diversi colori (o strumenti equivalenti)

NOTA: Il docente utilizzerà un suo portatile (Mac) sul quale sono stati preinstallati gli esempi da mostrare durante l'esposizione. Nel caso in cui non sia possibile l'utilizzo del portatile del docente (es. per problemi di sicurezza nella connessione alla rete aziendale) e sia necessario utilizzare un PC fornito dal cliente, questo deve essere concordato in precedenza e comporterà un addebito extra per l'installazione e la configurazione degli esempi.

Data

04-06 dicembre 2023

dalle 9.30 alle 17.00

 

Luogo

Corso on-line

Prenotazioni

Contattare direttamente Technology Transfer:
Piazza Cavour, 300193 - Roma

Tel. +39 06 6832227

Fax. +39 06 6871102

E-mail: info@technologytransfer.it

 

Perché un corso in house?

Il corso può essere tenuto "in house" presso il cliente con i seguenti vantaggi:

  • con un numero di 4-5 partecipanti, il corso "in house" è più conveniente rispetto al corso pubblico (maggiore è il numero dei partecipanti, maggiore è il risparmio)
  • il corso può essere personalizzato a seconda delle esigenze del cliente (da concordare prima dell'erogazione)
  • è possibile calare la discussione degli argomenti sulla realtà aziendale del cliente (da concordare prima dell'erogazione)
  • è possibile modificare la durata del corso rispetto a quella standard (meno giorni per avere solo una panoramica, più giorni per un maggiore approfondimento)
  • è possibile eseguire test di verifica sull'apprendimento ed esercitazioni pratiche costruite ad hoc

 

Come richiedere un corso in house

Un corso in house può essere richiesto direttamente a:

Tecnet Dati s.r.l.

Corso Svizzera 185 10149 - Torino

Tel. +39 011 7718090

Fax. +39 011 7718092

mail: info@tecnetdati.it

mail area formazione: formazione@tecnetdati.com

 

Ulteriori informazioni

Per ulteriori informazioni sull'erogazione di corsi in house vedi la pagina ufficiale di Tecnet Dati