Dipartimento di Ingegneria dell'Informazione, delle Infrastrutture e dell'Energia Sostenibile - Università Mediterranea di Reggio Calabria - Didattica

Questo sito utilizza cookie tecnici propri e di terze parti, necessari al suo funzionamento, e, con il tuo consenso, cookie di profilazione ed altri strumenti di tracciamento di terze parti, utili per esporre video ed analizzare il traffico al fine di misurare l'efficacia delle attività di comunicazione istituzionale. Puoi rifiutare i cookie non necessari e di profilazione cliccando su "Solo cookie tecnici". Puoi scegliere di acconsentirne l'utilizzo cliccando su "Accetta tutti" oppure puoi personalizzare le tue scelte cliccando su "Personalizza".
Per maggiori informazioni consulta la nostra privacy policy.

Solo cookie tecnici Personalizza Accetta tutti

SISTEMI INFORMATICI AZIENDALI

Corso

Ingegneria Informatica e dei sistemi per le Telecomunicazioni

Curriculum

Curriculum unico

Orientamento

Reti

Anno Accademico

2017/2018

Crediti

Settore Scientifico Disciplinare

ING-INF/05

Anno

Secondo anno

Unità temporale

Primo semestre

Ore aula

Attività formativa

Attività formative affini ed integrative

Canale unico

Docente

DOMENICO URSINO

Obiettivi

Il corso intende fornire una panoramica molto ampia sulle metodologie, le tecnologie e i principali strumenti di Data Analytics. Esso inizia con una introduzione sui big data, che rappresentano, al momento, la frontiera della Data Analytics. Successivamente presenta il Data Warehousing che costituisce, invece, il presente della Data Analytics e, certamente, costituisce anche la base di partenza per il futuro. Dopo di ciò, vengono presentate le nuove metodologie e tecnologie di memorizzazione dei big data con un’enfasi speciale sui DBMS NoSQL e sull’ecosistema Hadoop. Il corso prosegue con la disamina di tutte le principali tecniche di (Big) Data Analysis che consentono di effettuare analisi descrittive, diagnostiche, predittive e prescrittive. Successivamente, viene proposta un’introduzione alla Sentiment Analysis, che attualmente rappresenta una tematica di frontiera nella Data Analytics. Il corso prosegue con la descrizione della Social Network Analysis, che consente di effettuare analisi sia di social network reali che di sistemi che si possono rappresentare sotto forma di reti complesse. Infine, il corso si chiude con la descrizione del controllo di gestione e degli indicatori di performance. Accanto alle lezioni teoriche, il corso prevede una disamina, e l’utilizzo, da parte degli allievi, di svariati tool di Data Analytics, individuati in base ai prodotti leader nel proprio settore, così come riportato dai Magic Quadrant di Gartner. In particolare, verranno esaminati i seguenti tool: Informatica PowerCenter, Qlik Sense, Tableau, Hive, MongoDB, Microsoft Power BI, Splunk, IBM Watson. Nell’ambito del corso, verranno, eventualmente, proposti dei seminari durante i quali responsabili aziendali discuteranno in merito ai Sistemi di Data Analytics utilizzati nelle rispettive aziende. Infine, sempre nell’ambito del corso, verranno condotte delle sessioni di brainstorming su case study reali.

Programma

Fondamenti dei Big Data (0.75 CFU)
Introduzione ai big data; concetti e terminologia; caratteristiche dei big data; tipi di dati differenti: dati strutturati, dati semi-strutturati, dati non strutturati, metadati; dinamiche del mercato dei big data; business architecture; Business Process Management; Data Analytics e Data Science; digitalizzazione; tecnologia accessibile e commodity hardware; Social Media; comunità e dispositivi iperconnessi; cloud computing: IaaS, PaaS, SaaS, DaaS; Internet of Everything; pianificazione nell’adozione dei big data: prerequisiti organizzativi, data procurement, privacy, sicurezza, provenienza, supporto realtime, performance, richieste di governance, metodologie di valore; ciclo di vita della Big Data Analytics; Online Transaction Processing (OLTP); Online Analytical Processing (OLAP); Extract, Transform and Load (ETL); Data Warehouse; Data Mart; la Business Intelligence tradizionale; la Big Data Business Intelligence; visualizzazione tradizionale dei dati; visualizzazione di big data.

Il Data Warehousing (1.5 CFU)
Introduzione al Data Warehousing; architetture per il Data Warehousing: architettura a due livelli, architettura a tre livelli; qualità di un Data Warehouse; il modello multidimensionale; tool e tecnologie per il Data Warehousing; reportistica; OLAP; le principali operazioni OLAP: Roll-up, drill-down, slice-and-dice, pivoting, drill-across; ROLAP e MOLAP; lo schema a stella; lo schema a fiocco di neve; le viste; metodologia di progettazione di un Data Warehouse: scelta del processo, scelta della granularità, identificare e rendere conformi le dimensioni, scelta delle misure, memorizzare pre-calcoli nella tabella dei fatti, completare la tabella delle dimensioni, scelta della durata del database, tracciare le “slowly changing dimension”, decidere le priorità sulle query e sulle modalità di query, integrazione dei Data Mart.

Un tool di ETL: Informatica PowerCenter (0.25 CFU)
Cosa è Informatica Power Center; perché può essere utile; architettura di Power Center; Dominio; Power Center Repository; configurazione del dominio; Integration Service; Sources e Targets; Source Analyzer e Target Designer; Mapping, Workflow; Workflow Monitoring; Debugger; Sessioni; Transformations: Filter Transformation, Source Qualifier Transformation, Aggregator Transformation, Router Transformation, Joiner Transformation, Rank Transformation, Sequence Transformation, Transition Control Transformation, Lookup Transformation, Re-usable Transformation, Normalizer Transformation; Performance Tuning.

Due tool di Data Warehousing 2.0: Qlik Sense e Tableau (0.5 CFU)

Big Data e File System (0.5 CFU)
File System e File System distribuiti; DBMS NoSQL; sharding; replicazione; utilizzo congiunto di sharding e replicazione; CAP Theorem; proprietà ACID; proprietà BASE; Parallel Data Processing; Distributed Data Processing; Hadoop; Processing workload; cluster; processing in batch mode; batch processing con MapReduce; i task di Map e Reduce; elaborazione in modalità realtime; elaborazione dei Big Data in realtime e MapReduce.

Hadoop e Hive (0.5 CFU)
Introduzione; tipologie di utenti Hadoop; le tre principali distribuzioni Hadoop: Cloudera, MapR, Hortonworks; scelta della soluzione migliore di Hadoop per la propria organizzazione; uno sguardo ad HDP; Hive: cosa è; caratteristiche; architettura; flusso di esecuzione dei lavori; modalità di operazione; tipi di dati; creazione e cancellazione di un database; creazione, modifica e cancellazione di una tabella; partizioni e bucket; indici e viste; query; order by; group by; sort by; distribute by; cluster by; query di join; sottoquery; script personalizzati embedded; HiveQL; operatori relazionali; operatori aritmetici; operatori logici; costruttori di tipo complessi; funzioni predefinite; User Defined Functions; ETL: elaborazione di dati strutturati, elaborazione di dati semi-strutturati; utilizzo di Hive in progetti real-time.

Big Data e DBMS (0.5 CFU)
Dispositivi di memorizzazione su disco; RDBMS; i database NoSQL; database chiave-valore; database documentali, un esempio di database documentale: MongoDB; database a colonne; database a grafi; database NewSQL; i dispositivi di memorizzazione “in-memory”.

Un DBMS NoSQL: MongoDB (0.25 CFU)

(Big) Data Analysis (2 CFU)
Introduzione; l’analisi statistica; l’A/B testing; la correlazione; la regressione; il Machine Learning; il Data Mining: motivazioni, funzionalità; l’estrazione di regole associative e l’algoritmo Apriori; la classificazione e la predizione; la classificazione per mezzo degli alberi di decisione; la classificazione bayesiana; la regressione; l’accuratezza della classificazione; il clustering; i metodi di clustering basati sul partizionamento: k-means e k-medoids; i metodi di clustering gerarchici; i metodi di clustering basati sulla densità; i metodi di clustering basati sulla griglia; i metodi di clustering basati sul modello; il clustering basato sui vincoli; l’analisi degli outlier; il web mining: web structure mining, web content mining, web usage mining; il filtering; l’analisi semantica; il Natural Language Processing; l’analitica dei testi; l’analisi visuale; il plot delle serie temporali; le reti; Spatial Data Mining.

Un tool di Data Analysis Descrittiva, Diagnostica, Predittiva e Prescrittiva: Microsoft PowerBI (0.25 CFU)

Un tool di Log Analytics: Splunk (0.25 CFU)

Sentiment Analysis (0.25 CFU)
Introduzione; a cosa serve la sentiment analysis; ricerca sociale; ricerca di mercato; predizione di risultati elettorali; gestione della reputazione online; predizione degli andamenti di borsa; pubblicità mirata; controllo sociale; accuratezza; funzionamento di un processo di sentiment analysis.

Un tool di Sentiment Analysis e Cognitive Processing: IBM Watson (0.25 CFU)
Introduzione; il cambiamento, ovvero la nuova normalità; colmare il gap tra visione e innovazione; l’elaborazione cognitiva; utilizzo della tecnologia cognitiva per comprendere le persone; conoscere gli individui; conoscere le loro motivazioni; conoscere i loro sentimenti; migliorare la comunicazione sulla base di una migliore comprensione delle persone; vincere le sfide aziendali; sicurezza; derivazione di informazioni più profonde.

La Social Network Analysis (0.75 CFU)
Introduzione; analizzare le relazioni per comprendere le persone e i gruppi; dalle relazioni alle reti; il potere delle social network; le rivoluzioni e Twitter; cos’è un grafo; le matrici di adiacenza; le liste di adiacenza; dimensione; degree; indegree; outdegree; densità; attraversamento di grafi e distanze; Depth-First Traversal; Breadth-First Traversal; path e walk; trail; tour; distanza geodesica; eccentricità; raggio; diametro; Algoritmo di Dijkstra; six degrees of separation; small world networks; campionamento; Centralità: Degree Centrality, Closeness Centrality, Betweenness Centrality, Eigenvector Centrality, PageRank, cosa non ci possono dire le metriche di centralità; Ego network; clustering coefficient; triadi; buchi strutturali; triadi dirette; introduzione alle clique; N-clique; N-clan; k-plex; k-core; F-groups; ricerca delle clique; triadi; densità delle reti e conflitti; perché Facebook ce l’ha fatta?; la massa critica; il contenuto; come le informazioni modellano le reti (e viceversa); omofilia; omofilia vs curiosità; boundary spanner; weak ties; numero di Dumbar; two-mode networks; rappresentazione delle two-mode networks; potenzialità delle two-mode networks; moltiplicazione delle matrici di adiacenza nelle two-mode networks; estensione alle reti multi-modali.

Controllo di gestione e indicatori di performance (0.5 CFU)
Introduzione; Key Result Indicators; Result Indicators; Performance Indicators; Key Performance Indicators; principali caratteristiche dei KPI; differenze tra KRI e KPI e tra RI e PI; la confusione tra lead (performance) e lag (ricavi); la regola 10/80/10; importanza della tempestività delle misure; i falsi miti della misurazione delle performance; i falsi miti relativi alla balanced scorecard; il lato oscuro della misurazione; una metodologia vincente per l’utilizzo dei KPI; reporting delle misure di performance: introduzione, reporting delle misure al management, allo staff, al Consiglio di Amministrazione, ai team di lavoro; interazione tra i report delle misure di performance; tecnologie per la progettazione dei report.

Testi docente

• T. Erl, W. Khattak, P. Buhler, “Big Data Fundamentals – Concepts, Drivers & Techniques”, Prentice Hall, 2015.
• M. Tsvetovat, A. Kouznetsov, “Social Network Analysis for Startups”, O’Reilly, 2011
• D. Parmenter, “Key Performance Indicators – Third Edition”, John Wiley & Sons, 2015

Dispense fornite dal Docente

Erogazione tradizionale

Sì

Erogazione a distanza

Frequenza obbligatoria

Valutazione prova scritta

Valutazione prova orale

Sì

Valutazione test attitudinale

Valutazione progetto

Sì

Valutazione tirocinio

Valutazione in itinere

Prova pratica

Ulteriori informazioni

Materiale didattico
Ricevimento
Avvisi
Orario lezioni
Codice insegnamento

Descrizione	Descrizione
Dispensa Data Lake (dispensa)
Dispensa MongoDB N. 1 - Installazione (dispensa)
Dispensa MongoDB N. 2 (dispensa)
Dispensa N. 1 (dispensa)
Dispensa N. 2 (dispensa)
Dispensa N. 3 (dispensa)
Dispensa N. 4 (dispensa)
Dispensa N. 5 (dispensa)
Dispensa N. 6 (dispensa)
Dispensa N. 7 (dispensa)
Dispensa N. 8 (dispensa)
Dispensa N. 9 (dispensa)
Dispensa PowerBI N. 1 (dispensa)
Dispensa PowerBI N. 2 (dispensa)
Dispensa Qlik N. 1 (dispensa)
Dispensa Qlik N. 2 (dispensa)
Dispensa Splunk N. 1 (dispensa)
Dispensa Splunk N. 2 (dispensa)
Dispensa Splunk N. 3 (dispensa)
Dispensa Tableau N. 1 (dispensa)
Dispensa Tableau N. 2 (dispensa)
Quarto esempio di tesina (dispensa)
Esempio di Tesina (esercitazioni)
Quinto esempio di tesina (esercitazioni)
Secondo esempio di tesina (esercitazioni)
Terzo Esempio di Tesina (esercitazioni)
Programma ufficiale del corso (programma)