Scienza dei dati
Obiettivo: Nella società post-moderna siamo immersi in una costante e copiosa pioggia digitale di dati. Il valore di questi dati è nullo se essi non vengono efficacemente trattati al fine di trasformali in conoscenza. Il corso propone metodologie di rappresentazione, archiviazione, interrogazione, analisi e visualizzazioni di dati complessi, in particolare dati gerarchici e dati reticolari, senza tralasciare l'importanza delle corrispondenti strutture di dati nel contesto storico e umanistico.
Modalità didattica: Le lezioni saranno frontali più una parte di laboratorio. La parte di laboratorio è mirata all'acquisizione dei linguaggi e strumenti software mediante casi di studio.
Pre-requisiti: I pre-requisiti sono (tra parentesi i livelli richiesti):
- statistica (base)
- algebra matriciale (base)
- programmazione in Java (intermedio)
Programma:
Tra parentesi quadre i riferimenti bibliografici, tra parentesi tonde i riferimenti agli strumenti software:
- Introduzione all'infografica [T01]
- Dati gerarchici
- Storia [L14]
- Rappresentazione: XML [MS06]
- Archiviazione: basi di dati native per XML (BaseX)
- Interrogazione: XPath, XQuery e XQuery Full-Text [MS06] (BaseX)
- Visualizzazione [L14, BGLL13] (BaseX, igraph, Processing)
- Dati reticolari
- Storia [L11]
- Archiviazione: basi di dati native per grafi (Neo4J)
- Analisi: [N10] (R, igraph)
- misure di centralità
- misure di similarità
- rivelazione di comunità
- proprietà strutturali
- Visualizzazione [L11, BGLL13] (igraph, Processing)
Libri:
- [T01] Edward R. Tufte. The visual display of quantitative information. Graphics Press; 2nd edition, 2001
- [L14] Manuel Lima. The book of trees. Princeton Architectural Press, 2014.
- [MS06] Anders Møller, Michael Schwartzbach. An introduction to XML and Web technologies. Addison Wesley, 2006
- [BGLL13] Hartmut Bohnacker, Benedikt Gross, Julia Laub, Claudius Lazzeroni. Generative design. Princeton Architectural Press, 2012
- [L11] Manuel Lima. Visual Complexity. Princeton Architectural Press, 2011.
- [N10] Mark Newman. Networks. Oxford University Press, 2010.
Software:
Materiale:
Dataset
Modalità di esame: L'esame consiste in una progetto e in una prova orale.