Data Science

Syllabus

  • the flow of data science: import, tidy, transform, visualize, model, communicate
  • big data
  • real-time data visualization
  • blockchain
  • text mining

Methodology

  1. The course is a sequence of teaching units
  2. Each teaching unit has three components:
    1. a brief explanation (plug)
    2. an exercise to be solved (play)
    3. the solution of the exercise (solution)
  3. Some case studies will be proposed to be carried out (data challenges)
  4. The course ends with a general test (exam)

R package

Download and install both R and RStudio. We will mainly use tidyverse and tidytext R packages.

Mid-course assignment

The mid-course assignment covers the full pipeline of Data Science. You’re asked to investigate the Italian Soccer League.

Exam

L’esame consiste in un progetto obbligatorio discusso in videoconferenza. L’orale consiste nella discussione del progetto e in alcune domande di teoria sul programma del corso. Lo studente deve iscriversi all’appello su ESSE3. All’ora dell’esame il docente apre una riunione sul canale Teams del corso (esattamente come fatto per le lezioni) alla quale gli studenti dovranno partecipare per discutere il progetto attraverso la condivisione dello schermo. Studenti non iscritti non potranno fare l’esame ma potranno assistere alla prova.

Lo studente dovrà collegarsi alla riunione all’ora stabilita con un dispositivo dotato di microfono e videocamera. Ogni studente avrà a disposizione 15 minuti di tempo per presentare il progetto più 5 minuti per le domande. Il voto verrà registrato su ESSE3 dopo la chiusura dell’appello con la possibilità per lo studente di rifiutare il voto e presentarsi ad un appello successivo (eventualmente portando lo stesso progetto migliorato). Per la determinazione del voto verrà valutato sia il contenuto del progetto che la forma dell’esposizione.

Le modalità per lo svolgimento del progetto sono le seguenti:

  1. fai il progetto individualmente e usa i metodi e i linguaggi visti durante il corso
  2. scegli un caso di studio significativo
  3. poniti delle domande guidato dalla curiosità
  4. usa la scienza dei dati per trovare le risposte alle domande che ti sei fatto
  5. crea un repository su GitHub in cui metti il dataset usato e l’analisi fatta in R Markdown (codice e prosa). Invia il link al docente per posta elettronica prima della data dell’esame (GitHub è libero per gli studenti e i docenti)
  6. prepara una presentazione in R Markdown che ti servirà per discutere il progetto il giorno dell’esame. Ricorda che la presentazione è la punta dell’iceberg del tuo lavoro e dovrà essere discussa in al massimo 15 minuti. Evita di aggiungere il codice nella presentazione.