Strutture relazionali

Il modello relazionale si fonda sul concetto di relazione (da non confondere con la relazione concettuale del modello ER), la cui rappresentazione è una tabella. Il concetto di relazione è formale e proviene dalla teoria degli insiemi, una parte della matematica. Il concetto di tabella è intuitivo ed è usato in vari contesti che prescindono dalle basi di dati. Il successo delle basi di dati relazionali sta appunto nella congiunzione di un concetto formale, la relazione, che ha permesso lo sviluppo di una teoria delle basi di dati relazionali con risultati di impatto pratico, con un concetto intuitivo, la tabella, che ha reso compresibile il modello relazionale anche ad utenti finali senza alcuna nozione matematica. L'approccio seguito in questo capitolo sarà di tipo intuitivo e non formale. Un buon testo per la teoria delle basi di dati relazionali è l'articolo Elements of Relational Database Theory di Paris C. Kanellakis.

Consideriamo un esempio di relazione che descrive gli orari dei treni rappresentata dalla tabella che segue:

orario
treno	città di partenza	ora di partenza	città di arrivo	ora di arrivo
IC129	Udine	19:00	Milano	22:30
IR567	Milano	11:40	Roma	17:30
ES21	Roma	8:40	Napoli	10:30

Le seguenti proprietà caratterizzano il modello relazionale (useremo i termini relazione e tabella in modo intercambiabile):

una relazione è composta da righe e da colonne. Le colonne, dette anche attributi, hanno un nome che le identifica. Tali nomi devono essere distinti uno dall'altro all'interno della tabella. Ogni riga (oltre l'intestazione) è detta tupla e contiene un dato per ogni attributo della tabella. Ogni tupla corrisponde ad un elemento della relazione. Gli elementi di una tupla sono dati in relazione tra loro. Ad esempio, il primo elemento di ogni tupla si riferisce ad un treno e il secondo alla città di partenza di quel treno. Il numero di righe di dati viene detto cardinalità della relazione, il numero di colonne è chiamato grado della relazione.
ogni tupla della relazione è distinta dalle altre. L'ordine delle righe nella tabella non è rilevante. L'ordine delle colonne nella tabella non è significativo in quanto le colonne sono identificate dai corrispondenti attributi. Dunque scambiando righe e colonne non cambia la relazione rappresentata dalla tabella;
ogni attributo della relazione viene associato un dominio, cioè un insieme di valori. Gli attributi possono assumere valori solo nel corrispondente dominio. Ad esempio, l'attributo treno ha come dominio l'insieme delle stringhe e ora di partenza ha come dominio l'insieme delle ore ben formate. Un dominio nel modello relazionale deve contenere solo valori atomici. Un valore atomico è indivisibile, per lo meno per quanto riguarda il modello relazionale. Ad esempio, un valore atomico di un attributo non può essere una riga di una tabella o una tabella intera. La nozione di dominio corrisponde a quella di tipo di dato semplice nei linguaggi di programmazione;
ogni relazione deve avere una chiave primaria, cioè un insieme di attributi che identificano univocamente ogni tupla della relazione. Nel caso della relazione orario, una chiave può essere la coppia treno e orario di partenza (infatti lo stesso treno non può partire da città diverse alla stessa ora).
gli attributi possono avere un valore non noto o non esistente. In tal caso si dice che l'attributo ha valore nullo e si scrive nella tabella la costante NULL. Questa costante non deve appartenere a nessuno dei domini usati dalla base di dati. Gli attributi della chiave primaria non possono avere valori nulli.

In una relazione si distingue il suo schema dal suo contenuto:

uno schema di relazione R(X) è formato da un simbolo R, detto nome della relazione, e da un insieme di attributi X, ognuno dei quali è associato ad un dominio.
una istanza di relazione (o relazione) sullo schema R(X) è un insieme di tuple definite su X.

Riprendendo la tabella degli orari dei treni, lo schema di relazione corrisponde al nome della tabella e alla riga di intestazione e viene indicato in questo modo:

orario({treno, città di partenza, ora di partenza, città di arrivo, ora di arrivo})

Si noti che il nome degli attributi che formano la chiave primaria viene sottolineato. Per comodità le parentesi graffe che identificano l'insieme vengono di solito omesse. Inoltre è preferibile usare identificatori che non contengono spazi. Ad esempio, invece di città di partenza possiamo usare cittàDiPartenza. Una istanza della relazione orario corrisponde a un insieme (possibilmente vuoto) di tuple corrispondenti.

Solitamente, l'informazione contenuta in una base di dati viene rappresetata in più tabelle. Tali tabelle possono contenere valori comuni che servono come associazione tra dati diversi. Definiamo quindi:

uno schema di base di dati è un insieme di schemi di relazione con nomi diversi. Attributi di schemi di relazione diversi possono avere lo stesso nome;
una istanza di base di dati (o base di dati) su uno schema di base di dati è un insieme di istanze di relazione, una istanza per ogni schema di relazione dello schema della base di dati.

Facciamo un esempio tratto dal nostro caso di studio. Consideriamo uno schema di base di dati composto dai seguenti schemi di relazione:

teatro(nome, città, email)

dipendente(cf, nome, cognome, dataDiNascita, età)

lavoro(teatro, dipendente, ruolo)

Di seguito mostriamo una istanza di base di dati sullo schema proposto:

teatro
nome	città	email
CSS	Udine	css@gmail.com
Litta	Milano	litta@gmail.com
Eliseo	Roma	NULL

dipendente
cf	nome	cognome	dataDiNascita	età
ELSDLL72	Elisa	D'Allarche	29/04/1972	35
FRNDPP76	Fernanda	D'Ippoliti	11/03/1976	31
MRCDLL70	Marco	Dall'Aglio	09/01/1970	37

lavoro
teatro	dipendente	ruolo
CSS	ELSDLL72	relazioni
Litta	FRNDPP76	finanza
Eliseo	FRNDPP76	controllo
Eliseo	MRCDLL70	direzione

Facciamo una osservazione fondamentale. Nel modello relazionale tutta l'informazione viene rappresentata tramite relazioni che corrispondono a tabelle con attributi. Quindi, in questo modello, sia le entità che le relazioni dello schema concettuale vengono implementate in relazioni dello schema relazionale. In particolare le associazioni concettuali tra entità vengono realizzate a livello logico mediante tabelle che contengono valori comuni ad altre tabelle a cui fanno riferimento.

Ad esempio, la relazione concettuale lavoro che associa le entità dipendente e teatro viene rappresentata da una relazione lavoro nella quale l'attributo teatro identifica l'entità teatro e l'attributo dipendente identifica l'entità dipendente. In particolare, per dire che il dipendente ELSDLL72 (Elisa D'Allarche) lavora per il teatro CSS scriviamo questi valori nelle corrispondenti colonne della tabella lavoro. Gli attributi teatro e dipendente della relazione lavoro prendono il nome di chiavi esterne (foreign keys) in quanto fanno riferimento a chiavi di altre tabelle.

Questo modello per stabilire corrispondenze tra i dati prende il nome di modello basato su valori. Esso si distingue dal modello basato su riferimenti tipico dei modelli dei dati reticolare e gerarchico. In quest'ultimo le corrispondenze tra i dati vengono implementate da puntatori, cioè variabili che contengono indirizzi di memoria dei dati. Il modello basato su valori ha due vantaggi rispetto a quello basato su riferimenti:

rappresenta solo informazione rilevante per la realtà modellata;
l'indipendenza fisica dei dati viene mantenuta permettendo di cambiare la rappresentazione fisica dei dati (ad esempio spostando i dati in una diversa zona di memoria) senza mutare quella logica.