Τι είναι ένα Data Warehouse

Σχετικά με
τελευταίες δημοσιεύσεις

Το ταξίδι άρχισε το 2008 όπου ξεκίνησα να εργάζομαι επίσημα στον τομέα της τεχνολογίας πληροφορικής (IT). Ξεκινώντας το πρώτο εξάμηνο της σχολής κατάλαβα μια ιδιαίτερη έλξη προς τις βάσεις δεδομένων και τους αυτοματισμούς.Έχω ασχοληθεί με βάσεις δεδομένων όπως Microsoft SQL Server / Oracle Database, ανάλυση δεδομένων και αυτοματισμούς με τη χρήση γραμμής εντολών (CLI), Visual Basic for Applications και Python. Μέσα από τα χρόνια εμπειρίας εξέλιξα αυτές τις δυνατότητες ώστε να μπορώ να κάνω τη ζωή μου πιο εύκολη. Για μένα ο σκοπός του κάθε IT guy αλλά και κάθε υπαλλήλου γραφείου είναι το να έχει τις γνώσεις ώστε μέσω εργαλείων να μπορεί να δουλεύει λίγο αλλά να παράγει πολύ. Μέσα από αυτό τον ιστότοπο του DataPlatform.gr προσπαθώ να προσφέρω γνώσεις και να προτείνω λύσεις σε καθημερινά προβλήματα.

Πιστοποιήσεις:

certs

Τελευταίες δημοσιεύσεις από Stratos Matzouranis (Προβολή όλων)

Πώς στέλνουμε email μέσα από Oracle Database όταν αποτύχει ένα RDBMS_SCHEDULER Job - 22 Απρίλιος 2026
Πώς μεταφέρουμε CLOB πεδία κειμένου από Oracle Database σε SQL Server χωρίς προβλήματα - 19 Ιανουάριος 2026
Πώς επαναφέρουμε μία Oracle Database που βρίσκεται σε archive-log mode με RMAN Restore - 1 Δεκέμβριος 2025

Στο άρθρο αυτό θα αναλύσουμε τι είναι το Data Warehouse, από τι αποτελείτε και ποια είναι η χρησιμότητα του.

Στην εποχή της πληροφορικής η διαχείριση των δεδομένων που ολοένα αυξάνονται γίνεται συνεχώς πιο δύσκολη. Θέλουμε να αξιοποιήσουμε τα δεδομένα αυτά και ταυτόχρονα να μην καθυστερεί η εφαρμογή μας.

Το Data Warehouse είναι ένα σύστημα που χρησιμοποιείτε για ανάλυση δεδομένων. Εκεί συλλέγονται δεδομένα (ETL) σε μια βάση δεδομένων που ονομάζεται staging από διάφορες πηγές όπως transactional βάσεις (OLTP) και Big Data και αφού πραγματοποιηθεί κάποια εκκαθάριση στα δεδομένα (cleansing / data quality ) αυτά μεταφέρονται στη βάση του Data Warehouse (OLAP) ως μικρές οντότητες (Data Marts). Από εκεί και πέρα γίνεται σύνδεση του Data Warehouse με τα Reporting Tools όπως Power BI, Excel, QLik , Tableau κ.τ.λ. ώστε να φτάσει η πληροφορία στον τελικό χρήστη.

Τι είναι ένα Data Warehouse — η εικόνα προέρχεται από το Wikipedia

Με τι τρόπο είναι κατανεμημένα τα δεδομένα σε ένα Data Warehouse;

Η πιο δημοφιλής τεχνική ανάλυσης δεδομένων είναι η χρήση Πολυδιάστατων κύβων που ονομάζονται και OLAP Cubes (Online analytical processing) .

Εκεί τα δεδομένα μας χωρίζονται σε διαστάσεις(dimensions) που μπορεί να είναι ο χρόνος, το προϊόν, γεωγραφική περιοχή, … και σε fact που το κάθε κελί περιέχει μια μέτρηση(measure) που μπορεί να είναι ο αριθμός πωλήσεων που έχουν γίνει, το κέρδος, το κόστος κ.τ.λ.. Επίσης τα aggregations (π.χ. μέσος όρος / σύνολο / κατώτατων πωλήσεων) προ-υπολογίζονται και αποθηκεύονται κατά την ενημέρωση του κύβου με τα καινούργια δεδομένα μέσω μια διαδικασίας που ονομάζεται process.

Πως αποθηκεύονται τα δεδομένα σε έναν πολυδιάστατο κύβο;

Τα δεδομένα ενός πολυδιάστατου κύβου αποθηκεύονται με τη μορφή είτε Star Schema είτε Snowflake Schema πριν δούμε όμως αναλυτικά τι σημαίνουν αυτές οι δύο μορφές θα πρέπει γνωρίζουμε τους τρεις παρακάτω όρους.

Fact tables (πίνακας γεγονότων)

Στον Fact table καταγράφονται οι μετρήσεις(measures) συγκεκριμένων γεγονότων όπως αριθμός πωλήσεων που έγιναν, κόστος και κέρδος. Επίσης περιέχονται τα foreign keys τα οποία επιτρέπουν τη σύνδεση τους με τα dimension tables.

Για να διασφαλιστεί η μοναδικότητα της κάθε εγγραφής μέσα στον χρόνο καθώς μπορεί να έχουν γίνει μεταβολές στη πηγή που προήλθαν τα δεδομένα, ως primary key ορίζεται ένας μοναδικός αριθμός που ονομάζεται Surrogate key.

Dimension tables (πίνακες διαστάσεων)

Στα Dimension tables έχουμε τα δεδομένα των διαστάσεων που μπορεί να είναι κοινά για τις μετρήσεις(measures) που έχουμε στα Fact tables όπως ο χρόνος, ο υπάλληλος, το προϊόν και το κατάστημα.

Η χρήση του Surrogate key για να διασφαλιστεί η μοναδικότητα τον εγγράφων υπάρχει και σε αυτά.

Data Marts

Κάθε ξεχωριστή οντότητα ενός θέματος όπως για παράδειγμα οικονομικά ή πωλήσεις ονομάζεται Data Mart και περιέχει το δικό της Facts Table μαζί με τα Dimension Tables

Star Schema

Σε ένα πολυδιάστατο Data Warehouse η πιο απλή μορφή ενός Data Mart είναι ένα Star Schema. Το κάθε Dimension Table συνδέεται απευθείας με το Fact Table μέσω του Foreign Key.

Snowflake Schema

To Snowflake Schema είναι μια πιο προχωρημένη έκδοση του Star Schema. Η διαφορά του είναι ότι οι Dimension tables κανονικοποιούνται σε μικρότερους υπό-πίνακες. Η χρήση τους συνιστάτε σε περιπτώσεις που η ταχύτητα ανάκτησης δεδομένων είναι πιο σημαντική από την ανάκτηση της αναλυτικής πληροφορίας.

Πλεονεκτήματα χρήσης Data Warehouse:

Συνδυάζει δεδομένα από πολλές διαφορετικές πηγές. Σαν αποτέλεσμα είναι εύκολο να εξάγουμε μετά τα δεδομένα με ένα query.
Δεν δημιουργεί blocks στις παραγωγικές βάσεις OLTP. Καθώς τα δεδομένα έχουν αντιγραφεί στη υποδομή του Data Warehouse.
Παρέχει ιστορικότητα των δεδομένων μέσα στο χρόνο ακόμα και αν έχουν γίνει αλλαγές στη OLTP βάση χάρη στη χρήση του Surrogate key.
Προσφέρει ξεκαθάρισμα στα δεδομένα. Αφαιρώντας όση πληροφορία μπορεί να οδηγήσει σε λάθος συμπεράσματα. Επίσης μπορεί να διορθώσει λάθος πληροφορίες π.χ. τυπογραφικά.
Προσφέρει υψηλή απόδοση ακόμη και σε πολύπλοκα queries ανάλυσης δεδομένων.

Πηγές:

Μοιράσου το

Κουλουράκι	Διάρκεια	Περιγραφή
cookielawinfo-checkbox-advertisement	1 year	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Advertisement".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Κουλουράκι	Διάρκεια	Περιγραφή
__gads	1 year 24 days	This cookie is set by Google and stored under the name dounleclick.com. This cookie is used to track how many times users see a particular advert which helps in measuring the success of the campaign and calculate the revenue generated by the campaign. These cookies can only be read from the domain that it is set on so it will not track any data while browsing through another sites.
_ga	2 years	This cookie is installed by Google Analytics. The cookie is used to calculate visitor, session, campaign data and keep track of site usage for the site's analytics report. The cookies store information anonymously and assign a randomly generated number to identify unique visitors.
_gid	1 day	This cookie is installed by Google Analytics. The cookie is used to store information of how visitors use a website and helps in creating an analytics report of how the website is doing. The data collected including the number visitors, the source where they have come from, and the pages visted in an anonymous form.

Κουλουράκι	Διάρκεια	Περιγραφή
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
test_cookie	15 minutes	This cookie is set by doubleclick.net. The purpose of the cookie is to determine if the user's browser supports cookies.