M201. Αποθήκες Δεδομένων – Εξόρυξη Πληροφορίας

1. Ταυτότητα Μαθήματος:

Τίτλος Μαθήματος: Αποθήκες Δεδομένων – Εξόρυξη Πληροφορίας

Εξάμηνο διδασκαλίας: 2ο

Ώρες διδασκαλίας: 3

Μονάδες ECTS: 6

2. Μαθησιακοί Στόχοι:

Εξοικείωση με και εξειδίκευση σε νέες τεχνικές και μεθόδους οργάνωσης και επεξεργασίας των δεδομένων για την εξόρυξη χρήσιμης πληροφορίας.

Πιο συγκεκριμένα:

  • Η αποθήκη δεδομένων: μοντέλα, ο σχεδιασμός και η κατασκευή της
  • Οργάνωση των δεδομένων σε πολυδιάστατες δομές και τα επιμέρους στάδια της επιμέρους αναλυτικής σε άμεση επικοινωνία (OLAP)
  • Η διαδικασία της εξόρυξης πληροφορίας από μεγάλους όγκους δεδομένων
  • Τεχνικές και αλγόριθμοι εξόρυξης πληροφορίας (κανόνες συσχέτισης, δέντρα αποφάσεων, παλινδρόμηση, αναζήτηση εγγύτερου και κ-εγγύτερου γείτονα, συσταδοποίηση)
  • Εφαρμογή κριτηρίων για την επιλογή των πλέον κατάλληλων αλγόριθμων σε περιπτώσεις πραγματικών εφαρμογών
  • Υποδειγματική εφαρμογή: προετοιμασία των δεδομένων, εξόρυξη πληροφορίας, ερμηνεία του αποτελέσματος, παραγωγή/διαμόρφωση συστάσεων για τη στρατηγική λήψη αποφάσεων
  • Περιπτώσεις ειδικού τύπου εφαρμογών: χρονοσειρές και ακολουθίες, δεδομένα χρήσης πολυμέσων στο διαδίκτυο, προσωπικοποίηση διεπαφής διαδικτυακού τόπου, εξόρυξη πληροφορίας από το διαδίκτυο

3. Αντικείμενο του μαθήματος:

Τα βασικά των σύγχρονων τεχνολογιών βάσεων δεδομένων οι οποίες βρίσκουν εφαρμογή στα περιβάλλοντα υποστήριξης αποφάσεων

Αποθήκες δεδομένων, συγκεκριμένα: (α) οι διαφορές μεταξύ ενός κλασικού περιβάλλοντος βάσης δεδομένων που διεκπεραιώνει συναλλαγές σε πραγματικό χρόνο (OnLine Transaction Processing, OLTP) από μία αποθήκη δεδομένων, (β) οι αρχιτεκτονικές δομές μιας αποθήκης δεδομένων, (γ) τα επιμέρους στάδια της ροής της επεξεργασίας στην αποθήκη δεδομένων, (δ) η διαχείριση των μεταδεδομένων της αποθήκης δεδομένων, (ε) η έννοια της αγοράς δεδομένων (data mart) και τα της εφαρμογής της στην πράξη, κλπ.

Σχεδιασμός και κατασκευή μίας αποθήκης δεδομένων (σχήματα αστέρα, χιονονιφάδας, αστερισμού)

Οργάνωση των δεδομένων για αναλυτική επεξεργασία

Τα βασικά της αναλυτικής επεξεργασίας με άμεση επικοινωνία (OnLine Analytical Processing, OLAP), σχεδιασμός και υλοποίηση ιεραρχιών εννοιών και πολυδιάστατων κύβων δεδομένων. Η επεξεργασία των τελευταίων με πράξεις τεμαχισμού σε φέτες (slicing), τεμαχισμού σε κύβους (dicing), σύμπτυξης ή συνάθροισης (roll-up, aggregation), ανάπτυξης (drill-down) και περιστροφής (rotation)

Εναλλακτικές επιλογές υλοποίησης συστημάτων OLAP: MOLAP (Multidimensional OLAP) και ROLAP (Relational OLAP)

Η γλώσσα αιτημάτων MDX για τη διαχείριση πολυδιάστατων δομών δεδομένων δεδομένων σε εφαρμογές OLAP

Διαφορά της έννοιας ‘δεδομένα’ από την έννοια ‘πληροφορία’

Διαφορά όσον αφορά στην επεξεργασία δεδομένων με εντολές SQL ή/και επεξεργασία OLAP, από εκείνη της επεξεργασίας τους με αλγόριθμους data mining με στόχο την εξόρυξη πληροφορίας από μεγάλες βάσεις δεδομένων

Το στάδιο της προεπεξεργασίας των δεδομένων στη διαδικασία KDD (Knowledge Discovery from Databases): οι επιμέρους ενέργειες όπου καταναλώνεται σχεδόν το 80% της όλης προσπάθειας στη διαδικασία KDD

Τα επιμέρους του στάδιου της εξόρυξης πληροφορίας: (α) δημιουργία του μοντέλου με τη χρήση δεδομένων εκπαίδευσης, (β) η αξιολόγηση του μοντέλου (δεδομένα ελέγχου, cross-validation, κλπ.), (γ) η επιλογή του πλεον κατάλληλου μοντέλου (με προσδιορισμό των παραμέτρων και της αναπαράστασής του)

Βασικές μέθοδοι εξόρυξης πληροφορίας από βάσεις δεδομένων, όπως τα δέντρα αποφάσεων (decision trees), οι κανόνες συσχέτισης (association rules), η παλινδρόμηση (regression), η αναζήτηση του εγγύτερου γείτονα (nearest neighbour search), οι διάφορες μέθοδοι συσταδοποίησης (π.χ. clustering, hiererchical clustering, partitional clustering)

Κριτήρια επιλογής και αποτελεσματικής εφαρμογής των πλέον κατάλληλων μεθόδων εξόρυξης πληροφορίας τους σε πραγματικά προβλήματα

Ενσωμάτωση μεθόδων εξόρυξης πληροφορίας σε εφαρμογές βάσεων δεδομένων οι οποίες διαμορφώνουν/διατυπώνουν συστάσεις (recommender systems) ώστε να εξυπηρετούν στρατηγικές λήψης αποφάσεων

Ειδικού τύπου εφαρμογές μεθόδων εξόρυξης πληροφορίας σε δεδομένα χρονοσειρών και ακολουθιών, όπως επίσης και σε δεδομένα τα οποία προκύπτουν από τη χρήση πολυμέσων και του χώρου του διαδικτύου

4. Διδακτική Μέθοδος

Διαλέξεις θεωρίας (4 ώρες / εβδομάδα)

Τρείς (3) εργασίες (ατομικές): (α) Data Warehouse & OLAP, (β) Data Mining, (γ) Recommender System

5. Μέθοδος αξιολόγησης φοιτητών

Ο βαθμός επίδοσης στο μάθημα θα υπολογίζεται σύμφωνα με τον ακόλουθο τύπο: (40% μέσος βαθμός επίδοσης στις τρεις εργασίες) + (60% βαθμός επίδοσης στην τελική, γραπτή, εξέταση στο μάθημα)

6. Απαιτήσεις εξοπλισμού – λογισμικού

Εξοικείωση στη χρήση αριθμού συστημάτων λογισμικού OLAP: εμπορικών και ανοικτού/ελεύθερου κώδικα (MS-SQL Server Analysis Services, Mondrian Pentaho, Palo)

εξοικείωση στη χρήση αριθμού συστημάτων λογισμικού data mining (εμπορικών και ανοικτού/ελεύθερου κώδικα), π.χ. WEKA, IBM DB2 DWE Intelligent Miner for Data, MS-SQL Server Analysis Services, κλπ.

Το σύνολο του παραπάνω λογισμικού είναι διαθέσιμο χωρίς κόστος στο τμήμα (ως ελεύθερο λογισμικό ανοικτού κώδικα, ή μέσω της συμμετοχής του τμήματος σε ακαδημαϊκά προγράμματα προώθησης εμπορικού λογισμικού με άδειες για εκπαιδευτική και μόνον χρήση των αντίστοιχων προϊόντων)

Σημαντικό συστατικό του μαθήματος θα αποτελέσει το εκπαιδευτικό περιεχόμενο του εικονικού εργαστηρίου DBTech EXT: Business Intelligence and Knowledge Discovery from Databases (BI & KDD: http://dbtech.uom.gr/course/view.php?id=6)

7. ΠροτεινόμενηΒιβλιογραφία

  • Berry M.J.A., Linoff G., Data Mining Techniques: For Marketing, Sales, and Customer Support, Wiley, 1997: Chapters 7 and 10
  • Connolly T.M., Begg C.E., Database Systems: A Practical Approach to Design, Implementation and Management, Addison Wesley, 2009: Chapters 32-35
  • Dunham M.H., Data Mining: Εισαγωγικά και Προηγµένα Θέµατα Εξόρυξης Γνώσης από Δεδοµένα, Εκδόσεις Νέων Τεχνολογιών, Αθήνα 2004
  • Elmasri R., Navathe S.B., Θεµελιώδεις Αρχές Συστηµάτων Βάσεων Δεδοµένων, τόµοι Α! και Β!, 5η έκδοση (αναθεωρηµένη), Εκδόσεις Δίαυλος, Αθήνα 2007
  • Hand D.J., Mannila H., Smyth P., Principles of Data Mining, MIT Press, 2000
  • Hair J.F., Black B., Babin B., Anderson R.E., Tatham R.L., Multivariate Data Analysis, Prentice Hall, 2005
  • IBM Easy Mining: Administration and Programming Guide, IBM Publication Number SH12-6837-01
  • IBM DB2 Data Warehouse Edition, Using the Intelligent Miner Visualizers, Version 9.1, IBM Publication Number SH12-6840-00
  • IBM Data Management Software RedBook, Enhance Your Business Appplications: Simple Integration of Advanced Data Mining Functions, IBM Publication Number SG24-6879-00
  • Kimball R., Ross M., The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling, 2nd Ed., Wiley, 2002
  • Ramakrishnan R., Gehrke J., Συστήµατα Διαχείρισης Βάσεων Δεδοµένων, τόµοι Α! και Β!, Εκδόσεις Τζιόλα, Θεσσαλονίκη 2002
  • Roiger R.J., Geatz M.W., Εξόρυξη Πληροφορίας: Ένας Εισαγωγικός Οδηγός µε Παραδείγµατα, Εκδόσεις ‘Κλειδάριθµος’, Αθήνα 2008
  • Witten I.H., Frank E., Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann 2005