Η βασική καινοτομία της παρούσας πρότασης είναι η αυτοματοποίηση της διαδικασίας αντιστοίχισης σήματος ομιλίας σε υπότιτλους, οι οποίοι θα στέλνονται σε μια διεπαφή υλοποιημένη σε smart glasses. Για την υλοποίηση του έργου θα γίνει χρήση των βασικών μεθοδολογιών Δομημένης Σχεδίασης (Structured Design Methodology). Το μοντέλο που θα ακολουθηθεί είναι συνδυασμός της διαδικασίας «Παράλληλης Ανάπτυξης» και του μοντέλου της «Προτυποποίησης», με στόχο τη συμπίεση του χρόνου έρευνας και ανάπτυξης.
Η υλοποίηση θα ολοκληρωθεί σε 5 βασικές φάσεις που αναπτύσσονται, όπου αυτό είναι θεμιτό, παράλληλα έτσι ώστε καθεμία να αποτελεί μία εργασιακή ενότητα που θα ολοκληρώνεται με την ολοκλήρωση των παραδοτέων της:
1. Αρχιτεκτονική συστήματος, απαιτήσεις χρηστών και σενάρια χρήσης
2. Συλλογή και διαχείριση δεδομένων
3. Μέθοδοι αντιστοίχισης ηχητικού σήματος σε πολυγλωσσικό σενάριο
4. Προγραμματισμός και ανάπτυξη συστήματος
5. Ανάπτυξη/ υλοποίηση πιλότου & αξιολόγηση, αξιοποίηση
Πιο συγκεκριμένα, τεχνικά θα χρησιμοποιηθούν “hand-crafted” ηχητικά χαρακτηριστικά τόσο από το πεδίο του χρόνου όσο και από το πεδίο των συχνοτήτων, καθώς και ηχητικά χαρακτηριστικά, τα οποία θα εξάγονται με επιβλεπόμενο τρόπο, μέσω εκπαιδευμένων Deep Convolutional Neural Networks, για των οποίων την εκπαίδευση έχουν χρησιμοποιηθεί μεταδεδομένα προσωδιακών χαρακτηριστικών και συναισθημάτων.
Η συγκεκριμένη προσέγγιση θα οδηγήσει σε μία αναπαράσταση του ηχητικού σήματος η οποία, όχι μόνο θα χρησιμοποιηθεί για την ευκολότερη αντιστοίχιση στο σενάριο, αλλά και στην εξαγωγή σημασιολογικά πλούσιων χαρακτηριστικών (π.χ. τόνος και ταχύτητα ομιλίας/συναισθηματικό περιεχόμενο). Επιπλέον, η αντιστοίχιση σε επισημειωμένο κείμενο θα γίνεται χρησιμοποιώντας δύο τύπους πληροφορίας: (α) ηχητικά χαρακτηριστικά χαμηλού επιπέδου (ως χρονοσειρές) και (β) keywords που θα έχουν εξαχθεί από ένα σύστημα αυτόματης αναγνώρισης ομιλίας. Η εκτιμώμενη αντιστοίχιση ηχητικού σήματος σε κείμενο θα χρησιμοποιείται για την παραγωγή real-time υποτίτλων, οι οποίοι (αφού πρώτα γίνει επιλογή της γλώσσας) θα μεταδίδονται στην εφαρμογή των smart glasses. Επιπλέον, η εφαρμογή θα αναλαμβάνει να δείξει στον χρήστη των smart glasses τους αυτοματοποιημένους υπότιτλους εμπλουτισμένους με στοιχεία οπτικοποίησης βασισμένα στα εξαγώμενα συναισθήματα και προσωδιακά χαρακτηριστικά. Αυτό θα επιτευχθεί με αυτόματο τρόπο βάσει της ανάλυσης ηχητικού σήματος που περιγράφηκε παραπάνω. Θα λαμβάνονται υπ’ όψιν οι περιορισμοί και οι προκλήσεις που υπάρχουν στα πλαίσια της επικοινωνίας ανθρώπου/μηχανής για τις συγκεκριμένες συσκευές.
Η υλοποίηση του αλγοριθμικού πυρήνα της μεθόδου αυτής θα πρέπει να έχει ολοκληρωθεί πριν από την έναρξη της ολοκλήρωσης του τελικού συστήματος, το οποίο θα περιέχει και τη διεπαφή. Το λογισμικό ανάλυσης ηχητικού περιεχομένου θα είναι υπεύθυνο για την αντιστοίχιση του ηχητικού σήματος ομιλίας στο προσημειωμένο κείμενο, και τελικά για την εξαγωγή του τρέχοντος υπότιτλου, ο οποίος θα μεταδίδεται στις επιμέρους συσκευές. Η εφαρμογή αντιστοίχισης ηχητικού σήματος σε υπότιτλους θα σχεδιαστεί ούτως ώστε να μπορεί να χρησιμοποιηθεί με τον ίδιο τρόπο και τις ίδιες τεχνικές απαιτήσεις σε κάθε πιθανό χώρο με ζωντανή παράσταση και θα δοκιμαστεί σε τρία διαφορετικά θεατρικά περιβάλλοντα (dome theatre, εσωτερικός θεατρικός χώρος, εξωτερικός θεατρικός χώρος).
Ως προς τις απαιτήσεις σε υλικό, το προς υλοποίηση λογισμικό θα μπορεί να λειτουργήσει σε έναν απλό server o οποίος θα είναι υπεύθυνος για τη συλλογή ηχητικών σημάτων (από ένα μικρό πλήθος απλών ασύρματων μικροφώνων), καθώς και την εκτέλεση των αλγορίθμων ανάλυσης ηχητικού σήματος και αντιστοίχισης σε υπότιτλους.
Καθ’ όλη τη διάρκεια του έργου θα υπάρχει συνεννόηση και συντονισμός όλων των φορέων, ακολουθώντας την οργανωτική δομή του έργου, μέσω της Επιτροπής Διαχείρισης. Η υλοποίηση της πλατφόρμας θα διεξαχθεί κυρίως από τον Δημόκριτο που θα χρησιμοποιήσει την υπάρχουσα τεχνογνωσία προσαρμόζοντάς την στις ανάγκες και τις προδιαγραφές των πολιτιστικών οργανισμών, ενώ η υλοποίηση της διεπαφής από την Hypertech.
Υπεύθυνος φορέας για τις ενότητες 1 και 5 θα είναι το ΙΜΕ. Για τις ενότητες 2 και 3 ο ΕΚΕΦΕ «Δ» ενώ για την εργασία 4 η Hypertech. Η αξιολόγηση, επίσης, θα γίνει με την εποπτεία του Συντονιστή ΙΜΕ, του εξειδικευμένου στον χώρο και τις ειδικές ανάγκες της ομάδας στόχου υπεργολάβου του και τη συμμετοχή ειδικών τεχνικών από τους άλλους εταίρους. Ο υπεργολάβος του ΙΜΕ είναι το Κέντρο Επικοινωνίας και Τεχνολογίας (Κ.Ε.Τ.) οι δραστηριότητες του οποίου περιγράφονται στην ενότητα 1.θ. (κατηγορία εγγράφου 5), ο οποίος θα παρέχει τους χρήστες της ομάδας στόχου που θα συμμετάσχουν στις πιλοτικές δοκιμές και θα συνεισφέρει με την τεχνογνωσία του στην αξιολόγηση των πιλοτικών δοκιμών.
|