Corpus Προφορικού Λόγου του ΙΝΣ
Το Corpus Προφορικού Λόγου του Ινστιτούτου Νεοελληνικών Σπουδών (Ιδρύματος Μ. Τριανταφυλλίδη) εμπίπτει στο ερευνητικό πρόγραμμα Γλωσσική Διεπίδραση και Ανάλυση Συνομιλίας του ΙΝΣ με επιστημονική υπεύθυνη την καθηγήτρια Θ.-Σ. Παυλίδου (http://ins.web.auth.gr/ylikoelectr/Corpus.html). Αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, ειδικότερα από τη σκοπιά της Ανάλυσης Συνομιλίας, γεγονός από το οποίο απορρέουν και τα ιδιαίτερα χαρακτηριστικά του. Μέρος όμως του Corpus μπορεί να χρησιμοποιηθεί και για ποσοτικές αναλύσεις. (βλ. αναζήτηση λέξεων).
Χαρακτηριστικά του Corpus Προφορικού Λόγου του ΙΝΣ
Η αναγκαιότητα ύπαρξης ενός corpus προφορικού λόγου για την ελληνική γλώσσα προκύπτει καταρχήν από τη σημασία που αποδίδει η σύγχρονη γλωσσολογία στον προφορικό λόγο γενικά έναντι του γραπτού. Με βάση όμως και τα πορίσματα της κοινωνιογλωσσολογίας, η μελέτη του προφορικού λόγου οφείλει να στηρίζεται σε γλωσσικό υλικό που προέρχεται από φυσικές περιστάσεις επικοινωνίας, τέτοιες δηλαδή που επιτρέπουν την αυθόρμητη και αβίαστη παραγωγή του. Κατά συνέπεια, η δημιουργία ενός corpus προφορικού λόγου θέτει στις/στους ερευνήτριες/τές μια σειρά από προκλήσεις (από τη διασφάλιση της φυσικότητας του υλικού, την υπέρβαση δηλαδή του λεγόμενου ‘παράδοξου του παρατηρητή’, έως τη συγκατάθεση των συμμετεχόντων ατόμων για μαγνητοφώνηση, βιντεοσκόπηση κτλ.), οι οποίες δεν υφίστανται όταν πρόκειται για corpora γραπτού λόγου αποτελούμενα από γραπτά και δημοσιευμένα κείμενα.
Το Corpus Προφορικού Λόγου του ΙΝΣ αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, ειδικότερα από τη σκοπιά της Ανάλυσης Συνομιλίας. Ως εκ τούτου, αποδίδεται ιδιαίτερη βαρύτητα στην απομαγνητοφώνηση του ηχογραφημένου ή βιντεοσκοπημένου υλικού ως πιστή απεικόνιση της ηχητικής πραγματικότητας.
Για την Ανάλυση Συνομιλίας η απομαγνητοφώνηση δεν αποτελεί μια μηχανιστική διαδικασία (πρβ. π.χ. σχετικά λογισμικά που κυκλοφορούν στο εμπόριο), αλλά ούτε περιορίζεται στην απόδοση του περιεχομένου (πρβ. π.χ. έντυπες δημοσιογραφικές συνεντεύξεις). Αντίθετα, η ‘μετάφραση’ του ήχου σε γραφή απαιτεί θεωρητική επεξεργασία και ανάλυση, προυποθέτει ανάλογη κατάρτιση, και χρήζει πολλαπλών ‘διορθώσεων’ από διαφορετικά άτομα.
Κατά συνέπεια, τα απομαγνητοφωνημένα κείμενα του Corpus Προφορικού Λόγου του ΙΝΣ διαφοροποιούνται από τη συνήθη ορθογραφική αναπαράσταση του προφορικού λόγου ως προς τη χρήση πρόσθετων συμβόλων που αποδίδουν επικαλύψεις, παύσεις, προσωδιακά κ.ά. χαρακτηριστικά του λόγου (βλ. Πίνακα Συμβόλων Απομαγνητοφώνησης). Διαφοροποιούνται επίσης μεταξύ τους ως προς τον βαθμό επεξεργασίας της απομαγνητοφώνησής τους.
Μέγεθος και Είδη Λόγου του Corpus Προφορικού Λόγου του ΙΝΣ
Tο ψηφιοποιημένο τμήμα του Corpus (ηχογραφημένο/βιντεοσκοπημένο) ανέρχεται στα 83.000 MB, ενώ το απομαγνητοφωνημένο ξεπερνά το 1,5 εκατομμύριο λέξεις.
Το υλικό έχει αντληθεί από φυσικές περιστάσεις επικοινωνίας με διαφορετικό βαθμό θεσμικότητας και περιλαμβάνει ποικίλα είδη λόγου:
- καθημερινές συνομιλίες μεταξύ φίλων και συγγενών
- τηλεφωνικές συνδιαλέξεις
- γλωσσική διεπίδραση στη σχολική τάξη
- τηλεοπτικά δελτία ειδήσεων
- τηλεοπτικές συζητήσεις
Στο Corpus Προφορικού Λόγου του ΙΝΣ έχει ενσωματωθεί και το προγενέστερο αρχείο προφορικού λόγου GR-SPEECH (πρβ. Θ. Παυλίδου στις Μελέτες για την Ελληνική Γλώσσα, 22 (2002): 124-134).
Χρήση του Corpus για ποιοτική ανάλυση
Για τους όρους διάθεσης και χρήσης του Corpus Προφορικού Λόγου του ΙΝΣ μπορείτε να επικοινωνήσετε με την υπεύθυνη Θ.-Σ. Παυλίδου: pavlidou@lit.auth.gr
Αναζήτηση λέξεων
Το Corpus Προφορικού Λόγου του ΙΝΣ αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, ειδικότερα από τη σκοπιά της Ανάλυσης Συνομιλίας. Μέρος όμως του Corpus μπορεί να αξιοποιηθεί και σε ποσοτικές αναλύσεις.
Μέγεθος Προσπελάσιμου Υλικού και Είδη Λόγου
Υπό κατασκευή
Διευκρινίσεις για την αναζήτηση
- Η αναζήτηση για μια λέξη, π.χ. θέα, θα δώσει αυτόματα και όλες τις λέξεις που αρχίζουν με την ακολουθία θ-ε-α, π.χ. θέατρα, θεατράκι (ο αριθμός δίπλα σε κάθε λέξη δίνει τη συχνότητα εμφάνισής της στο corpus).
- Χρησιμοποιώντας τον αστερίσκο (*), π.χ. *θέα* ή *θέα, εμφανίζονται πλην της λέξης θέα και όλες οι λέξεις που περιέχουν την ακολουθία θ-ε-α (π.χ. αξιοθέατα) ή λήγουν σε αυτή (π.χ. άθεα).
- Η παρουσία ή απουσία τόνου δεν παίζει ρόλο. Για παράδειγμα, η εξεύρεση της λέξης θέα επιτυγχάνεται και με την άτονη θεα. Αντίστροφα, το αποτέλεσμα της αναζήτησης της λέξης ποτέ θα περιλάβει και τη λέξη πότε.
- Για κάθε λέξη που υπάρχει στο corpus εμφανίζεται ένας τουλάχιστον συμφραστικός πίνακας.
- Κάθε συμφραστικός πίνακας δίνει τρεις αράδες απομαγνητοφωνημένου κειμένου (η μεσαία αράδα περιέχει τη λέξη που αναζητήσαμε), οι οποίες μπορεί να προέρχονται από εκφωνήματα διαφορετικών ατόμων (συμβολίζονται με εικονίδια διαφορετικού χρώματος πριν από κάθε αράδα εφόσον πρόκειται για διαφορετικά άτομα).
- Ο αριθμός της συνομιλίας στην πάνω αριστερή γωνία του συμφραστικού πίνακα είναι ενεργός σύνδεσμος, ο οποίος εμφανίζει μεγαλύτερο κομμάτι του κειμένου.
- Τέλος, η αναζήτηση μπορεί να γίνει και για ζεύγη λέξεων, π.χ. σιγά σιγά, την έδωσα, το παιδί.
Στατιστικά
Υπό κατασκευή