Corpus Προφορικού Λόγου

Το Corpus Προφορικού Λόγου του Ινστιτούτου Νεοελληνικών Σπουδών (Ιδρύματος Μ. Τριανταφυλλίδη) εμπίπτει στο ερευνητικό πρόγραμμα "Γλωσσική Διεπίδραση και Ανάλυση Συνομιλίας" του Ινστιτούτου με επιστημονικά υπεύθυνη την καθηγήτρια Θ.-Σ. Παυλίδου. Αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, ειδικότερα από τη σκοπιά της Ανάλυσης Συνομιλίας, γεγονός από το οποίο απορρέουν και τα ιδιαίτερα χαρακτηριστικά του. Μέρος όμως του Corpus μπορεί να χρησιμοποιηθεί on line και για ποσοτική ανάλυση.

Χαρακτηριστικά του Corpus Προφορικού Λόγου του Ινστιτούτου
Η αναγκαιότητα ύπαρξης ενός corpus προφορικού λόγου για την ελληνική γλώσσα προκύπτει καταρχήν από τη σημασία που αποδίδει η σύγχρονη γλωσσολογία στον προφορικό λόγο γενικά έναντι του γραπτού. Με βάση όμως και τα πορίσματα της κοινωνιογλωσσολογίας, η μελέτη του προφορικού λόγου οφείλει να στηρίζεται σε γλωσσικό υλικό που προέρχεται από φυσικές περιστάσεις επικοινωνίας, τέτοιες δηλαδή που επιτρέπουν την αυθόρμητη και αβίαστη παραγωγή του. Κατά συνέπεια, η δημιουργία ενός corpus προφορικού λόγου θέτει στις/στους ερευνήτριες/τές μια σειρά από προκλήσεις (από τη διασφάλιση της φυσικότητας του υλικού, την υπέρβαση δηλαδή του λεγόμενου 'παράδοξου του παρατηρητή', έως τη συγκατάθεση των συμμετεχόντων ατόμων για μαγνητοφώνηση, βιντεοσκόπηση κτλ.), οι οποίες δεν υφίστανται όταν πρόκειται για corpora γραπτού λόγου αποτελούμενα από γραπτά και δημοσιευμένα κείμενα.

Το Corpus Προφορικού Λόγου του Ινστιτούτου αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, ειδικότερα από τη σκοπιά της Ανάλυσης Συνομιλίας. Ως εκ τούτου, αποδίδεται ιδιαίτερη βαρύτητα στην απομαγνητοφώνηση του ηχογραφημένου ή βιντεοσκοπημένου υλικού ως πιστή απεικόνιση της ηχητικής πραγματικότητας.

Για την Ανάλυση Συνομιλίας η απομαγνητοφώνηση δεν αποτελεί μια μηχανιστική διαδικασία (πρβ. π.χ. σχετικά λογισμικά που κυκλοφορούν στο εμπόριο), αλλά ούτε περιορίζεται στην απόδοση του περιεχομένου (πρβ. π.χ. έντυπες δημοσιογραφικές συνεντεύξεις). Αντίθετα, η 'μετάφραση' του ήχου σε γραφή απαιτεί θεωρητική επεξεργασία και ανάλυση, προϋποθέτει ανάλογη κατάρτιση, και χρήζει πολλαπλών 'διορθώσεων' από διαφορετικά άτομα.

Κατά συνέπεια, τα απομαγνητοφωνημένα κείμενα του Corpus Προφορικού Λόγου του Ινστιτούτου διαφοροποιούνται από τη συνήθη ορθογραφική αναπαράσταση του προφορικού λόγου ως προς τη χρήση πρόσθετων συμβόλων που αποδίδουν επικαλύψεις, παύσεις, προσωδιακά κ.ά. χαρακτηριστικά του λόγου (βλ. Πίνακα Συμβόλων Απομαγνητοφώνησης). Διαφοροποιούνται επίσης μεταξύ τους ως προς τον βαθμό επεξεργασίας της απομαγνητοφώνησής τους.

Μέγεθος και Είδη Λόγου του Corpus Προφορικού Λόγου του Ινστιτούτου
Tο ψηφιοποιημένο τμήμα του Corpus (ηχογραφημένο / βιντεοσκοπημένο) ανέρχεται σε περίπου 190.000 MB, ενώ το απομαγνητοφωνημένο προσεγγίζει το 1,8 εκατομμύριο λέξεις. Το υλικό έχει αντληθεί από φυσικές περιστάσεις επικοινωνίας με διαφορετικό βαθμό θεσμικότητας και περιλαμβάνει ποικίλα είδη λόγου:

  • καθημερινές συνομιλίες μεταξύ φίλων και συγγενών (δείγμα)
  • τηλεφωνικές συνδιαλέξεις (δείγμα)
  • γλωσσική διεπίδραση στη σχολική τάξη  (δείγμα)
  • τηλεοπτικά δελτία ειδήσεων (δείγμα)
  • άλλες τηλεοπτικές εκπομπές (δείγμα)

Στο Corpus Προφορικού Λόγου του Ινστιτούτου έχει ενσωματωθεί και το προγενέστερο αρχείο προφορικού λόγου GR-SPEECH (πρβ. Θ. Παυλίδου στο Μελέτες για την Ελληνική Γλώσσα 22: 124-134).

Παραχώρηση και όροι χρήσης του Corpus Προφορικού Λόγου
Το Corpus Προφορικού Λόγου του Ινστιτούτου αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, ειδικότερα από τη σκοπιά της Ανάλυσης Συνομιλίας. Μέρος όμως του Corpus μπορεί να αξιοποιηθεί και για ποσοτική ανάλυση και είναι αναρτημένο στο διαδίκτυο (corpus-ins.lit.auth.gr/corpus/index.html). Η πρόσβαση στο τμήμα αυτό του Corpus είναι ελεύθερη και γίνεται με απλή εγγραφή από τη σχετική ιστοσελίδα.

Επιπλέον, το ΙΝΣ - στα πλαίσια των δυνατοτήτων του - διαθέτει υλικό από το Corpus Προφορικού Λόγου σε ενδιαφερόμενους/ες συναδέλφους, εφόσον αυτό είναι απαραίτητο για τους ερευνητικούς τους στόχους. Για την παραχώρηση και τους όρους χρήσης μπορείτε να στείλετε ηλεκτρονικά μήνυμα στη διεύθυνση <Αυτή η διεύθυνση ηλεκτρονικού ταχυδρομείου προστατεύεται από τους αυτοματισμούς αποστολέων ανεπιθύμητων μηνυμάτων. Χρειάζεται να ενεργοποιήσετε τη JavaScript για να μπορέσετε να τη δείτε.>.

Βλ. επίσης:

Pavlidou, Th.-S. 2012. The Corpus of Spoken Greek: goals, challenges, perspectives. LREC Proceedings, Workshop 18 (Best Practices for Speech Corpora in Linguistic Research), 23-28.

Pavlidou, Th.-S., Kapellidi, Ch. & Karafoti, E. 2014. The Corpus of Spoken Greek (CSG), στο Best Practices for Spoken Corpora in Linguistic Research, Ş. Ruhi, M. Haugh, T. Schmidt & K. Wörner (eds), 56-74. Newcastle upon Tyne: Cambridge Scholars Publishing.

Παυλίδου, Θ.-Σ. (επιμ.). 2016. Καταγράφοντας την Ελληνική Γλώσσα. Θεσσαλονίκη: Ινστιτούτο Νεοελληνικών Σπουδών.

 

Διδακτορικές διατριβές που εκπονήθηκαν στο πλαίσιο του προγράμματος
«Γλωσσική Διεπίδραση και Ανάλυση Συνομιλίας»
(επόπτρια: Θ.-Σ. Παυλίδου)

Καπελλίδη, X. 2011. Υποκειμενικότητα και Αυτο-παρουσίαση στη Συνομιλιακή Διεπίδραση. Αδημοσίευτη Διδακτορική Διατριβή, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης.

Αλβανούδη, Α. 2013. Η Κοινωνική και Γνωσιακή Διάσταση του Γραμματικού Γένους. Αδημοσίευτη Διδακτορική Διατριβή, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης.

Καραφώτη, Ε. 2014. Ευγένεια, Αγένεια και το Πρόσωπο του Ομιλούντος Ατόμου. Αδημοσίευτη Διδακτορική Διατριβή, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης.