Corpus Προφορικού Λόγου

Το Corpus Προφορικού Λόγου του Ινστιτούτου Νεοελληνικών Σπουδών (Ιδρύματος Μ. Τριανταφυλλίδη) εμπίπτει στο ερευνητικό πρόγραμμα Γλωσσική Διεπίδραση και Ανάλυση Συνομιλίας του Ινστιτούτου με επιστημονικά υπεύθυνη την καθηγήτρια Θ.-Σ. Παυλίδου. Αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, κυρίως από τη σκοπιά της Ανάλυσης Συνομιλίας, γεγονός από το οποίο απορρέουν και τα ιδιαίτερα χαρακτηριστικά του. Μέρος όμως του Corpus μπορεί να χρησιμοποιηθεί online και για ποσοτική ανάλυση.

Χαρακτηριστικά του Corpus Προφορικού Λόγου

Η αναγκαιότητα ύπαρξης ενός corpus προφορικού λόγου για την ελληνική γλώσσα προκύπτει καταρχήν από τη σημασία που αποδίδει η σύγχρονη γλωσσολογία στον προφορικό λόγο γενικά έναντι του γραπτού. Με βάση όμως και τα πορίσματα της κοινωνιογλωσσολογίας, η μελέτη του προφορικού λόγου οφείλει να στηρίζεται σε γλωσσικό υλικό που προέρχεται από φυσικές περιστάσεις επικοινωνίας, τέτοιες δηλαδή που επιτρέπουν την αυθόρμητη και αβίαστη παραγωγή του. Κατά συνέπεια, η δημιουργία ενός corpus προφορικού λόγου θέτει στις/στους ερευνήτριες/τές μια σειρά από προκλήσεις (από τη διασφάλιση της φυσικότητας του υλικού, την υπέρβαση δηλαδή του λεγόμενου 'παράδοξου του παρατηρητή', έως τη συγκατάθεση των συμμετεχόντων ατόμων για μαγνητοφώνηση, βιντεοσκόπηση κτλ.), οι οποίες δεν υφίστανται όταν πρόκειται για corpora γραπτού λόγου αποτελούμενα από γραπτά και δημοσιευμένα κείμενα.

Το Corpus Προφορικού Λόγου του Ινστιτούτου αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, κυρίως από τη σκοπιά της Ανάλυσης Συνομιλίας. Ως εκ τούτου, αποδίδεται ιδιαίτερη βαρύτητα στην απομαγνητοφώνηση του ηχογραφημένου ή βιντεοσκοπημένου υλικού ως πιστή απεικόνιση της ηχητικής πραγματικότητας.

Για την Ανάλυση Συνομιλίας η απομαγνητοφώνηση δεν αποτελεί μια μηχανιστική διαδικασία (πρβ. π.χ. σχετικά λογισμικά που κυκλοφορούν στο εμπόριο), αλλά ούτε περιορίζεται στην απόδοση του περιεχομένου (πρβ. π.χ. έντυπες δημοσιογραφικές συνεντεύξεις). Αντίθετα, η 'μετάφραση' του ήχου σε γραφή απαιτεί θεωρητική επεξεργασία και ανάλυση, προϋποθέτει ανάλογη κατάρτιση, και χρήζει πολλαπλών 'διορθώσεων' από διαφορετικά άτομα.

Κατά συνέπεια, τα απομαγνητοφωνημένα κείμενα του Corpus Προφορικού Λόγου του Ινστιτούτου διαφοροποιούνται από τη συνήθη ορθογραφική αναπαράσταση του προφορικού λόγου ως προς τη χρήση πρόσθετων συμβόλων που αποδίδουν επικαλύψεις, παύσεις, προσωδιακά κ.ά. χαρακτηριστικά του λόγου (βλ. Πίνακα συμβόλων απομαγνητοφώνησης). Διαφοροποιούνται επίσης μεταξύ τους ως προς τον βαθμό επεξεργασίας και την ποιότητα της απομαγνητοφώνησης.

Μέγεθος και είδη λόγου του Corpus Προφορικού Λόγου

Tο Corpus Προφορικού Λόγου αποτελεί ένα σύνολο ψηφιακών αρχείων, το οποίο ενημερώνεται και εμπλουτίζεται ανάλογα με τις δυνατότητες και τις ανάγκες του ερευνητικού προγράμματος. Το Corpus περιλαμβάνει τρεις συνιστώσες (βλ. Παυλίδου 2016: 41-68):

1. Οπτικοακουστικό υλικό: Πρόκειται για ηχογραφήσεις ή βιντεοσκοπήσεις γλωσσικής επικοινωνίας κάτω από φυσικές περιστάσεις.

2. Απομαγνητοφωνημένο υλικό: Μέρος του οπτικοακουστικού υλικού (βλ. 1.) έχει απομαγνητοφωνηθεί σύμφωνα με τις συμβάσεις της Ανάλυσης Συνομιλίας (βλ. Σύμβολα απομαγνητοφώνησης). Περιλαμβάνει ποικίλα είδη λόγου με διαφορετικό βαθμό θεσμικότητας:

καθημερινές συνομιλίες μεταξύ φίλων και συγγενών (δείγμα)
τηλεφωνικές συνδιαλέξεις (δείγμα)
γλωσσική διεπίδραση στη σχολική τάξη (διδακτικές ώρες) (δείγμα)
τηλεοπτικά δελτία ειδήσεων (δείγμα)
τηλεοπτικές συνεντεύξεις με πολιτικά πρόσωπα (δείγμα)
συνεντεύξεις/συζητήσεις με Ελληνίδες και Έλληνες της διασποράς (δείγμα)
άλλα

Το απομαγνητοφωνημένο υλικό υπερβαίνει τα 2,0 εκατομμύρια λέξεις. Επισημαίνεται ότι τα απομαγνητοφωνημένα κείμενα διαφοροποιούνται μεταξύ τους ως προς τον βαθμό επεξεργασίας και την ποιότητα της απομαγνητοφώνησης.

3. Αναρτημένο υλικό: Μέρος του απομαγνητοφωνημένου υλικού είναι αναρτημένο διαδικτυακά (corpus-ins.lit.auth.gr/corpus/index.html) και μπορεί να χρησιμοποιηθεί με απλή εγγραφή. Αυτή τη στιγμή περιλαμβάνει:

40 καθημερινές συνομιλίες μεταξύ φίλων και συγγενών
145 τηλεφωνικές συνδιαλέξεις
17 τηλεοπτικές συνεντεύξεις με πολιτικά πρόσωπα

Παραχώρηση και όροι χρήσης του Corpus Προφορικού Λόγου

Το Corpus Προφορικού Λόγου του Ινστιτούτου αναπτύχθηκε πρωταρχικά με στόχο την ποιοτική ανάλυση της γλώσσας και της γλωσσικής επικοινωνίας, κυρίως από τη σκοπιά της Ανάλυσης Συνομιλίας. Μέρος όμως του Corpus μπορεί να αξιοποιηθεί και για ποσοτική ανάλυση και είναι αναρτημένο στο διαδίκτυο (corpus-ins.lit.auth.gr/corpus/index.html). Η πρόσβαση στο τμήμα αυτό του Corpus είναι ελεύθερη και γίνεται με απλή εγγραφή από τον σχετικό ιστότοπο.

Σε περίπτωση που για μια συγκεκριμένη έρευνα είναι απαραίτητη η πρόσβαση σε πρόσθετο υλικό (πέρα από το αναρτημένο), το ΙΝΣ μπορεί να διαθέσει σε ενδιαφερόμενες/ους ερευνήτριες/τές περαιτέρω αρχεία από το Corpus στο πλαίσιο των δυνατοτήτων του.

Η παραχώρηση του υλικού

α) προϋποθέτει εμπεριστατωμένη αιτιολόγηση του αιτήματος για συγκεκριμένο είδος/ποσότητα/μορφή του υλικού με βάση τον στόχο της έρευνας,

β) είναι στη διακριτική ευχέρεια του ΙΝΣ.

Για την παραχώρηση πρόσθετου υλικού θα πρέπει να συμπληρωθεί η σχετική φόρμα (πατήστε εδώ ) και να αποσταλεί είτε με συμβατικό ταχυδρομείο στη διεύθυνση:

     Καθηγήτρια Θ.-Σ. Παυλίδου
     Corpus Προφορικού Λόγου
     Ινστιτούτο Νεοελληνικών Σπουδών [Ίδρυμα Μ. Τριανταφυλλίδη]
     Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
     54124 Θεσσαλονίκη

είτε ηλεκτρονικά στη διεύθυνση <Αυτή η διεύθυνση ηλεκτρονικού ταχυδρομείου προστατεύεται από τους αυτοματισμούς αποστολέων ανεπιθύμητων μηνυμάτων. Χρειάζεται να ενεργοποιήσετε τη JavaScript για να μπορέσετε να τη δείτε.>.

Με την παραλαβή του υπογεγραμμένου εντύπου, σας αποστέλλεται ένα CD με το υλικό, το οποίο θα πρέπει να επιστραφεί στο ΙΝΣ μόλις ολοκληρωθεί η έρευνά σας.

Σχετική βιβλιογραφία

Παυλίδου, Θ.-Σ. (επιμ.). 2016. Καταγράφοντας την Ελληνική Γλώσσα. Θεσσαλονίκη: Ινστιτούτο Νεοελληνικών Σπουδών.

Pavlidou, Th.-S. 2012. The Corpus of Spoken Greek: Goals, challenges, perspectives. LREC Proceedings, Workshop 18 (Best Practices for Speech Corpora in Linguistic Research), 23-28.

Pavlidou, Th.-S., Ch. Kapellidi & E. Karafoti. 2014. The Corpus of Spoken Greek (CSG). Στο Best Practices for Spoken Corpora in Linguistic Research, Ş. Ruhi, M. Haugh, T. Schmidt & K. Wörner (eds), 56-74. Newcastle upon Tyne: Cambridge Scholars Publishing.