Κ Α Ι Ν Ο Τ Ο Μ ΙΑ
Ν Ε Ε Σ ΤΕΧΝΟΛΟΓΊΕ Σ
Γλωσσικ ή Τεχνολογία
Πρόγραμμα:
STRIDE/HOLIS T [104]
Διάρκεια:
3 έτη (1992-1994)
Προϋπολογισμός:
1000 KECU
Ανάπτυξ η Συστημάτων:
1994-1996
Οι Ερευνητικές
και Αναπτυξιακές
Δραστηριότητες
και τα Συστήματα που έχουν
αναπτυχθεί στο Εργαστήριο
Τεχνητής Νοημοσύνης του
Οικονομικού Πανεπιστημίου
Αθηνών στον Τομέα
της Επεξεργασίας Λόγου με
βάση το Ερευνητικό
Πρόγραμμα STRIDE/HOLIST
Καθηγητής Ιωάννης Κόντος
ΟικονομικόΠανεπιστήμιοΑθηνών
Τμήμα Πληροφορικής
Πατησίων76,10434Αθήνα
Τηλ:8237361,Fax:8226204
e-mail
Ηπαρακάτω συνοπτική παρουσίαση των Ερευ
νητικών και Αναπτυξιακών Δραστηριοτήτων
στον Τομέα της Επεξεργασίας Λόγου και των
σχετικών Συστημάτων Γλωσσικής Τεχνολογίας
που έχουν αναπτυχθεί στο Εργαστήριο Τεχνη
τής Νοημοσύνης του Πανεπιστημίου αναφέρε
ται σε τμήμα των αποτελεσμάτων του προγράμ
ματος HOLIST/STRIDE και σε προϊόντα που βα
σίστηκαν σε αυτά. Βασικό αποτέλεσμα του προ
γράμματος ήταν η δημιουργία της υποδομής
του Εκπαιδευτικού και Ερευνητικού Εργαστηρί
ου μας που χρησιμοποιήθηκε για την ανάπτυξη
των παρουσιαζόμενων πρωτότυπων συστημά
των από δεκαμελή ομάδα ερευνητών και μετα
πτυχιακών σπουδαστών. Το σύστημα εξαγωγής
γνώσεων από κείμενα στηρίζεται στην πρωτο
ποριακή μέθοδο μας ARISTA που υποστηρίζει
λογικούς συμπερασμούς με φυσική γλώσσα χω
ρίς προηγούμενη μετάφραση σε τυπική γλώσ
σα. Δύο από τα άλλα συστήματα έχουν τη δυνα
τότητα επεξεργασίας συνδυασμού λόγου και ει
κόνας, χρησιμοποιώντας μηχανισμούς δομικής
σύνδεσης που τα κατατάσσουν στα πρωτοπο
ριακά ευφυή συστήματα πολυμέσων.
1. Αυτόματη Εξαγωγή Πληροφορίας και
Γνώσης από Κείμενο
(Information and Knowledge Extraction
from Text)
Στο έργο αυτό αναπτύχθηκαν συστήματα για
την αυτόματη εξαγωγή πληροφορίας και γνώ
σης από κείμενα με κύριες εφαρμογές σε επι
στημονικά και νομικά κείμενα.
1.1Σύστημα Αυτόματης Εξαγωγής Πληροφορίας
και Γνώσης από Επιστημονικά Κείμενα
Ηεξαγωγή πληροφορίας και γνώσης από επι
στημονικά κείμενα αφορά κυρίως αιτιακές σχέ
σεις μεταξύ οντοτήτων και διαδικασιών. Για τον
καθορισμό των απαιτούμενων γλωσσικών και ε-
ξωγλωσσικών γνώσεων χρησιμοποιήθηκε ένα
σύνολο από αιτιακές προτάσεις που επιλέχθη
καν από κατάλληλο ηλεκτρονικό σώμα επιστη
μονικών κειμένων, προερχομένων κυρίως από
την ιατρική.
Έχει υλοποιηθεί ένα σύστημα εξαγωγής πληρο
φορίας και γνώσης με βάση τη νέα μέθοδο μας
που
ονομάζεται
ARISTA
(Automatic
Representation Independent Syllogisti c Text
Analysis ) και που διαφέρει σημαντικά από τις
καθιερωμένες μεθόδους. Ηβασική διαφορά της
μεθόδου ARISTA από τις καθιερωμένες μεθό
δους συνίσταται στο ότι το ίδιο το κείμενο χρη
σιμοποιείται ως βάση γνώσης και συνάγονται
συμπεράσματα απο το μηχανισμό συμπερα
σμού του συστήματος χωρίς προηγούμενη με
τάφραση του κειμένου σε κάποιο φορμαλισμό
παράστασης γνώσης. Ηαπάντηση ερωτήσεων
και η παραγωγή εξηγήσεων των απαντήσεων γί
νεται με απευθείας επεξεργασία των κειμένων
αυτών και χρήση αιτιακού συμπερασμού. Ο αι-
τιακός συμπερασμός με τα επιστημονικά κείμε
να που εκτελείται από το σύστημα που υλοποιή
θηκε βασίζεται στη δημιουργία αλυσίδας αιτια-
κών σχέσεων.
Ηεκφορά αιτιακής γνώσης σε επιστημονικά κεί
μενα στηρίζεται στη δήλωση αιτιακών σχέσεων.
Μια αιτιακή σχέση ορίζεται ως ένα ζεύγος απο
τελούμενο από το "προηγούμενο" (αιτία) και το
"επόμενο" (αποτέλεσμα). Στη φυσική γλώσσα οι
αιτιακές σχέσεις μπορεί να εκφραστούν με μία
ποικιλία γλωσσικών μορφών. Τα προηγούμενα
και τα επόμενα εκφράζονται ως δύο συνδεδεμέ
νες προτάσεις ή φράσεις. Το σύστημα που υλο
ποιήθηκε με τη μέθοδο ARISTA καλύπτει τις ε
ξής γλωσσικές μορφές για την εκφορά της γνώ
σης:
• Προτάσεις ενεργητικής φωνής του τύπου
ΌΦ Ρ ΟΦ".
• Προτάσεις παθητικής φωνής του τύπου "ΟΦ
Ρ από ΟΦ".
Όπου ΟΦ σημαίνει Ονοματική Φράση και Ρ ση
μαίνει Ρήμα. Το σύστημα αναγνωρίζει τους εξής
τύπους ονοματικών φράσεων:
• Ένα όνομα οντότητας.
• Ένα άρθρο ή ποσοδείκτη ακολουθούμενο α
πό όνομα οντότητας.
• Ένα όνομα οντότητας ακολουθούμενο από
μια ΠΦ(Προθετική Φράση).
• Ένα όνομα διαδικασίας ακολουθούμενο από
μια απλή ΠΦ.
• Ένα όνομα διαδικασίας ακολουθούμενο από
μια σύνθετη ΠΦ.
Οι αιτιακές σχέσεις που εκφράζονται από προ
τάσεις του κειμένου αναγνωρίζονται από ένα
κατηγόρημα πέντε ορισμάτων. Τα ορίσματα του
κατηγορήματος αυτού είναι:
• Διαδικασία- αποτέλεσμα που περιέχεται στο
"επόμενο".
• Η οντότητα την οποία αφορά το αποτέλεσμα.
• Η διαδικασία- αιτιατού "προηγούμενου".
• Η οντότητα την οποία αφορά η αιτία.
• Η κατεύθυνση της αιτιακής σχέσης.
Ηαυτόματη αναγνώριση των συστατικών που