Percorso: "Rappresentazione e analisi del testo e dei documenti" UNITA' 9 - Database online lessicali e semantici 1. WordNet WordNet è un database semantico-lessicale per la lingua inglese, elaborato dal linguista George Armitage Miller presso l'Università di Princeton, che si propone di organizzare, definire e descrivere i concetti espressi dai vocaboli. [Wikipedia] WordNet è disponibile gratuitamente online. In WordNet il lessico è organizzato in "synset"; questa è la contrazione di "synonym set", ossia gruppo di sinonimi. I synset hanno una connotazione semantica. Termini sinonimi appartenenti alla stessa categoria lessicale (nome, verbo, ecc.), sono raccolti in un synset che corrisponde approssimativamente ad un concetto; invece, le diverse accezioni di un termine avente più sensi figurano in diversi synset. I termini possono consistere in singole parole o in sequenze (come "lavoro di gruppo"). I diversi sensi di un termine sono numerati per distinguerli. I concetti associati ai diversi synset sono ulteriormente definiti reciprocamente collegando i synset stessi, a due a due, mediante relazioni analoghe a quelle che collegano i termini di un thesaurus o i concetti di un'ontologia. Nel caso dei nomi, i principali tipi di relazione orientate sono: iponimo e il suo contrario, iperonimo, secondo la dimensione di specializzazione e generalizzazione (ipo = sotto, iper = sopra); meronimo e olonimo, secondo la dimensione di scomposizione in parti e composizione in un tutto (meros = parte, olos = tutto). Una più generale relazione di "termini coordinati" si ha quando due termini condividono uno stesso iperonimo; per esempio, cane e lupo si possono considerare termini coordinati. Nel caso dei verbi, si impiegano ulteriori relazioni che si differenziano sottilmente dalle precedenti; per esempio, la relazione di implicazione (entailment) indica che l'azione descritta da un verbo (es: russare) implica quella descritta da un altro verbo (dormire). E' possibile creare relazioni non solo a livello di synset ma anche a livello di word sense. WordNet è accessibile online sul sito web dell'Università di Princeton, attraverso un'interfaccia web di ricerca. La libreria NLTK fornisce un'interfaccia verso Wordnet in un package che incorpora la libreria Python pywordnet. Non sembra che di per sé WordNet offra API web che consentano di navigare in modo automatico (da programma) la rete costituita dai suoi synset. Esiste un gran numero di progetti che offrono servizi derivati da WordNet; ma la garanzia di avere una versione completa e aggiornata del database si ha solo scaricandola dal sito di Princeton. Open Multilingual Wordnet Open Multilingual Wordnet (MultiWordNet) è un database lessicale multilingue in cui un WordNet italiano è strettamente allineato con la versione 1.6 (1998) del WordNet originale di Princeton e con i WordNet di altre lingue. Si può navigare nel contenuto del database mediante il "browser" di MultiWordNet, che facilita il confronto dei lessici allineati di diverse altre lingue: Spagnolo, Portoghese, Ebraico, Rumeno e Latino. La libreria NLTK fornisce un'interfaccia a Open Multilingual Wordnet. IWN Un lessico per la lingua italiana, anch'esso derivato da WordNet, Italian WordNet (IWN), è stato sviluppato dall'Istituto di Linguistica Computazionale del CNR (ILC) a Pisa, all'interno del progetto europeo EuroWordNet (1996-1999). Ma IWN non è pubblicamente scaricabile. 2. Wictionary "Il Wiktionary [Wikizionario, in italiano] è un progetto collaborativo, multilingue e gratuito, accessibile in rete, supportato dalla Wikimedia Foundation, per produrre un dizionario online libero e multilingue, con significati, etimologie e pronunce". Esso è realizzato come piattaforma wiki, in maniera del tutto simile a Wikipedia di cui è un "compagno lessicale." [Wikipedia] Wiktionary si pone l'obbiettivo di "descrivere tutte le parole di tutte le lingue usando definizioni e descrizioni in Inglese". 3. Wikidata Wikidata è un'altra iniziativa sostenuta dalla Wikimedia Foundation; si tratta di un database comune di supporto agli altri progetti di Wikimedia, consultabile e modificabile sia da utenti umani che da bot. Wikidata è caratterizzato dall'uso e dalla gestione centralizzata di "interlink": link che collegano elementi del database, univocamente individuati, con le pagine corrispondenti nelle diverse versioni linguistiche di Wikipedia. Un interlink ha un'etichetta (un titolo che identifica la pagina) in ciascuna lingua e può avere anche una descrizione degli alias. Wikidata ha una funzione di supporto gestionale: consente di condividereinformazione rappresentata in modo formale tra le diverse versioni linguistiche di Wikipedia. Ogni elemento include un insieme di asserzioni, di coppie chiave-valore, dove la chiave individua una proprietà. 4. GeoNames "Il database geografico GeoNames copre tutte le nazioni e contiene più di 11 milioni di nomi di luoghi che è possibile scaricare gratuitamente". Circa 115000 sono nomi di luoghi italiani. Si tratta quindi di un esempio di gazetteer; un gazetteer è un dizionario geografico .. usato in combinazione con una carta geografica o un atlante. [Wikipedia] GeoNames integra dati geografici come nomi di luoghi in diverse lingue, coordinate geografiche, popolazione, ed altri dati provenienti da diverse fonti. 5. BabelNet BabelNet è un dizionario enciclopedico multilingue. E' stato creato integrando automaticamente la più grande enciclopedia multilingue – ovvero Wikipedia [vedi] – con il più noto lessico della lingua inglese – ovvero WordNet. [Wikipedia] BabelNet è il risultato di un formidabile lavoro di integrazione di fonti multiple, che includono anche Wiktionary, Wikidata, versioni di WordNet in decine di lingue, GeoNames e Microsoft Terminology. A sua volta, tra le altre cose, BabelNet è diventato un importante strumento di aiuto alla manutenzione delle sue stesse fonti. Un Babel synset è essenzialmente un WordNet synset arricchito con l'insieme delle lessicalizzazioni multilingue del concetto associato. Caratteristiche BabelNet integra automaticamente dati esistenti mentre Wikipedia (e in buona misura WordNet) è il risultato di un editing collaborativo (manuale). BabelNet è inerentemente multilingue, mentre WordNet nasce Inglese e lascia ad altri la sua estensione ad altre lingue. (di conseguenza) BabelNet utilizza solo le relazioni definite da WordNet a livello di synset; quelle definite a livello di word sense hanno minore interesse in un'ottica multilingue? BabelNet rielabora solo i synset di WordNet corrispondenti a termini nominali. BabelNet è molto interessato alle entità nominate, che invece sono assenti in Wordnet. BabelNet implementa (mi sembra) un processo di aggiornamento continuo (come Wikipedia), a differenza di WordNet che produce una serie di versioni discrete. BabelNet può essere interrogato mediante API web con interfaccia HTTP e quindi consente la navigazione della sua rete di synset da parte di programmi. BabelNet supporta praticamente tutte le lingue del mondo; usa strumenti di traduzione automatica (come ?) per riempire i buchi lessicali dei synset per le lingue dotate di scarse risorse. Applicazioni Indicizzazione semantica dei testi, anche di quelli scritti in lingua mista. Disambiguazione nella traduzione automatica. Calcolo della similarità semantica di documenti; per esempio nel campo dei brevetti. ... RIFERIMENTI (webography) WordNet, A Lexical Database for English, https://wordnet.princeton.edu/ George A. Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller, 1993, Introduction to WordNet: An On-line Lexical Database, http://wordnetcode.princeton.edu/5papers.pdf Steven Loria, Tutorial: What is WordNet? A Conceptual Introduction Using Python, https://stevenloria.com/wordnet-tutorial/ Open Multilingual Wordnet, http://compling.hss.ntu.edu.sg/omw/ MultiWordNet, http://multiwordnet.fbk.eu GeoNames, http://www.geonames.org/ BabelNet | The largest multilingual encyclopedic dictionary and semantic network, https://babelnet.org/ Roberto Navigli and Simone Paolo Ponzetto, BabelNet: Building a Very Large Multilingual Semantic Network, 2010, http://www.aclweb.org/anthology/P/P10/P10-1023.pdf DA WIKIPEDIA Wiktionary, https://en.wikipedia.org/wiki/Wiktionary Wikizionario, https://it.wikipedia.org/wiki/Wikizionario WordNet, https://en.wikipedia.org/wiki/WordNet WordNet, https://it.wikipedia.org/wiki/WordNet Wikidata, https://en.wikipedia.org/wiki/Wikidata Wikidata, https://it.wikipedia.org/wiki/Wikidata Gazetteer, https://en.wikipedia.org/wiki/Gazetteer BabelNet, https://en.wikipedia.org/wiki/BabelNet BabelNet, https://it.wikipedia.org/wiki/BabelNet