Percorso: "Rappresentazione e analisi del testo e dei documenti" UNITA' 6 - Lingue e risorse linguistiche SINTESI ... 1. Che cosa sono le Risorse Linguistiche (RL) Le RL sono insiemi di dati linguistici (corpora, lessici, terminologie, ontologie, grammatiche, ...) - accompagnati o costituiti da annotazioni e rappresentazioni formalizzate ... e dai relativi strumenti software - usati per costruire, ampliare, rendere operativi, valutare modelli, algoritmi, componenti e sistemi per il TAL. Le RL includono dunque sia i dati sia gli strumenti di base che costituiscono la infrastruttura necessaria per rendere possibile lo sviluppo delle diverse applicazioni del TAL. [1] La mancanza di RL adeguate viene oggi unanimemente riconosciuta come uno dei principali ostacoli al successo delle attività di ricerca e sviluppo nel TAL. [1] Questa osservazione, che compare in un documento di oltre 15 anni fa, è più che mai di attualità, soprattutto se riferita ai corpora: - vi è un tendenza crescente ad applicare, nell'analisi dei testi, metodi statistici ed algoritmi in grado di migliorarsi mediante apprendimento automatico, spesso anche senza richiedere una supervisione umana; questi metodi e algoritmi hanno però bisogno di grandi moli di dati rappresentativi del dominio di interesse - esistono numerosi progetti open source nel campo dei "pipeline" (catene di attività coordinate) di trattamento dei testi, per uso sia didattico che professionale; le librerie software che ne risultano sono veramente preziose, ma per lo più operano sulla base di risorse linguistiche di qualità; queste ultime sono spesso carenti per le lingue diverse dall'Inglese, e per l'Italiano in particolare [11][12]. 2. Corpora Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche ... Servendosi di strumenti di analisi quantitativa e statistica, [la linguistica dei corpora] esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio. [Wikipedia] Per l'Italiano corpora interessanti sono: - La Repubblica, a corpus of Italian newspaper texts published between 1985 and 2000 (approximately 380M tokens). [4] - itWaC: a 2 billion word corpus constructed from the Web limiting the crawl to the .it domain and using medium-frequency words from the Repubblica corpus and basic Italian vocabulary lists as seeds. The corpus was POS-tagged with the TreeTagger [9], and lemmatized using the Morph-it! [see below] lexicon. [7] (more information available at [8]). [itWaC was constructed inside] WaCky (Web-As-Corpus Kool Yinitiative), a collection of large corpora built by automatically downloading texts from the web. We have made available corpora in English, French, German and Italian. [4] 3. Lessici Morph-it! Risorsa morfologica, lessico di forme flesse; è utilizzabile come lemmatizzatore, generatore morfologico o strumento di analisi morfologica. Conta circa 35000 lemmi ed è opera di Marco Baroni ed Eros Zanchetti della Scuola Superiore di Lingue Moderne per Interpreti e Traduttori di Forlì. [5] Lexicons and morphological analysers are at the core of many NLP applications, such as lemmatisation, POS tagging and morphology generation. [Since there were no] freely available lexicons for the Italian language ... we embarked on the task of creating our own lexicon and then decided to make it freely available. In this paper we describe our method for the rapid creation of a lexicon using a mixture of corpus based techniques and manual checking. [6] WordNet® is a large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations. The resulting network of meaningfully related words and concepts can be navigated with the browser ... WordNet's structure makes it a useful tool for computational linguistics and natural language processing. [2] MultiWordNet is a multilingual lexical database in which the Italian WordNet is strictly aligned with Princeton WordNet 1.6. [13] ItalWordNet (Italian WordNet) is an updated version of the EuroWordNet Italian database. The ItalWordNet database was produced within a national Italian programme called SI-TAL. It contains a total of 49,360 synsets. 4. Dizionari enciclopedici BabelNet [developed by Roberto Navigli and his team at Uniroma1 Sapienza, is] today's most far-reaching multilingual resource that covers hundreds of languages and, according to need, can be used as either an encyclopedic dictionary, or a semantic network, or a huge knowledge base. BabelNet live is growing continuously, thanks to being fed with daily updates from all the sources that go to make it up, including Wikipedia, Wiktionary, users' input, etc. [3] DBpedia is a project aiming to extract structured content from the information created in the Wikipedia project. This structured information is made available on the World Wide Web. [Wikipedia] 4. Terminologie e ontologie In generale, la terminologia è lo studio dei termini, cioè delle parole semplici e composte utilizzate in contesti specifici. Viene chiamata terminologia anche una disciplina più formale che studia sistematicamente la scelta e l'etichettatura [mediante termini] di concetti specifici per uno o più campi tematici con l'obiettivo di documentarne e promuoverne l'uso corretto. [Wikipedia] Un'ontologia è una rappresentazione schematica di un insieme di concetti relativi a un dominio. WordNet, citata più sopra, è da taluni considerata una "ontologia linguistica"; è questa un'espressione che può non piacere agli ortodossi: la costruzione di un'ontologia è un compito impegnativo; spesso il lavoro parte da un'analisi a livello linguistico, ma poi si cerca di astrarre, per liberarsi da legami troppo stretti con il lessico di una specifica lingua. 5. Grammatiche In linguistica una grammatica è il complesso di regole necessarie alla costruzione di frasi, sintagmi e parole di una determinata lingua; il termine può essere usato con riferimento a diversi livelli della struttura di un testo. Di solito una grammatica supporta anche l'attività inversa, cioè l'analisi. Una grammatica può essere assunta in funzione "normativa": come si deve o non si deve scrivere/parlare. In funzione "descrittiva" essa ci dice come scrivono o parlano certe classi di persone: nel contesto della "teoria generativa del linguaggio", "grammatica" assume il significato di "modello della competenza linguistica di un parlante nativo". Un tipico esempio di grammatica è quella a livello sintattico, che consente di analizzare la frase in costituenti, individuando sintagmi nominali, verbali, preposizionali, ecc. Un tipo di grammatica molto più semplice è quella, magari espressa in forma di espressioni regolari, che consente di scomporre una frase in costituenti elementari detti "token": essenzialmente parole, segni di interpunzione, spazi e altri separatori. Dal punto di vista pratico della tecnologia del linguaggio, la tendenza è all'affermarsi di un approccio in cui il trattamento del testo è affidato ad algoritmi che "apprendono" dall'esposizione a grosse moli di dati. In tal caso si ha la riconfigurazione automatica, mediante aggiornamento di parametri, o addirittura la ristrutturazione dinamica di tali algoritmi; allora appare diminuita l'importanza della grammatica come distillato della competenza del linguista stesso, in termini di un esplicito insieme di regole. ACRONIMI NLP - Natural Language Processing RL - Risorse Linguistiche TAL - Trattamento Automatico della Lingua RIFERIMENTI (webography) [1] Nicoletta Calzolari, Risorse Linguistiche per la Lingua Italiana Scritta, Istituto di Linguistica Computazionale del CNR - Pisa, www.isticom.it/documenti/rivista/2002_065.pdf, 2002 [2] WordNet - A Lexical Database for English, https://wordnet.princeton.edu/ [3] BabelNet, https://babelnet.org/ [4] Corpora and tools, Department of Interpreting and Translation - Forlì Campus, https://corpora.dipintra.it/ [5] Accademia della Crusca, Strumenti per l'analisi dei testi (morfologia, leggibilità), http://www.accademiadellacrusca.it/it/link-utili/strumenti-per-lanalisi-testi-morfologia-leggibilit, 2011 [6] Eros Zanchetta and Marco Baroni, Morph-it! A free corpus-based morphological resource for the Italian language, Università di Bologna, http://godzilla.sslmit.unibo.it/~eros/downloads/Morph-it.pdf, 2009 [7] WaCKy Corpora, http://wacky.sslmit.unibo.it/doku.php?id=corpora [8] Marco Baroni et alii, The WaCky wide web: a collection of very large linguistically processed web-crawled corpora, http://clic.cimec.unitn.it/marco/publications/wacky-lrej.pdf, 2009 [9] Università di Monaco, TreeTagger - a part-of-speech tagger for many languages, CIS project, http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ [10] NLTK Corpus Readers, http://www.nltk.org/howto/corpus.html [11] Natural Language Toolkit, https://www.nltk.org/ [12] Matthew Honnibal, Introducing spaCy, https://explosion.ai/blog/introducing-spacy, 2015 [13] MultiWordNet, http://multiwordnet.fbk.eu/english/home.php DA WIKIPEDIA Corpus, https://it.wikipedia.org/wiki/Corpus Text corpus, https://en.wikipedia.org/wiki/Text_corpus Treebank, https://en.wikipedia.org/wiki/Treebank DBpedia, https://en.wikipedia.org/wiki/DBpedia DBpedia, https://it.wikipedia.org/wiki/DBpedia Terminology, https://en.wikipedia.org/wiki/Terminology Terminologia, https://it.wikipedia.org/wiki/Terminologia