Percorso di apprendimento Titolo: "Rappresentazione e analisi del testo e dei documenti" Unità: 1. Rappresentazione del testo: caratteri, alfabeti e codifica, fino a Unicode 2. Pattern matching e espressioni regolari 3. Scomposizione del testo in frasi e parole 4. Operazioni di base centrate sul lessico 5. Analisi della struttura del testo ed estrazione del contenuto 6. Lingue e risorse linguistiche 7. I corpora e il web 8. I principali ambienti di tipo generale 9. I database online lessicali e semantici 10. Strumenti di traduzione automatica e loro uso didattico Come suscitare inizialmente la curiosità? Prime idee 1. Mostrare una pagina web illegibile perché il browser non riconosce la codifica dei caratteri 2. Mostrare un'immagine sul pattern matching visuale (faccia, codice a barre) e una ricerca con Notepad++ usando un'espressione regolare 3. Mostrare una schermata di Voyant e dare qualche breve spiegazione 4. Mostrare un diagramma con un tipico pipeline di operazioni sul testo (da letteratura NLTK-Jupyter) 5. Mostrare 2 diagrammi: analisi di una frase per costituenti (NP, VP, ..) e analisi di dipendenza della stessa frase 6. Con spaCy o tool online mostrare la differente qualità del NER (named entity recognition) in presenza e assenza di risorse linguistiche adeguate 7. Richiamare le origini dei corpora digitali: padre Busa ecc. 8. Mostrare un paio di diagrammi su spaCy: pipeline di base e language model 9. Mostrare uno o due esempi di interrogazione di BabelNet 10. Mostrare incipit dell'articolo del 2006 sul plagiarismo nella traduzione verso L2 (Detecting Inappropriate Use of Free Online Machine Translation) RIFERIMENTI GENERALI (webography) [1] The Seven Practice Areas of Text Analytics, Excerpt from: Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications, http://cdn2.hubspot.net/hubfs/2176909/Whitepaper_The_Seven_Practice_Areas_of_Text_Analytics_Chapter_2_Excerpt.pdf, 2012 [2] Strumenti per l'analisi dei testi (morfologia, leggibilità), Accademia della Crusca, http://www.accademiadellacrusca.it/it/link-utili/strumenti-per-lanalisi-testi-morfologia-leggibilit, 2011 [4] Gabe Ignatow and Rada Mihalcea, Text Mining for Social Scientists, https://www.youtube.com/watch?v=71FqpwsPNpU