Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Usare la Google Cloud Platform per l'elaborazione del Linguaggio Naturale

Usare la Google Cloud Platform per l'elaborazione del Linguaggio Naturale

GDG DevFest Bari 2016

Francesco Marchitelli

November 29, 2016
Tweet

More Decks by Francesco Marchitelli

Other Decks in Technology

Transcript

  1. Francesco Marchitelli
    Usare la Google Cloud
    Platform per l’elaborazione del
    Linguaggio Naturale

    View Slide

  2. Natural Language Processing
    Natural Language Processing (NLP) è il trattamento informatico (computer
    processing) del linguaggio naturale, per qualsiasi scopo, indipendentemente dal
    livello di approfondimento dell’analisi.
    Per linguaggio naturale si intende la lingua che usiamo nella vita di tutti i giorni,
    come l’Inglese, l’Italiano, ed è sinonimo di linguaggio umano, principalmente per
    poterlo distinguere da altri linguaggi, come ad esempio il linguaggio dei computer.

    View Slide

  3. Fasi di NLP
    L'approccio classico all'analisi del testo scritto è quello di dividere il processo in tre
    fasi distinte che comunichino tra loro in maniera pipelinizzata:
    ➢ analisi lessicale
    ➢ analisi sintattica
    ➢ analisi semantica
    L’analisi semantica include il named entity recognition (NER) e il named entity
    linking (NEL)

    View Slide

  4. L'analisi lessicale prevede:
    ● Sentence Splitting: la divisione di un testo in frasi;
    ● Tokenization: la divisione di una frase in token;
    ● Part of Speech (PoS) tagging: l'identificazione del ruolo lessicale che i
    token ricoprono nella frase (nomi, verbi, avverbi, aggettivi, etc.);
    ● Morph splitting: l'identificazione della radice o stemma da cui ogni token
    deriva e il suo lemma.
    Analisi lessicale: le fasi

    View Slide

  5. Information Extraction
    Il sistema di Information Extraction, data una selezione di documenti e dato un
    formato di risposta, cerca di estrarre in modo strutturato l’informazione rilevante
    secondo le esigenze fornite in input.

    View Slide

  6. Information Retrieval
    L’enfasi di un sistema di IR è trovare documenti che già contengono la risposta
    alla domanda formulata dell'utente: data una collezione di documenti, il sistema di
    Information Retrieval che riceve in input una query (set di parole chiave)
    seleziona un sottoinsieme di documenti che ritiene rilevanti per la query.
    L’utente poi navigherà la lista di documenti e cercherà l’informazione che più gli
    interessa.

    View Slide

  7. Stato dell’arte
    Approcci per l’estrazione della conoscenza
    ➢ Regole Simboliche
    ○ Cyc (Lenat, 2001)
    ➢ Crowdsourcing
    ○ Open Mind (Singh, 2002)
    ○ GWAP: Game with a Purpose (Ahn, 2006)
    ➢ Machine Learning
    ○ Stanford NER (McCallum and Pereira, 2001) (Sutton and
    McCallum, 2006) (Sutton and McCallum 2010)
    ○ Polyglot NER (Al-Rfou , 2015)

    View Slide

  8. Machine Learning
    Studio, Costruzione e Combinazione di algoritmi per automatizzare lo svolgimento
    di compiti e la risoluzione di problemi.
    Ha forti legami teorici con la statistica computazionale; spesso in ambito
    industriale è noto come predictive analytics o predictive modelling.
    La distinzione più importante all'interno dei metodi di Machine Learning è fra
    algoritmi di apprendimento supervisionati e non supervisionati.

    View Slide

  9. Apprendimento Supervisionato
    Tecnica di apprendimento automatico che mira a istruire un sistema informatico in
    modo da consentirgli di risolvere dei compiti in maniera autonoma sulla base di una
    serie di esempi ideali, costituiti da coppie di input e di output desiderati, che gli
    vengono inizialmente forniti.

    View Slide

  10. Esempi Apprendimento
    Supervisionato
    ➢ Classificazione Automatica: assegnare in modo automatico ai documenti in input
    le categorie definite dall'utente, in base alle somiglianza con gli esempi di
    documenti classificati a mano precedentemente;
    ➢ NER, con particolare attenzione alla disambiguazione di un’entità;
    ➢ Text to Speech Translation;
    ➢ Modelli di regressione e di causalità: rappresentano legami fra testo e altre
    variabili.

    View Slide

  11. Apprendimento non
    Supervisionato
    Tecnica di apprendimento automatico che consiste nel fornire al sistema informatico
    una serie di input (esperienza del sistema) che egli riclassificherà ed organizzerà
    sulla base di caratteristiche comuni per cercare di effettuare ragionamenti e previsioni
    sugli input successivi.
    Al contrario dell'apprendimento supervisionato, vengono forniti all'apprendista solo
    esempi non annotati, in quanto le classi non sono note a priori ma devono essere
    apprese automaticamente.

    View Slide

  12. Cluster Analysis
    ● L'obiettivo è fornire una classificazione informativa di un insieme di elementi
    (documenti o clienti di un'azienda) senza che le informazioni su questa
    classificazione siano già note.
    ● Affronta il problema di estrarre pattern o schemi ricorrenti nei dati.
    ● I risultati di una procedura non supervisionata possono essere definitivi oppure
    fornire un punto di partenza (pre-elaborazione) per analisi più sofisticate.

    View Slide

  13. ➢ Maggiore efficacia della ricerca, grazie a tecniche NLP che consentono di cercare parole
    chiave per forme varianti (forme non standard, singolari/plurali, sinonimie, ecc.);
    ➢ Aumento della trovabilità attraverso un sistematico utilizzo di suggerimenti e
    auto-completamenti basati sul vocabolari di dominio;
    ➢ Discovery dei contenuti per far emergere contenuti altrimenti nascosti nella mole dei dati
    non strutturati;
    ➢ Linking tra testo, concetti e entità, per arricchire i documenti con informazioni
    enciclopediche e relazioni tra i concetti coinvolti;
    ➢ Navigazione tra i contenuti in una forma comprensibile e accattivante per l’utente.
    I vantaggi dell’approccio semantico

    View Slide

  14. Cloud Natural Language
    https://cloud.google.com/natural-language/

    View Slide

  15. Grazie per l’Attenzione

    View Slide

  16. https://goo.gl/vHLLJW

    View Slide