unica.it - Avviso

08 April 2024

This seminar is given in Italian by the Linkalab company.

---

OBIETTIVI

Le tecniche di Retrieval Augmented Generation (RAG) forniscono un modo per ottimizzare la produzione di un LLM con informazioni mirate senza modificare il modello alla sua base; quelle informazioni mirate possono essere più aggiornate rispetto al LLM, ma anche più precise nel caso di organizzazioni e settori specifici. Ciò significa che il sistema di intelligenza artificiale generativa può fornire risposte più appropriate ai prompt, e basare tali risposte su dati estremamente attuali. La RAG rappresenta quindi un ambito di profondo interesse relativamente alla gestione efficace del problema delle allucinazioni dei LLM.

Il seminario si pone l’obiettivo di introdurre tutti i concetti principali necessari per comprendere i meccanismi di base dei LLM, le tecniche principali di in-context learning e di information retrieval per rappresentare e ricercare le informazioni su base semantica e, infine, le caratteristiche principali dei sistemi RAG per la ricerca di documenti; a completamento della parte teorica verrà quindi proposta ai partecipanti una esercitazione pratica in prima persona sullo sviluppo di un sistema di interrogazione di un LLM Open Source con accesso a una base dati personale tramite un sistema RAG.

PREREQUISITI

Discreta conoscenza delle funzionalità di base del linguaggio di programmazione Python e una conoscenza minima dell’invocazione dei metodi di una libreria software e la ricerca di informazioni sul funzionamento e sui parametri dei metodi di una libreria software nella documentazione online della stessa.

ISCRIZIONE

Partecipazione limitata a 40 studenti organizzati in gruppi da 5. L’ammissione è determinata dall’ordine cronologico di arrivo della domanda di iscrizione, da effettuarsi entro il giorno 22 aprile 2024 al seguente indirizzo: https://forms.gle/CJWpK4PMVVysFgoh9

ARTICOLAZIONE DELLE LEZIONI

Modulo Base (MB) [2h - 3 maggio dalle 14:30 alle 16:30 Aula B0, DIEE ed. M]
Nel Modulo Base vengono introdotti tutti i concetti principali necessari per comprendere i meccanismi di base, come il meccanismo di attenzione, che hanno portato al successo dei LLM rispetto ai modelli precedenti, sono approfondite le tecniche di addestramento, le caratteristiche dei LLM e le modalità di personalizzazione dei modelli tramite l’utilizzo di basi di conoscenza esterna per il loro utilizzo in specifici domini o per la limitazione dei fenomeni di allucinazione.
I contenuti sintetici sono i seguenti: Transformer model; Pre-training; LLM; Transfer Learning, In Context Learning, Fine Tuning, Knowledge Injection; Modelli generativi basati su LLM
Modulo Prompt Engineering (MP) [2h - 3 maggio dalle 16:30 alle 18:30 Aula B0, DIEE ed. M]
Nel Modulo Prompt Engineering vengono introdotti tutti i concetti principali necessari per comprendere quali sono le principali tecniche e caratteristiche di realizzazione di prompt efficaci per l’esecuzione di specifici task con i LLM, come gli approcci di tipo zero-shot e few-shot learning.
I contenuti sintetici sono i seguenti: In Context Learning con ChatGPT; Introduzione ai sistemi Retrieval Augmented Generation (RAG) per la l’accesso del modello a basi di conoscenza specifiche e per la limitazione delle allucinazioni.
Modulo Prompt Engineering Open (MPO) [2h - 10 maggio dalle 14:30 alle 16:30. Aula B0, DIEE ed. M]
Nel Modulo Prompt Engineering Open vengono estese le conoscenze e competenze acquisite nel modulo MP per permettere l’utilizzo di LLM Open Source, quali ad esempio Llama-2, come alternativa ai modelli GPT. Nel modulo viene inoltre illustrata la metodologia di sviluppo che consente di eseguire (ed eventualmente personalizzare tramite, ad esempio, fine-tuning) questi modelli in locale per poterli interrogare in maniera automatizzata tramite librerie dedicate.
Il modulo prevede un’esercitazione sul setup di un LLM Open Source
NOTE: i) Richiede account Google per utilizzo di Python Notebook su Colab; ii) Richiede Token HuggingFace per scaricamento LLM
Modulo Information Retrieval (MIR) [2h - 10 maggio dalle 16:30 alle 18:30 Aula B0, DIEE ed. M]
Nel Modulo Information Retrieval vengono introdotte in maniera dettagliata e approfondita le tecniche di rappresentazione e calcolo vettoriale utilizzate ida sistemi di Information Retrieval per rappresentare e ricercare le informazioni su base semantica.
Il modulo prevede un’introduzione teorica e pratica ai seguenti aspetti: Vettorizzazione testi (es. TF-IDF); Distanza vettoriali (Cosine Similarity); Modelli KNN; Introduzione ai sistemi RAG per la ricerca di documenti
Modulo Retrieval Augmented Generation (MRAG) [4h - 17 maggio dalle 14:30 alle 18:30. Aula B0, DIEE ed. M]
Nel Modulo Retrieval Augmented Generation viene proposta ai partecipanti una esercitazione in prima persona sullo sviluppo di un sistema di interrogazione di un LLM Open Source con accesso a una base dati personale tramite un sistema RAG. I partecipanti avranno a disposizione un notebook con il codice in linguaggio Python già predisposto per lo scaricamento in locale del modello e una serie di contenuti informativi con le specifiche e le indicazioni necessarie per sviluppare in autonomia l’esercitazione ricercando nella documentazione fornita quello che serve per implementare la soluzione al problema proposto nel testo della esercitazione.
I contenuti sintetici sono i seguenti: Introduzione ai sistemi RAG per la generazione di testi basati su informazioni presenti in una specifica base di dati definita dall’utente; Esercitazione sulla realizzazione di un sistema RAG con LLM Open Source su piattaforma Colab;
NOTE: i) Richiede account Google per utilizzo di Python Notebook su Colab; ii) Richiede Token HuggingFace per scaricamento LLM

Il laboratorio Linkalab da più di 10 anni è impegnato su tematiche di ricerca avanzate nell’ambito dei Big Data Analytics e in particolare nel settore della Network Science e del Machine Learning. Linkalabe ha sviluppato specifiche competenze e asset nella realizzazione di piattaforme per il data engineering su tecnologie Cloud.

University of Cagliari

University of Cagliari

Large Language Models for Information Management - Linkalab

Last notices

Procedura Infortunio studenti

Corso di Studio in fase di nuova istituzione

A.A. 24/25 - Seminari accreditati I° sem. - Corso pratico di revisione - Oltre la teoria delle tecniche di revisione: i casi concreti applicati dai professionisti della materia