www.fabioambrosi.it

Databricks lancia Dolly 2.0, un’intelligenza artificiale gratuita e open-source simile a ChatGPT

Pubblicato da Fabio Ambrosi il 12/04/2023 - 21:39
Dolly 2.0. Alternativa free e open source a chatgpt

Databricks Inc., fornitore di software per l’analisi dei big data e l’apprendimento automatico, ha lanciato oggi Dolly 2.0, la nuova versione del suo modello di intelligenza artificiale generativo open-source con capacità simili a ChatGPT.

Cos’è Dolly 2.0, l’alternativa Open Source a ChatGpt?

Dolly è stata rilasciata due settimane fa come risposta ai numerosi modelli di intelligenza artificiale generativa basati su grandi quantità di dati linguistici presenti sul mercato, spesso inaccessibili a ricercatori e aziende perché bloccati da paywall e controllati da servizi centralizzati.

Potrebbe interessarti anche

Usare i Plugin di ChatGPT per leggere documenti Pdf e lavorare con le immagini. La guida per tutti
Usare i Plugin di ChatGPT per leggere documenti Pdf e lavorare con le immagini. La guida per tutti
Google Fiber (la fibra di Google) testerà connessioni ad internet fino a 20 gb/s e il wifi 7
Google Fiber (la fibra di Google) testerà connessioni ad internet fino a 20 gb/s e il wifi 7
George R.R. Martin e altri scrittori contro ChatGPT: ha violato il copyright
George R.R. Martin e altri scrittori contro ChatGPT: ha violato il copyright
Radiazioni elevate iPhone 12: cosa c’è da sapere? Ci sono rischi per la salute?
Radiazioni elevate iPhone 12: cosa c’è da sapere? Ci sono rischi per la salute?
Dolly 2.0, l'alternativa Open Source a ChatGpt
Dolly 2.0, l’alternativa Open Source a ChatGpt

Dolly 2.0, come il suo predecessore, utilizza un dataset più piccolo rispetto alla maggior parte dei modelli di intelligenza artificiale basati su grandi quantità di dati linguistici (LLM), il che lo rende particolarmente leggero. Il modello di Dolly è stato addestrato su 6 miliardi di parametri, rispetto ai 175 miliardi di GPT-3 di OpenAI LP, mentre Dolly 2.0 raddoppia il numero di parametri, arrivando a 12 miliardi. È stato inoltre ottimizzato su un dataset di alta qualità per il seguito di istruzioni, creato con il contributo degli impiegati di Databricks.

Perché è stato sviluppato Dolly 2.0 e come è stato addestrato?

Il set di dati utilizzati per l’addestramento di Dolly 2.0, chiamato “databricks-dolly-15k”, è stato creato da oltre 5.000 dipendenti di Databricks fra marzo e aprile del 2023. Contiene 15.000 coppie di prompt e risposte di alta qualità specificamente progettate per affinare i modelli di linguaggio di grandi dimensioni. Il set di dati è rilasciato sotto la licenza Creative Commons Attribution-ShareAlike 3.0 Unported License, che consente a chiunque di utilizzarlo, modificarlo o estenderlo per qualsiasi scopo, incluso l’uso commerciale.

Il team di Databricks ha deciso di creare un nuovo set di dati perché i modelli esistenti ben noti di istruzione, come Alpaca, Koala, GPT4All e Vicuna, soffrono di limitazioni delle licenze che impediscono l’uso commerciale. Poiché Dolly 1.0 era addestrato su un set di dati creato dal team di Stanford Alpaca utilizzando l’API OpenAI, i termini di servizio impedivano a chiunque di creare un modello che competesse con OpenAI. Pertanto, Dolly 1.0 non poteva essere utilizzato a scopo commerciale.

Dolly 2.0, al contrario, è stato addestrato su “databricks-dolly-15k”, che è un set di dati di alta qualità, generato da professionisti e adatto all’uso commerciale. Dolly 2.0 può essere utilizzato per una vasta gamma di compiti, come la generazione di contenuti e la sintesi di informazioni.

Il software open-source alla base di questo modello di intelligenza artificiale può funzionare anche su server di piccole dimensioni

L’intelligenza artificiale alla base di Dolly 2.0 utilizza il suo set di dati di addestramento per generare frasi e risposte coerenti quando gli utenti pongono domande. Può farlo anche se i suoi dati di addestramento sono molto più piccoli rispetto ai modelli di OpenAI, il che lo rende flessibile e leggero, adatto a girare anche sui server interni di un’azienda senza dover condividere i dati con terze parti.

“Riteniamo che modelli come Dolly contribuiranno a democratizzare gli LLM, trasformandoli da qualcosa che poche aziende possono permettersi in una merce che ogni azienda può possedere e personalizzare per migliorare i propri prodotti”, ha dichiarato la società al momento del lancio di Dolly.

Tenendo conto di ciò, Databricks ha reso completamente open-source Dolly 2.0, incluso il codice di addestramento e il dataset per uso commerciale. Il dataset incluso con Dolly 2.0 è il “databricks-dolly-15k”, che contiene 15.000 coppie di prompt e risposte di alta qualità generate dagli esseri umani e che chiunque può utilizzare, modificare ed estendere sotto licenza Creative Commons.

Disponibile anche per applicazioni commerciali senza pagare per l’accesso alle API

Dolly 2.0 è il primo modello open-source di LLM in grado di seguire istruzioni compatibili con l’uso commerciale. Ciò significa che Dolly 2.0 è disponibile per applicazioni commerciali senza dover pagare per l’accesso alle API o condividere dati con terze parti.

Secondo il CEO di Databricks, Ali Ghodsi, anche se esistono altri LLM che possono essere utilizzati a scopo commerciale, “non dialogheranno con te come Dolly 2.0. La nostra missione è quella di rendere questi modelli disponibili a tutti, indipendentemente dalle dimensioni dell’azienda o dal budget a disposizione. Vogliamo che le aziende abbiano la possibilità di sfruttare al meglio l’intelligenza artificiale generativa senza barriere all’ingresso.”

Databricks intende mantenere il software open-source anche per il futuro. Per chi ha esigenze particolari inoltre sarà possibile accedere a un servizio cloud premium basato su Dolly 2.0. Questo servizio sarà rivolto alle aziende che desiderano sfruttare le potenzialità di Dolly senza dover gestire l’infrastruttura e la manutenzione necessarie per eseguire il modello internamente.

L’impatto di Dolly 2.0 sull’industria dell’intelligenza artificiale e dell’apprendimento automatico potrebbe essere significativo. La sua natura open-source e la capacità di seguire istruzioni rendono il modello accessibile a un’ampia gamma di aziende e ricercatori. Ciò potrebbe portare a un aumento dell’innovazione e della concorrenza nel settore, con nuovi prodotti e servizi basati sull’intelligenza artificiale generativa che diventano sempre più comuni e accessibili.

Inoltre, la crescente popolarità dei modelli come Dolly 2.0 potrebbe spingere altri fornitori di LLM a seguire l’esempio di Databricks e rendere i propri modelli più accessibili e aperti. Questo potrebbe portare a un futuro in cui l’IA generativa diventa un’utility standardizzata e democratizzata, disponibile per tutti gli sviluppatori e le aziende per migliorare i loro prodotti e servizi.

Tuttavia, è importante notare che, nonostante i progressi fatti da Dolly 2.0, gli LLM hanno ancora delle limitazioni. Ad esempio, la qualità delle risposte fornite da questi modelli può variare in base alla qualità e alla quantità dei dati di addestramento utilizzati. Inoltre, c’è la preoccupazione che i modelli generativi possano essere utilizzati per scopi dannosi o eticamente discutibili, come la creazione di fake news o la manipolazione dell’opinione pubblica. Sarà importante per i creatori e gli utilizzatori di questi modelli agire con responsabilità e considerare attentamente gli impatti etici delle loro applicazioni.

Come usare Dolly 2.0?

Per iniziare a utilizzare Dolly 2.0, è possibile visitare la pagina Databricks Hugging Face e il repository Dolly su databricks-labs per scaricare il set di dati “databricks-dolly-15k”. Inoltre, è possibile partecipare al webinar per scoprire come sfruttare i modelli di linguaggio di grandi dimensioni per la propria organizzazione.

Questo articolo ha attinto alle seguenti fonti:


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *