
La possibilità di integrare nel proprio sistema operativo più modelli di intelligenze artificiali sarà sempre più pressante nei prossimi anni/mesi/giorni per non perdere il passo con le nuove tecnologie.
In questo articolo installeremo un tool, Ollama, che ci permetterà di fare questa integrazione, passo dopo passo con integrazione ai browser, in questo caso Brave.
Prima di tutto una precisazione, il tool Ollama e open source cosi come i modelli LLM che può caricare (chatgpt non è fra questi), il servizio è locale, che sta ad indicare che sia l*input che l’output non vengono inviati in internet, il tutto è offline, questo comporta un notevole uso di risorse hardware, cpu potenti e possibilmente gpu altrettanto performanti, ma soprattutto molta memoria, ad esempio 8gb di ram sono il minimo per AI sotto i 7b token, 16gb fino a 13b che occupano uno spazio sui media di più di 4gb, AI da 70b parametri richiedono almeno 64gb di ram e una occupazione sul disco di + 40gb.
Prima di proseguire con l’installazione e configurazione consultare il repository github del servizio Ollama a questo indirizzo:
https://github.com/ollama/ollama/blob/main/docs/linux.md
Per installare il sevizio, da terminale, digitare il seguente comando, che scarica lo script di installazione e lo esegue ((solo per sistemi systemd):
curl -fsSL https://ollama.com/install.sh | sh
Il sistema è già pronto per avviare un modello di AI, come nell’esempio seguente che esegue un modello open source francese:
ollama run mistral
Se è la prima volta che l’AI viene utilizzata richiede tempo per scaricare il modello (in questo caso più di 4gb) e al completamento viene avviata con il suo prompt.
Altri modelli attualmente disponibili al 13/10/24 sono:
Model Parameters Size Download
Llama 3.2 3B 2.0GB ollama run llama3.2
Llama 3.2 1B 1.3GB ollama run llama3.2:1b
Llama 3.1 8B 4.7GB ollama run llama3.1
Llama 3.1 70B 40GB ollama run llama3.1:70b
Llama 3.1 405B 231GB ollama run llama3.1:405b
Phi 3 Mini 3.8B 2.3GB ollama run phi3
Phi 3 Medium 14B 7.9GB ollama run phi3:medium
Gemma 2 2B 1.6GB ollama run gemma2:2b
Gemma 2 9B 5.5GB ollama run gemma2
Gemma 2 27B 16GB ollama run gemma2:27b
Mistral 7B 4.1GB ollama run mistral
Moondream 2 1.4B 829MB ollama run moondream
Neural Chat 7B 4.1GB ollama run neural-chat
Starling 7B 4.1GB ollama run starling-lm
Code Llama 7B 3.8GB ollama run codellama
Llama 2 Uncensored 7B 3.8GB ollama run llama2-uncensored
LLaVA 7B 4.5GB ollama run llava
Solar 10.7B 6.1GB ollama run solar
Comandi più utilizzati:
ollama list (visualizza tutte le AI caricate)
ollama show <modello AI> (mostra informazioni sulla AI)
ollama rm <modello AI> (rimuove l'AI dal sistema)
ollama pull <modello AI> (aggiorna l'AI)
ollama serve (avvia solo il servizio)
Il browser Brave ha recentemente implementato la possibilità di interagire con AI online con la procedura chiamata Leo, ma che permette anche di integrare LLM locali con una semplice configurazione:
Avviare Brave, nel menu selezionare <impostazioni> nella lista selezionare <Leo>, cliccare sul bottone <Aggiungi nuovo modello>, Compariranno una serie di inserimenti:
Etichetta -> Inserire il nome che volete dare al modello
Nome della richiesta di modello -> identificativo del modello che è lo stesso che avviereste con run in ollama.
Endpoint del server -> in Ollama è l’url: <http://localhost:11434/v1/chat/completions>
Salvare il modello e questi comparirà nella lista insieme ad altri modelli (online), selezionarlo come predefinito e attivare il lo switch <Mostra l’icona di Leo nella barra laterale>.
Naturalmente LLM deve essere stata precedentemente caricata e il servizio Ollama attivo verificando con:
sudo systemctl status ollama
Se è down, avviarlo:
sudo systemctl start ollama
Nota: L’integrazione è stata fatta in Debian con il gestore dei servizi systemd, con altre init system potrebbe non funzionare!












