今天我们推荐的是一条命令快速在本地运行大模型,在GitHub超过22K Star的开源项目:ollama。

ollama是什么?
Ollama 是一个强大的框架,设计用于在 Docker 容器中部署 LLM。Ollama 的主要功能是在 Docker 容器内部署和管理 LLM 的促进者,它使该过程变得非常简单。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,例如 Llama 2。

Ollama 将模型权重、配置和数据捆绑到一个包中,定义成 Modelfile。它优化了设置和配置细节,包括 GPU 使用情况。

安装 ollama
ollama极大的简化了安装的过程,并提供了多种选择。

支持的平台包括:Mac和Linux、windows,并提供了docker 镜像。
直接下载安装包,地址如下:

https://ollama.com/download

下载完成后,直接安装即可。

Linux:

Linux同样也提供了一键安装命令:

curl https://ollama.com/install.sh | sh
直接执行命令,可以完成默认安装。

使用 ollama

下一步我们启动一个qwen2.5,只需要执行:

ollama run qwen2.5

之后会自动去pull Llama2的模型,并运行,确实非常的便捷。另外还支持将Ollama作为服务提供到网络环境中。

需要把配置文件改一下:

#1.找到服务的单元文件:
#/etc/systemd/system/目录下
sudo vi /etc/systemd/system/ollama.service


#2.修改配置文件,分为如下2钟情况 
#情况1:添加环境变量:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
#情况2:如果已经有
Environment="PATH=xxx:/root/bin" "OLLAMA_HOST=0.0.0.0:11434"


#3.为了使更改生效,您需要重新加载systemd的配置。使用以下命令:
sudo systemctl daemon-reload


#4.重启服务以应用更改:
sudo systemctl restart ollama 

除了Llama2以外 Ollama 还支持其他的开原模型:
https://ollama.com/search

另外还需要注意一下文档中的运行资源说明:

3B模型需要8G内存,7B模型需要16G内存,13B模型需要32G内存。

除了简单的启动模型外,Ollama 可以通过编写 Modelfile 来导入更多的自定义模型,具体的使用方法和配置请自行查阅文档。

Ollama具备灵活的扩展性,它支持和很多工具集成,除了命令行的使用方式,可以通过配合UI界面,简单快速的打造一个类ChatGPT应用。笔者也计划抽空写一期专门的教程,来介绍一个如果快速通过Ollama搭建一个仿ChatGPT。

项目特点
开源:很显然这是首要特点,开源推动者项目的持续发展
开箱即用:一条命令的方式,简化了大量的工作,降低了门槛。
可扩展:可以和很多工具进行集成使用,有更多的玩法
轻量化:不需要太多的资源,Mac就能跑
项目信息
项目名称:Ollama
官方网站:https://ollama.com/
GitHub 链接:https://github.com/jmorganca/ollama
Star 数:22K+

ollama命令

  1. 启动Ollama服务

ollama serve

  1. 从模型文件创建模型

ollama create

  1. 显示模型信息

ollama show

  1. 运行模型

ollama run 模型名称

  1. 从注册表中拉去模型

ollama pull 模型名称

  1. 将模型推送到注册表

ollama push

  1. 列出模型

ollama list

  1. 复制模型

ollama cp

  1. 删除模型

ollama rm 模型名称

  1. 获取有关Ollama任何命令的帮助信息

ollama help

作者:admin  创建时间:2024-12-05 16:00
最后编辑:admin  更新时间:2024-12-05 20:59