在Windows上通过llama-cpp-python部署llama-2-7b.Q2_K.gguf

环境:WIN10家庭版,Intel(R) Core™ i5-6300HQ CPU @ 2.30GHz RAM:8.00 GB
启动服务打开占用了40%左右内存

1、使用Visual Studio下载工具:使用C++的桌面开发


2、在https://huggingface.co/TheBloke/Llama-2-7B-GGUF 下载llama-2-7b.Q2_K.gguf

3、下载llama-cpp-python库

pip install llama-cpp-python

pip install llama-cpp-python[server]

注意:安装llama-cpp-python[server]后,

chromadb 0.4.10需要pydantic<2.0,>=1.9,fastapi<0.100.0,>=0.95.2

被更新为:fastapi-0.103.1 pydantic-2.3.0

4、启动模型:模型地址使用绝对地址

python3 -m llama_cpp.server --model D:/myprograms/workspace/hogwartsAI/langchain_test/models/llama-2-7b.Q2_K.gguf

swagger地址:http://localhost:8000/docs

python中使用openai的方式访问地址:http://localhost:8000/v1


4 个赞

你用的python版本是多少?我安装pip install llama-cpp-python报错

你这个问题解决了吗