环境:WIN10家庭版,Intel(R) Core™ i5-6300HQ CPU @ 2.30GHz RAM:8.00 GB
启动服务打开占用了40%左右内存
1、使用Visual Studio下载工具:使用C++的桌面开发
2、在https://huggingface.co/TheBloke/Llama-2-7B-GGUF 下载llama-2-7b.Q2_K.gguf
3、下载llama-cpp-python库
pip install llama-cpp-python
pip install llama-cpp-python[server]
注意:安装llama-cpp-python[server]后,
chromadb 0.4.10需要pydantic<2.0,>=1.9,fastapi<0.100.0,>=0.95.2
被更新为:fastapi-0.103.1 pydantic-2.3.0
4、启动模型:模型地址使用绝对地址
python3 -m llama_cpp.server --model D:/myprograms/workspace/hogwartsAI/langchain_test/models/llama-2-7b.Q2_K.gguf
swagger地址:http://localhost:8000/docs
python中使用openai的方式访问地址:http://localhost:8000/v1