一、环境准备
系统要求
- 确保机器满足最低配置(推荐4核CPU/8GB内存/20GB存储)3;
- 安装 Docker 和 Docker Compose(用于容器化部署)34;
- 安装 Git(用于拉取代码库)3;
依赖软件
- Python 3.x 和 Node.js(部分功能需要开发环境支持)3;
- NVIDIA显卡驱动(若需GPU加速,显存需≥6GB)4;
二、部署Dify
- 克隆代码库
bashCopy Code
git clone https://github.com/langgenius/dify.git cd dify/docker
- 启动Dify服务
bashCopy Code
docker-compose up -d # 后台启动所有容器:ml-citation{ref="1,3" data="citationList"}
- 访问
http://localhost
完成初始化配置1;
- 访问
三、安装Ollama
一键安装
- Windows/MacOS:下载安装包并运行4;
- Linux:执行以下命令:
bashCopy Code
curl -fsSL https://ollama.com/install.sh | sh
- 验证安装:
ollama -v
4;
配置GPU加速(可选)
- 确保NVIDIA驱动正常,并在Ollama日志中确认GPU已识别4;
启动本地模型服务
bashCopy Codeollama run qwen # 运行中文模型如qwen:ml-citation{ref="4" data="citationList"}
- 暴露服务接口:设置环境变量
OLLAMA_HOST=0.0.0.0
4;
- 暴露服务接口:设置环境变量
四、部署Xinference
创建虚拟环境
bashCopy Codeconda create --name xinference python=3.10 conda activate xinference
安装依赖包
bashCopy Codepip install "xinference[all]" -i https://pypi.tuna.tsinghua.edu.cn/simple # 全功能安装:ml-citation{ref="6" data="citationList"}
配置环境变量
bashCopy Codeexport XINFERENCE_HOME=/自定义存储目录 export XINFERENCE_MODEL_SRC=modelscope # 指定模型源:ml-citation{ref="6" data="citationList"}
启动Xinference服务
bashCopy Codexinference-local -H 0.0.0.0 # 暴露服务端口:ml-citation{ref="6" data="citationList"}
注册模型
bashCopy Codexinference launch --model-name chatglm3 --size-in-billions 6 # 部署中文模型:ml-citation{ref="6" data="citationList"}
五、集成到Dify平台
添加Ollama模型
- 在Dify控制台的 模型供应商 中选择 Ollama,输入服务地址(如
http://localhost:11434
)14; - 验证连接性:通过内置测试工具检查接口可用性1;
- 在Dify控制台的 模型供应商 中选择 Ollama,输入服务地址(如
集成Xinference模型
- 在Dify的 模型供应商 中选择 自定义API,输入Xinference的API地址(如
http://localhost:6006
)67; - 输入模型名称及API密钥(若需鉴权)6;
- 在Dify的 模型供应商 中选择 自定义API,输入Xinference的API地址(如
配置知识库与Agent工具
- 在Dify中创建RAG Pipeline,上传文档(PDF/PPT等格式),并关联Xinference的嵌入模型(如
bge-large-zh
)18; - 定义Agent工具,调用Ollama和Xinference的模型能力(如文本生成、图像生成等)8;
- 在Dify中创建RAG Pipeline,上传文档(PDF/PPT等格式),并关联Xinference的嵌入模型(如
六、验证与应用测试
对话功能测试
- 在Dify中创建聊天应用,选择集成的Ollama或Xinference模型,输入提示词验证响应14;
知识库问答测试
- 上传知识文档(如PDF),通过RAG检索功能生成答案,检查结果准确性18;
绘图功能集成(可选)
- 结合Xinference的绘图模型(如FLUX1.1),通过Dify自定义工具生成图片26;
七、常见问题
- Ollama服务不可达:检查防火墙设置,确保端口
11434
开放4; - Xinference模型加载失败:确认模型名称与版本匹配,或重新注册模型6;
- GPU未启用:在Ollama日志中检查CUDA状态,更新驱动或重装依赖4;
通过以上步骤,可完成Dify与Ollama、Xinference的完整集成,快速构建基于本地模型的AI应用16。
发表评论 取消回复