Nvidia GeForce RTX 4090 graphics cards























AI Text Generation performance charts











AI Text Generation performance charts



AI Text Generation performance charts

AI Text Generation performance charts

















Visual Studio 2019 构建工具 (在新标签页中打开). 安装时只选择“Desktop Environment with C++”。 2023 年 3 月 14 日的版本 16.11.25,内部版本 16.11.33423.256 应该可以工作。

3. 创建文件夹 用于放置项目文件和模型的位置,例如C:\AI 资料。

4. 启动 Miniconda3 提示符.您可以通过在 Windows 中搜索或在“开始”菜单中找到它。

miniconda prompt

(图片来源:Tom's Hardware)

5. 运行这个命令,包括它周围的引号。它设置 VC 构建环境以便可以找到 CL.exe,需要步骤 2 中的 Visual Studio 构建工具。

“C:\Program Files (x86)\Microsoft Visual Studio\2019\BuildTools\VC\Auxiliary\Build\vcvars64.bat”

6. 输入以下命令, 一次一个。如果提示在任何这些之后继续,请输入“y”。

conda create -n llama4bit conda 激活 llama4bit conda install python=3.10 conda install git

7. 切换到文件夹 (例如 C:\AIStuff)您想要项目文件的位置。

cd C:\AIStuff

8. 使用 git 克隆文本生成 UI。 

git 克隆 https://github.com/oobabooga/text-generation-webui.git

9. 进入text-generation-webui文件夹, 创建一个存储库文件夹 在它下面,和 改变它.

cd text-generation-webui md 存储库 cd 存储库

10. Git 克隆 GPTQ-for-LLaMa.git 进而 上移一个目录.

git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa.git cd ..

11. 输入以下命令 安装用于构建和运行项目的几个必需的包。这可能需要一段时间才能完成,有时会出错。如有必要,再次运行它,它将从中断的地方继续运行。

pip install -r requirements.txt

12. 使用这个命令 安装更多必需的依赖项。我们在这里使用 CUDA 11.7.0,但其他版本也可以。

conda 安装 cuda pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia/label/cuda-11.7.0

13. 检查CUDA Torch是否安装正确.这应该在下一行返回“True”。如果失败,重复第 12 步;如果它仍然失败并且您有 Nvidia 卡,请在评论中发表评论。

python -c “导入火炬;打印(torch.cuda.is_available())”

14. 安装 ninja 和 chardet。 如果出现提示,请按 y。

conda 安装 ninja pip 安装 cchardet chardet

15. 切换到 GPTQ-for-LLama 目录。

cd repositories\GPTQ-for-LLaMa

16. 设置编译代码的环境。

设置 DISTUTILS_USE_SDK=1

17. 输入以下命令。 这会产生很多警告和/或注释,尽管它仍然可以编译。可能需要一点时间才能完成。

python setup_cuda.py 安装

18. 返回文本生成-webui 文件夹。

cd C:\AIStuff\文本生成-webui

19. 下载模型。 这是一个 12.5GB 的下载,可能需要一点时间,具体取决于您的连接速度。我们指定了 llama-7b-hf 版本,它应该可以在任何 RTX 显卡上运行。如果您的卡至少有 10GB 的 VRAM,则可以改用 llama-13b-hf(它大约是 36.3GB 的三倍)。

python download-model.py 十足目研究/llama-7b-hf

20. 重命名模型文件夹。 如果您正在做更大的模型,只需将 7b 替换为 13b。

重命名模型\llama-7b-hf llama-7b

21. 下载 4位预量化模型 来自 Hugging Face,“llama-7b-4bit.pt”和 将它放在“模型”文件夹中 (在前两步的“llama-7b”文件夹旁边,例如“C:\AIStuff\text-generation-webui\models”)。还有 13b 和 30b 型号,但后者需要 24GB 显卡和 64GB 系统内存才能工作。

22. 编辑 tokenizer_config.json 文件 在 text-generation-webui\models\llama-7b 文件夹和 将 LLaMATokenizer 更改为 LlamaTokenizer.大写是最重要的。

edit tokenizer_config.json

(图片来源:未来)

23. 输入以下命令 从 C:\AIStuff\text-generation-webui 文件夹中。 (如果您下载的是 llama-13b,请将 llama-7b 替换为 llama-13b;还有许多其他模型可能会产生更好或至少不同的结果。)

python server.py --gptq-bits 4 --model llama-7b

您现在将获得一个 IP 地址,您可以在网络浏览器中访问该地址。默认值为 http://127.0.0.1:7860(在新选项卡中打开),但如果正在使用 7860(即通过 Stable-Diffusion),它将搜索一个开放端口。

running on local URL

(图片来源:未来)

24. 导航到 URL 在浏览器中。

25. 尝试输入您的提示 在“输入框”和 点击生成.

26. 玩转提示 并尝试其他选择,并尝试玩得开心 - 你已经赢得了!

click Generate

(图片来源:未来)

如果此时有些东西不起作用,请检查命令提示符是否有错误消息,或者在评论中联系我们。也许只是尝试退出 Miniconda 命令提示符并重新启动它,激活环境,然后更改到适当的文件夹(步骤 4、6(仅“conda activate llama4bit”部分)、18 和 23)。

同样,我也很好奇如何才能在 AMD 和 Intel GPU 上运行它。如果您有这些的工作说明,请给我写信,我会看看如何测试它们。理想情况下,该解决方案应使用英特尔的矩阵内核;对于 AMD,AI 核心与着色器核心重叠,但总体上可能仍然更快。