Build from Source Llama.cpp with CUDA GPU Support and Run LLM Models Using Llama.cpp

Aleksandar Haber PhD

16 Jan 202514:56

Summary

TLDRВ этом уроке подробно объясняется, как скомпилировать и собрать программу llama CPP с поддержкой GPU из исходного кода на Windows. Видеоурок охватывает установку необходимых инструментов, таких как Microsoft Visual Studio C++, CUDA Toolkit и Git, а также шаги для клонирования репозитория и сборки программы. Приводится пошаговая инструкция по установке и запуску модели Microsoft 5-4 на GPU, включая настройку параметров для максимального использования ресурсов. В конце показано, как запустить модель и взаимодействовать с ней через командную строку.

Takeaways

😀 Для компиляции и запуска Llama CPP с поддержкой GPU на Windows необходимо установить Microsoft Visual Studio C++ и компиляторы.
😀 Также потребуется установить Cuda Toolkit и Cuda компиляторы для использования GPU при сборке.
😀 Не забудьте установить Git, чтобы загрузить исходные файлы Llama CPP с репозитория.
😀 Чтобы начать сборку, откройте командную строку разработчика Microsoft Visual Studio, а не стандартную командную строку.
😀 Перед сборкой убедитесь, что Cuda компиляторы и Git корректно установлены, выполнив команды 'nvcc --version' и 'git'.
😀 Создайте рабочую папку для проекта, например, 'testLama', и клонируйте репозиторий Llama CPP с помощью команды Git.
😀 Для сборки Llama CPP используйте CMake, чтобы настроить поддержку Cuda, и следите за выводом, чтобы убедиться, что все компоненты правильно настроены.
😀 Процесс сборки может занять от 10 до 20 минут в зависимости от мощности вашего процессора.
😀 Для тестирования модели скачайте файл модели с GitHub Microsoft и поместите его в папку с собранными исполнимыми файлами.
😀 Используйте Llama CLI для загрузки модели и взаимодействия с ней, задавая вопросы через командную строку.
😀 После запуска модели можно наблюдать за использованием GPU и CPU, а также настраивать параметры для увеличения производительности.

Q & A

Что такое Llama CPP?
-Llama CPP — это программа, предназначенная для запуска больших языковых моделей (LLM) локально. Она позволяет пользователям выполнять модели с использованием графического процессора (GPU) для повышения производительности.
Какие программные инструменты необходимы для сборки Llama CPP с поддержкой GPU?
-Для сборки Llama CPP с поддержкой GPU необходимы Microsoft Visual Studio с компиляторами C++, CUDA Toolkit и Git. Эти инструменты обеспечат правильную компиляцию и работу программы с GPU.
Как установить Microsoft Visual Studio с компиляторами C++?
-Для установки Microsoft Visual Studio с компиляторами C++, нужно найти 'Microsoft Visual Studio C++' в поиске, скачать Community Edition (бесплатную версию), а затем следовать инструкциям по установке.
Зачем нужен CUDA Toolkit для сборки Llama CPP?
-CUDA Toolkit необходим для компиляции и использования ресурсов GPU при работе с Llama CPP. Он включает компиляторы и инструменты для разработки, которые позволяют программе эффективно использовать графический процессор.
Как проверить, что CUDA Toolkit правильно установлен?
-Чтобы проверить установку CUDA Toolkit, нужно выполнить команду 'nvcc --version' в командной строке. Если установка прошла успешно, вы увидите информацию о версии компилятора CUDA.
Что такое 'Developer Command Prompt for Visual Studio' и зачем его использовать?
-Developer Command Prompt for Visual Studio — это командная строка, которая позволяет использовать компиляторы Visual Studio C++ для компиляции кода. Она необходима для работы с Llama CPP, так как стандартная командная строка не поддерживает эти инструменты.
Как клонировать репозиторий Llama CPP с GitHub?
-Для клонирования репозитория Llama CPP с GitHub, нужно выполнить команду 'git clone https://github.com/ggorgarnov/llama.cpp.git' в командной строке после создания рабочего каталога.
Что делать, если процесс сборки с помощью cmake занимает много времени?
-Если сборка занимает много времени, это нормально, особенно на менее мощных машинах. Важно дождаться завершения процесса. Если на экране появляются предупреждения, но нет ошибок компиляции, сборка будет успешной.
Какие файлы нужно загрузить для тестирования модели?
-Для тестирования модели нужно скачать файл модели с GitHub Microsoft, например, файл модели '5-4 quantized'. Он должен быть скопирован в папку 'release' внутри рабочего каталога Llama CPP.
Как запустить модель Llama CPP после сборки?
-После сборки Llama CPP нужно выполнить команду в командной строке, указав путь к исполнимому файлу и файл модели. Команда будет выглядеть как 'llama.cli -model 5-4-quantized.model -cnv DC 16384'.