Cách tải xuống và cài đặt Llama 2 cục bộ - |Giải thích về công nghệ|DIY|

Những độc giả như bạn giúp ủng hộ MUO. Khi bạn mua hàng bằng các liên kết trên trang web của chúng tôi, chúng tôi có thể kiếm được hoa hồng liên kết. Đọc thêm.

Meta phát hành Llama 2 vào mùa hè năm 2023. Phiên bản mới của Llama được tinh chỉnh với số lượng mã thông báo nhiều hơn 40% so với mô hình Llama ban đầu, tăng gấp đôi độ dài ngữ cảnh và vượt trội đáng kể so với các mô hình nguồn mở khác hiện có. Cách nhanh nhất và dễ nhất để truy cập Llama 2 là thông qua API thông qua nền tảng trực tuyến. Tuy nhiên, nếu bạn muốn có trải nghiệm tốt nhất thì cài đặt và tải Llama 2 trực tiếp trên máy tính là tốt nhất.

Với ý nghĩ đó, chúng tôi đã tạo hướng dẫn từng bước về cách sử dụng Text-Generation-WebUI để tải Llama 2 LLM được lượng tử hóa cục bộ trên máy tính của bạn.

Tại sao cài đặt Llama 2 cục bộ

Có nhiều lý do khiến mọi người chọn chạy trực tiếp Llama 2. Một số làm điều đó vì lo ngại về quyền riêng tư, một số để tùy chỉnh và một số khác vì khả năng ngoại tuyến. Nếu bạn đang nghiên cứu, tinh chỉnh hoặc tích hợp Llama 2 cho dự án của mình thì việc truy cập Llama 2 qua API có thể không dành cho bạn. Mục đích của việc chạy LLM cục bộ trên PC của bạn là giảm sự phụ thuộc vào công cụ AI của bên thứ ba và sử dụng AI mọi lúc, mọi nơi mà không lo rò rỉ dữ liệu nhạy cảm cho các công ty và tổ chức khác.

Như đã nói, hãy bắt đầu với hướng dẫn từng bước để cài đặt Llama 2 cục bộ.

Bước 1: Cài đặt Công cụ xây dựng Visual Studio 2019

Để đơn giản hóa mọi thứ, chúng tôi sẽ sử dụng trình cài đặt bằng một cú nhấp chuột cho Text-Generation-WebUI (chương trình được sử dụng để tải Llama 2 bằng GUI). Tuy nhiên, để trình cài đặt này hoạt động, bạn cần tải xuống Visual Studio 2019 Build Tool và cài đặt các tài nguyên cần thiết.

Tải xuống: Visual Studio 2019 (Miễn phí)

Hãy tiếp tục và tải xuống phiên bản cộng đồng của phần mềm.
Bây giờ hãy cài đặt Visual Studio 2019, sau đó mở phần mềm lên. Sau khi mở ra hãy đánh dấu vào ô Phát triển máy tính để bàn với C++ và nhấn cài đặt.

Bây giờ bạn đã cài đặt bản phát triển Máy tính để bàn với C++, đã đến lúc tải xuống trình cài đặt một cú nhấp chuột Text-Generation-WebUI.

Bước 2: Cài đặt Text-Generation-WebUI

Trình cài đặt bằng một cú nhấp chuột Text-Generation-WebUI là một tập lệnh tự động tạo các thư mục cần thiết và thiết lập môi trường Conda cũng như tất cả các yêu cầu cần thiết để chạy mô hình AI.

làm thế nào để có được một nền trong suốt

Để cài đặt tập lệnh, hãy tải xuống trình cài đặt bằng một cú nhấp chuột bằng cách nhấp vào Mã số > Tải xuống ZIP.

Tải xuống: Trình cài đặt WebUI thế hệ văn bản (Miễn phí)

Sau khi tải xuống, hãy giải nén tệp ZIP vào vị trí ưa thích của bạn, sau đó mở thư mục đã giải nén.
Trong thư mục, cuộn xuống và tìm chương trình khởi động thích hợp cho hệ điều hành của bạn. Chạy chương trình bằng cách bấm đúp vào tập lệnh thích hợp.
- Nếu bạn đang dùng Windows, hãy chọn start_windows tập tin hàng loạt
- đối với MacOS, chọn bắt đầu_macos tập lệnh vỏ
- cho Linux, start_linux tập lệnh shell.
Phần mềm chống vi-rút của bạn có thể tạo cảnh báo; điều này ổn. Lời nhắc chỉ là một phần mềm diệt virus dương tính giả để chạy một tập lệnh hoặc tập lệnh. Bấm vào Chạy bất cứ đâu .
Một thiết bị đầu cuối sẽ mở ra và bắt đầu thiết lập. Ngay từ đầu, quá trình thiết lập sẽ tạm dừng và hỏi bạn đang sử dụng GPU nào. Chọn loại GPU thích hợp được cài đặt trên máy tính của bạn và nhấn enter. Đối với những người không có card đồ họa chuyên dụng, hãy chọn Không có (Tôi muốn chạy các mô hình ở chế độ CPU) . Hãy nhớ rằng chạy trên chế độ CPU chậm hơn nhiều so với chạy mô hình có GPU chuyên dụng.
Sau khi thiết lập hoàn tất, bây giờ bạn có thể khởi chạy Text-Generation-WebUI cục bộ. Bạn có thể làm như vậy bằng cách mở trình duyệt web ưa thích của mình và nhập địa chỉ IP được cung cấp trên URL.
WebUI hiện đã sẵn sàng để sử dụng.

Tuy nhiên, chương trình chỉ là một trình tải mô hình. Hãy tải xuống Llama 2 để trình tải mô hình khởi chạy.

Bước 3: Tải xuống Mô hình Llama 2

Có khá nhiều điều cần cân nhắc khi quyết định bạn cần lặp lại Llama 2 nào. Chúng bao gồm các tham số, lượng tử hóa, tối ưu hóa phần cứng, kích thước và cách sử dụng. Tất cả thông tin này sẽ được tìm thấy trong tên của mẫu máy.

Thông số: Số lượng tham số được sử dụng để huấn luyện mô hình. Các thông số lớn hơn tạo ra các mô hình có khả năng cao hơn nhưng phải trả giá bằng hiệu năng.
Cách sử dụng: Có thể là tiêu chuẩn hoặc trò chuyện. Mô hình trò chuyện được tối ưu hóa để sử dụng làm chatbot như ChatGPT, trong khi tiêu chuẩn là mô hình mặc định.
Tối ưu hóa phần cứng: Đề cập đến phần cứng nào chạy mô hình tốt nhất. GPTQ có nghĩa là mô hình được tối ưu hóa để chạy trên GPU chuyên dụng, trong khi GGML được tối ưu hóa để chạy trên CPU.
Lượng tử hóa: Biểu thị độ chính xác của trọng số và kích hoạt trong mô hình. Để suy luận, độ chính xác q4 là tối ưu.
Kích cỡ: Đề cập đến kích thước của mô hình cụ thể.

Lưu ý rằng một số kiểu máy có thể được sắp xếp khác nhau và thậm chí có thể không hiển thị cùng loại thông tin. Tuy nhiên, kiểu quy ước đặt tên này khá phổ biến trong ôm mặt Thư viện mô hình, vì vậy nó vẫn đáng để hiểu.

Trong ví dụ này, mô hình có thể được xác định là mô hình Llama 2 cỡ trung bình được đào tạo trên 13 tỷ tham số được tối ưu hóa cho hoạt động suy luận trò chuyện bằng CPU chuyên dụng.

bạn có thể kết nối airpods với android không

Đối với những người chạy trên GPU chuyên dụng, hãy chọn một GPTQ kiểu máy, trong khi đối với những người sử dụng CPU, hãy chọn GGML . Nếu bạn muốn trò chuyện với người mẫu giống như với ChatGPT, hãy chọn trò chuyện , nhưng nếu bạn muốn thử nghiệm mô hình với đầy đủ khả năng của nó, hãy sử dụng tiêu chuẩn người mẫu. Đối với các thông số, hãy biết rằng việc sử dụng các mô hình lớn hơn sẽ mang lại kết quả tốt hơn nhưng lại phải trả giá bằng hiệu suất. Cá nhân tôi khuyên bạn nên bắt đầu với mô hình 7B. Đối với lượng tử hóa, hãy sử dụng q4 vì nó chỉ dành cho suy luận.

Tải xuống: GGML (Miễn phí)

Tải xuống: GPTQ (Miễn phí)

Bây giờ bạn đã biết mình cần phiên bản Llama 2 nào, hãy tiếp tục và tải xuống mô hình bạn muốn.

Trong trường hợp của tôi, vì tôi đang chạy ứng dụng này trên ultrabook nên tôi sẽ sử dụng mô hình GGML được tinh chỉnh để trò chuyện, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Sau khi tải xuống xong, hãy đặt mô hình vào tạo văn bản-webui-main > mô hình .

Bây giờ bạn đã tải xuống mô hình của mình và đặt vào thư mục mô hình, đã đến lúc định cấu hình trình tải mô hình.

cách cập nhật cửa hàng chơi phiên bản mới nhất

Bước 4: Định cấu hình tạo văn bản-WebUI

Bây giờ, hãy bắt đầu giai đoạn cấu hình.

Một lần nữa, hãy mở Text-Generation-WebUI bằng cách chạy lệnh start_(hệ điều hành của bạn) tập tin (xem các bước trước ở trên).
Trên các tab nằm phía trên GUI, hãy nhấp vào Người mẫu. Nhấp vào nút làm mới ở menu thả xuống mô hình và chọn mô hình của bạn.
Bây giờ bấm vào menu thả xuống của Trình tải mô hình và chọn AutoGPTQ dành cho những người sử dụng mô hình GTPQ và máy biến áp c dành cho những người sử dụng mô hình GGML. Cuối cùng, bấm vào Trọng tải để tải mô hình của bạn.
Để sử dụng mô hình, hãy mở tab Trò chuyện và bắt đầu thử nghiệm mô hình.

Xin chúc mừng, bạn đã tải thành công Llama2 trên máy tính cục bộ của mình!

Hãy thử các LLM khác

Bây giờ bạn đã biết cách chạy Llama 2 trực tiếp trên máy tính của mình bằng Text-Generation-WebUI, bạn cũng có thể chạy các LLM khác ngoài Llama. Chỉ cần nhớ quy ước đặt tên của các mô hình và chỉ các phiên bản lượng tử hóa của mô hình (thường là độ chính xác q4) mới có thể được tải trên PC thông thường. Nhiều LLM được lượng tử hóa có sẵn trên HuggingFace. Nếu bạn muốn khám phá các mô hình khác, hãy tìm kiếm TheBloke trong thư viện mô hình của HuggingFace và bạn sẽ tìm thấy nhiều mô hình có sẵn.