Cách chặn trình thu thập dữ liệu của OpenAI lấy cắp trang web của bạn

Độc giả như bạn giúp hỗ trợ MUO. Khi bạn mua hàng bằng các liên kết trên trang web của chúng tôi, chúng tôi có thể kiếm được hoa hồng liên kết. Đọc thêm.

Mặc dù người dùng yêu thích ChatGPT vì lượng thông tin khổng lồ mà nó hiện đang nắm giữ, nhưng điều tương tự không thể xảy ra đối với chủ sở hữu trang web.

cách chụp ảnh màn hình trên snapchat mà không cần

MUO Video trong ngày CUỘN ĐỂ TIẾP TỤC VỚI NỘI DUNG

ChatGPT của OpenAI sử dụng trình thu thập thông tin để quét các trang web, nhưng nếu bạn là chủ sở hữu trang web và không muốn trình thu thập thông tin của OpenAI truy cập trang web của mình, đây là một số điều bạn có thể làm để ngăn chặn điều đó.

OpenAI Crawling hoạt động như thế nào?

MỘT trình thu thập dữ liệu web (còn được gọi là nhện hoặc bot công cụ tìm kiếm) là một chương trình tự động quét internet để tìm thông tin. Sau đó, nó biên dịch thông tin đó theo cách mà công cụ tìm kiếm của bạn dễ dàng truy cập.

Trình thu thập dữ liệu web lập chỉ mục mọi trang của mọi URL có liên quan, thường tập trung vào các trang web có liên quan hơn đến truy vấn tìm kiếm của bạn. Ví dụ: giả sử bạn đang tìm kiếm một lỗi cụ thể của Windows trên Google. Trình thu thập dữ liệu web trong công cụ tìm kiếm của bạn sẽ quét tất cả các URL từ các trang web mà nó cho là có thẩm quyền hơn về chủ đề lỗi Windows.

Trình thu thập dữ liệu web của OpenAI được gọi là GPTBot và theo Tài liệu của OpenAI , việc cấp cho GPTBot quyền truy cập vào trang web của bạn có thể giúp đào tạo mô hình AI trở nên an toàn hơn và chính xác hơn, thậm chí nó có thể giúp mở rộng khả năng của mô hình AI.

mua từ điều ước có an toàn không

Cách ngăn OpenAI thu thập dữ liệu trang web của bạn

Giống như hầu hết các trình thu thập dữ liệu web khác, GPTBot có thể bị chặn truy cập trang web của bạn bằng cách sửa đổi tên miền của trang web. robot.txt giao thức (còn được gọi là giao thức loại trừ robot). Tệp .txt này được lưu trữ trên máy chủ của trang web và tệp này kiểm soát cách trình thu thập dữ liệu web cũng như các chương trình tự động khác hoạt động trên trang web của bạn.

Đây là một danh sách ngắn về những gì robot.txt tập tin có thể làm:

Nó có thể chặn hoàn toàn GPTBot truy cập trang web.
Nó chỉ có thể chặn một số trang nhất định từ một URL khỏi bị GPTBot truy cập.
Nó có thể cho GPTBot biết liên kết nào nó có thể theo dõi và liên kết nào không thể.

Dưới đây là cách kiểm soát những gì GPTBot có thể thực hiện trên trang web của bạn:

Chặn hoàn toàn GPTBot truy cập trang web của bạn

Thiết lập tệp robot.txt , rồi chỉnh sửa nó bằng bất kỳ công cụ chỉnh sửa văn bản nào.
Thêm GPTBot vào trang web của bạn robot.txt như sau:

 User-agent: GPTBot 
Disallow: /

Chỉ chặn một số trang nhất định khỏi bị GPTBot truy cập

thiết lập robot.txt tệp, sau đó chỉnh sửa tệp đó bằng công cụ chỉnh sửa văn bản ưa thích của bạn.
Thêm GPTBot vào trang web của bạn robot.txt như sau:

 User-agent: GPTBot 
Allow: /directory-1/ 
Disallow: /directory-2/

Tuy nhiên, hãy nhớ rằng việc thay đổi robot.txt tệp không phải là giải pháp có hiệu lực hồi tố và mọi thông tin mà GPTBot có thể đã thu thập từ trang web của bạn sẽ không thể phục hồi được.

OpenAI cho phép chủ sở hữu trang web từ chối thu thập thông tin

Kể từ khi trình thu thập dữ liệu được sử dụng để đào tạo các mô hình AI, chủ sở hữu trang web đã tìm cách giữ dữ liệu của họ ở chế độ riêng tư.

Một số lo ngại rằng các mô hình AI về cơ bản đang đánh cắp công việc của họ, thậm chí còn cho rằng ít lượt truy cập trang web hơn do giờ đây người dùng nhận được thông tin của họ mà không cần phải truy cập trang web của họ.

Nói chung, việc bạn có muốn chặn hoàn toàn các chatbot AI quét trang web của mình hay không là hoàn toàn do bạn lựa chọn.

máy tính nhận ra iphone nhưng itunes thì không