OpenAI hiện đang che giấu việc ChatGPT đã được đào tạo dựa trên sách Harry Potter có bản quyền

VOH - Theo nghiên cứu mới, ChatGPT đang cố gắng che giấu việc nó được đào tạo trên tài liệu có bản quyền.

OpenAI 's ChatGPT về cơ bản là tất cả các mô hình ngôn ngữ lớn hoặc LLM khác, đã được đào tạo trên một lượng lớn dữ liệu và văn bản được lấy từ internet, bao gồm nhiều sách vẫn còn bản quyền.

Công ty đã bị giám sát chặt chẽ hơn vì sử dụng công việc như vậy mà không trả tiền cho thông tin gốc thông qua các thỏa thuận cấp phép hoặc các quyền khác. Điều này đã thúc đẩy các vụ kiện từ các tác giả.

Phản hồi từ OpenAI và những công ty như Google, Meta và Microsoft, chủ yếu là ngừng tiết lộ dữ liệu mà các mô hình AI của họ được đào tạo từ những nội dung có bản quyền.

OpenAI hiện đang cố gắng che giấu việc ChatGPT đã được đào tạo dựa trên sách Harry Potter có bản quyền 1
ChatGPT đang được đào tạo dựa trên tài liệu có bản quyền. 

Giờ đây, OpenAI đã tiến thêm một bước, một bài báo nghiên cứu mới cho thấy.

ChatGPT hiện đang cố gắng tránh trả lời lời nhắc của người dùng bằng cụm từ chính xác từ các tác phẩm có bản quyền, theo một bài báo kỹ thuật được xuất bản vào ngày 8/8 bởi một nhóm các nhà khoa học AI đang làm việc cho bộ phận nghiên cứu của ByteDance, chủ sở hữu của TikTok.

Nghiên cứu tập trung vào cách làm cho LLM trở nên "đáng tin cậy" hơn trong đầu ra của họ thông qua các kỹ thuật căn chỉnh khác nhau, nhằm cải thiện độ chính xác đồng thời thừa nhận các công cụ AI đang được đào tạo bằng tài liệu có bản quyền. Điều này cũng đã gây lo ngại cho các công ty AI.

Bất chấp những nỗ lực này, ChatGPT vẫn hiển thị tài liệu có bản quyền, tờ báo cho biết. Cũng như nhiều mô hình AI khác, do chúng đã được đào tạo về một lượng lớn tài liệu có bản quyền.

Các nhà nghiên cứu đã thử nghiệm tất cả các phiên bản của ChatGPT, OPT-1.3B từ Meta, FLAN-T5 từ Google, ChatGLM do Đại học Thanh Hoa Trung Quốc xây dựng và DialoGPT do Microsoft xây dựng, tất cả đều phản hồi một số lời nhắc dựa trên bộ sách Harry Potter của JK Rowling với các cụm từ và công việc khớp với các cuốn sách một cách chính xác hoặc gần như chính xác. Bài báo đề cập đến các mô hình AI phản hồi với tài liệu có bản quyền là "rò rỉ".

Các nhà nghiên cứu gợi ý rằng những người dùng yêu cầu các mô hình này hiển thị tác phẩm có bản quyền đang lạm dụng công nghệ.

Bình luận