“Internet chết”? Một phần ba các website mới được tạo bởi AI, theo Stanford University

Tóm tắt nhanh

Đến giữa năm 2025, 35% website mới được xuất bản là do AI tạo ra hoặc có sự hỗ trợ của AI, tăng từ gần như 0 trước khi ChatGPT ra mắt vào tháng 11/2022.
Các tác động được xác nhận là “co hẹp ngữ nghĩa” (semantic contraction) và “tính tích cực nhân tạo” (artificial positivity) — không phải misinformation hay sự đồng nhất về phong cách như nhiều người nghĩ.
Ở mức độ phổ biến 35%, rủi ro “model collapse” chuyển từ lý thuyết sang thực nghiệm đối với thế hệ mô hình nền tảng tiếp theo.

Một nghiên cứu mới đã đưa ra con số cụ thể về mức độ nội dung AI trên internet: 35%. Đây là tỷ lệ các website mới được phân loại là do AI tạo hoặc có AI hỗ trợ vào giữa năm 2025, theo nghiên cứu từ Stanford University, Imperial College London và Internet Archive. Con số này gần như bằng 0 trước khi ChatGPT xuất hiện vào tháng 11/2022.

“Tốc độ AI ‘chiếm lĩnh’ web thực sự gây choáng,” Jonáš Doležal, nhà nghiên cứu tại Imperial College London và đồng tác giả nghiên cứu, chia sẻ với 404 Media. “Sau hàng thập kỷ do con người định hình, một phần đáng kể của internet đã được AI định nghĩa chỉ trong vòng ba năm.”

Nghiên cứu có tiêu đề “The Impact of AI-Generated Text on the Internet” sử dụng dữ liệu snapshot website trong 33 tháng từ Wayback Machine của Internet Archive, đồng thời áp dụng công cụ phát hiện văn bản AI Pangram v3 để phân loại từng trang.

Tác động được xác nhận: vấn đề nằm ở “vibe”, không phải sự thật

Các nhà nghiên cứu kiểm định 6 giả thuyết về tác động của nội dung AI lên web, nhưng chỉ có 2 giả thuyết được dữ liệu xác nhận.

Đầu tiên: internet đang dần trở nên kém đa dạng về mặt ngữ nghĩa (semantic diversity).

Các website do AI tạo ra có mức độ tương đồng ngữ nghĩa theo cặp (pairwise semantic similarity) cao hơn 33% so với nội dung do con người viết — tức là cùng một ý tưởng được diễn đạt lặp đi lặp lại theo những cách gần như giống nhau.

Nghiên cứu cho rằng “Overton window” trên internet có thể đang bị thu hẹp, không phải do kiểm duyệt hay các chiến dịch có tổ chức, mà vì các mô hình ngôn ngữ tối ưu hóa đầu ra gần với phân phối dữ liệu huấn luyện của chúng.

Tác động thứ hai: internet đang trở nên “quá mức tích cực”.

Nội dung do AI tạo ra có điểm sentiment tích cực cao hơn hơn 107% so với nội dung do con người viết. Các nhà nghiên cứu liên hệ điều này với xu hướng “sycophantic” (nịnh chiều người dùng) đã được ghi nhận rõ ở các mô hình ngôn ngữ lớn (LLMs) — vốn được huấn luyện dựa trên tín hiệu phản hồi/đồng thuận của con người, nên tạo ra văn bản mang cảm giác “sạch sẽ”, ít ma sát và luôn mang tông tích cực.

Một internet bị “ngập” trong nội dung vui vẻ, đồng nhất có thể khiến các quan điểm trái chiều của con người bị gạt ra bên lề ở quy mô lớn, mà không cần bất kỳ sự can thiệp trực tiếp nào.

Mặc dù niềm tin phổ biến trong công chúng cho rằng AI làm giảm độ chính xác thông tin, nghiên cứu không tìm thấy bằng chứng статистически đáng kể nào cho thấy nội dung AI khiến internet kém chính xác hơn về mặt факт. Các nhà nghiên cứu không phát hiện mối tương quan có ý nghĩa giữa mức độ phổ biến của AI và tỷ lệ lỗi факt.

Giả thuyết về “stylistic monoculture” — tức AI làm phẳng giọng văn cá nhân thành một phong cách đồng nhất — là quan điểm được người tham gia khảo sát tin tưởng mạnh nhất (83% đồng ý). Tuy nhiên, dữ liệu không xác nhận điều này. Phân tích ở cấp độ ký tự không cho thấy sự gia tăng có ý nghĩa thống kê về tính đồng nhất phong cách liên quan đến mức độ phổ biến của AI.

Vấn đề model collapse trở nên thực tế

Tác động lớn hơn vượt ra ngoài chất lượng diễn ngôn. Ở mức 35% nội dung AI, rủi ro “model collapse” — khi các mô hình tương lai suy giảm chất lượng do được huấn luyện trên dữ liệu do AI tạo ra — chuyển từ lo ngại mang tính học thuật sang thực tế có thể đo lường. Các foundation model trong tương lai, được huấn luyện trên dữ liệu crawl từ web hiện tại, gần như chắc chắn sẽ hấp thụ một lượng lớn dữ liệu do AI tạo, vốn có mức độ đa dạng ngữ nghĩa thấp hơn.

Nhóm nghiên cứu hiện đang hợp tác với Internet Archive để phát triển nghiên cứu này thành một công cụ giám sát liên tục theo thời gian thực, theo dõi tỷ trọng nội dung AI trên internet thay vì chỉ là một snapshot đơn lẻ.

Một khảo sát tại Mỹ đi kèm nghiên cứu cho thấy phần lớn người dân tin vào cả 6 giả thuyết tiêu cực, bao gồm cả những giả thuyết không được dữ liệu ủng hộ. Những người ít sử dụng AI có xu hướng tin vào các tác hại này nhiều hơn 12% so với người dùng thường xuyên.

Những người tin vào “Dead Internet Theory”, dữ liệu đã lên tiếng: internet chưa chết — nhưng khoảng 35% nội dung mới có thể được xem như “zombie content” dưới một dạng nào đó.

Bản tin Daily Debrief

Bắt đầu mỗi ngày với những tin tức nổi bật nhất, cùng các bài viết độc quyền, podcast, video và nhiều nội dung khác.