Tóm tắt nhanh
- Synthegy, được phát triển tại EPFL, sử dụng các mô hình ngôn ngữ lớn (LLM) để xếp hạng các lộ trình tổng hợp hóa học dựa trên mục tiêu do nhà hóa học đặt ra, với mức độ trùng khớp với đánh giá của chuyên gia đạt 71,2%.
- Framework này đã được kiểm chứng thông qua 368 lượt đánh giá từ 36 nhà hóa học độc lập.
- Các thử nghiệm cho thấy mức độ đồng thuận của AI đạt gần tương đương với mức đồng thuận giữa các chuyên gia với nhau.
Thiết kế một phân tử từ đầu là một trong những bài toán khó nhất trong hóa học. Không chỉ là việc biết cần liên kết những nguyên tử nào với nhau — mà còn là biết đúng thứ tự phản ứng, thời điểm cần bảo vệ các phần nhạy cảm của phân tử và cách tránh những “ngõ cụt” có thể phá hỏng hàng tháng làm việc trong phòng thí nghiệm.
Theo truyền thống, kiến thức này nằm trong đầu các nhà hóa học giàu kinh nghiệm. Giờ đây, một nhóm nghiên cứu tại EPFL muốn đưa nó vào mô hình ngôn ngữ.
Nhóm nghiên cứu do Philippe Schwaller dẫn đầu đã công bố một bài báo trên tạp chí Matter trong tuần này, mô tả Synthegy — một framework sử dụng các mô hình ngôn ngữ lớn như “bộ máy suy luận” cho việc lập kế hoạch tổng hợp hóa học.
Điểm cốt lõi nhưng rất quan trọng nằm ở chỗ: thay vì yêu cầu AI tạo ra các phân tử, nhóm nghiên cứu sử dụng AI để đánh giá các lộ trình tổng hợp mà phần mềm truyền thống đã tạo sẵn.
Cách hoạt động như sau: Một nhà hóa học nhập mục tiêu bằng ngôn ngữ tự nhiên, ví dụ như “hình thành vòng pyrimidine ở giai đoạn đầu.” Các phần mềm retrosynthesis hiện có — vốn hoạt động bằng cách phân tách phân tử mục tiêu thành các thành phần đơn giản hơn — sau đó sẽ tạo ra hàng chục hoặc hàng trăm lộ trình tổng hợp khả thi.
Synthegy sẽ chuyển từng lộ trình thành văn bản rồi đưa cho LLM, mô hình này sẽ chấm điểm từng lộ trình dựa trên mức độ phù hợp với yêu cầu của nhà hóa học. Những phương án tốt nhất sẽ được đưa lên đầu danh sách, kèm theo giải thích bằng văn bản về lý do tại sao chúng được chọn.

“Khi tạo công cụ cho các nhà hóa học, giao diện người dùng là yếu tố rất quan trọng, trong khi các công cụ trước đây phụ thuộc quá nhiều vào các bộ lọc và quy tắc phức tạp,” Andres M. Bran, tác giả chính của nghiên cứu, cho biết trong một tuyên bố từ EPFL.
Hệ thống đã được kiểm chứng thông qua một nghiên cứu mù đôi với sự tham gia của 36 nhà hóa học độc lập, những người đã đánh giá 368 cặp lộ trình tổng hợp. Các lựa chọn của họ trùng khớp với đánh giá của Synthegy trong 71,2% trường hợp — một tỷ lệ gần tương đương với mức độ đồng thuận giữa các chuyên gia hóa học với nhau.
Các nhà nghiên cứu cấp cao (giáo sư và nhà khoa học nghiên cứu) có xu hướng đồng ý với Synthegy nhiều hơn so với các nghiên cứu sinh tiến sĩ, cho thấy hệ thống này đang nắm bắt được những trực giác chiến lược tương tự như kinh nghiệm thực tế của các chuyên gia.
Nhóm nghiên cứu đã thử nghiệm nhiều mô hình AI khác nhau, bao gồm GPT-4o, Claude và DeepSeek-R1. AI đã được ứng dụng trong khám phá thuốc trong nhiều năm qua, nhưng phần lớn các phương pháp trước đây tập trung vào các mô hình được huấn luyện chuyên biệt cho từng tác vụ cụ thể.
Synthegy được thiết kế theo hướng mô-đun, nghĩa là có thể kết nối với bất kỳ công cụ retrosynthesis nào ở backend và bất kỳ LLM đủ năng lực nào ở phía suy luận. Gemini 2.5 Pro đạt điểm cao nhất trong bài benchmark, trong khi DeepSeek-R1 nổi lên như một lựa chọn mã nguồn mở mạnh mẽ có thể chạy cục bộ.
Framework này cũng giải quyết một vấn đề thứ hai: diễn giải cơ chế phản ứng hóa học. Đây là câu hỏi về lý do tại sao một phản ứng hóa học xảy ra — các electron di chuyển như thế nào ở từng bước. Synthegy chia phản ứng thành các chuyển động cơ bản rồi để LLM đánh giá mức độ hợp lý về mặt hóa học của từng bước phản ứng. Với các phản ứng đơn giản như phản ứng thế nucleophin, những mô hình tốt nhất đạt độ chính xác gần như tuyệt đối.
Các trường hợp ứng dụng tiềm năng của công nghệ này là rất rộng. Khám phá thuốc là lĩnh vực dễ thấy nhất. AI đã cho thấy nhiều tiềm năng trong việc dự đoán kết quả điều trị ung thư, nhưng cách tiếp cận tương tự cũng có thể áp dụng ở bất kỳ lĩnh vực nào mà các nhà hóa học cần thiết kế vật liệu mới hoặc tối ưu hóa các phản ứng công nghiệp.
Một chi tiết thực tế đáng chú ý: việc đánh giá 60 lộ trình tổng hợp bằng Synthegy mất khoảng 12 phút và tiêu tốn khoảng 2–3 USD phí API.

Bài nghiên cứu cũng thừa nhận những hạn chế hiện tại. Các mô hình LLM đôi khi hiểu sai chiều của phản ứng trong phần biểu diễn bằng văn bản, dẫn đến đánh giá sai về tính khả thi. Những mô hình nhỏ hơn có hiệu suất không tốt hơn việc đoán ngẫu nhiên. Ngoài ra, các lộ trình tổng hợp dài hơn 20 bước cũng khó được theo dõi một cách nhất quán.
Mã nguồn và bộ benchmark hiện đã được công khai tại github.com/schwallergroup/steer.
Bản tin Daily Debrief
Bắt đầu mỗi ngày với những tin tức nổi bật nhất hiện tại, cùng các bài viết chuyên sâu, podcast, video và nhiều nội dung khác.