TỐI ƯU HÓA DỰ ĐOÁN TƯƠNG TÁC PROTEIN-PROTEIN TỪ BIỂU DIỄN NGÔN NGỮ THÔNG QUA CƠ CHẾ CHỌN LỌC ĐẶC TRƯNG ĐA GIAI ĐOẠN VÀ HỌC MÁY XẾP CHỒNG

Tóm tắt

Tương tác protein–protein (PPI) là nền tảng của nhiều hoạt động sinh học bên trong tế bào, và việc dự đoán PPI trực tiếp từ chuỗi axit amin vẫn đang là một hướng nghiên cứu cốt lõi trong sinh học tính toán. Sự ra đời của các mô hình ngôn ngữ protein thế hệ mới như ESM-2 cho phép tạo ra các biểu diễn chuỗi giàu thông tin tiến hóa và tín hiệu cấu trúc tiềm ẩn. Tuy nhiên, các biểu diễn này thường sở hữu số chiều rất lớn với độ nhiễu và tính tương quan nội tại cao. Điều này gây trở ngại cho các mô hình học máy truyền thống trong việc khai thác đặc trưng và dễ rơi vào tình trạng quá khớp. Thách thức này đòi hỏi một phương pháp tiếp cận có khả năng sàng lọc tri thức, loại bỏ sự dư thừa dữ liệu trong khi vẫn bảo toàn các tín hiệu sinh học cốt lõi. Trong công trình này, chúng tôi đề xuất E–StackPPI (Embedding-Stacking Protein-Protein Interaction prediction framework), một khung dự đoán PPI sử dụng hoàn toàn biểu diễn nhúng, trong đó trọng tâm là cơ chế chọn lọc đặc trưng theo tầng, gồm ba bước được áp dụng trực tiếp lên biểu diễn nhúng được tổng hợp từ lớp ẩn cuối cùng của mô hình ESM-2 650M. Cụ thể, (1) quy trình lần lượt loại bỏ các chiều có phương sai thấp; (2) giữ lại các chiều có khả năng phân biệt cao dựa trên độ quan trọng đặc trưng theo LightGBM; (3) loại trừ các chiều có tương quan Pearson lớn nhằm giảm trùng lặp thông tin. Phần đặc trưng đã qua sàng lọc được đưa vào kiến trúc xếp tầng, trong đó hai nhánh LightGBM chạy song song và cuối cùng được hợp nhất ở tầng quyết định bằng hồi quy logistic (Logistic Regression – LR). Thử nghiệm trên hai bộ dữ liệu chuẩn của cơ sở dữ liệu DIP [1] gồm DIP–Yeast và DIP–Human cho thấy E–StackPPI đạt hiệu năng ấn tượng và ổn định trên các chỉ số quan trọng bao gồm độ chính xác, hệ số MCC, cũng như các chỉ số ROC-AUC và PR-AUC. Khi đối chiếu với 12 phương pháp tiên tiến được tổng hợp trong nghiên cứu của Li và cộng sự [2], mô hình của chúng tôi thể hiện hiệu năng cạnh tranh trên cả hai bộ dữ liệu. Những kết quả này nhấn mạnh vai trò thiết yếu của cơ chế chọn lọc đặc trưng theo tầng trong việc giảm nhiễu và khai thác hiệu quả các biểu diễn nhúng PLM có số chiều rất lớn, qua đó mở ra một hướng tiếp cận khả thi và tiềm năng cho bài toán dự đoán PPI chỉ dựa trên thông tin chuỗi mà không cần bổ sung dữ liệu cấu trúc.  Tương tác protein protein; Chọn lọc đặc trưng xếp tầng; Mô hình Ngôn ngữ Protein; Mô hình xếp tầng.

https://doi.org/10.26459/hueunijtt.v134i2A.8152
Creative Commons License

công trình này được cấp phép theo phép Creative Commons Ghi công 4.0 Giấy phép International .

Bản quyền (c) 2025 Array