Một nhóm nghiên cứu ở Thượng Hải mới công bố một bài báo khoa học [1] cho rằng SARS-Cov-2 aka virus Vũ Hán có nguồn gốc từ ... Ấn Độ ! Hay chưa ?
Ông Tập sẽ hân hoan chào đón kết quả này. Ông Trump sẽ giơ tay lên trời và văng tục "What the hell?" và sẽ tham vấn các giáo sư Mỹ. Ông thủ tướng Úc của tôi sẽ gãi đầu nói "Sao nó nói Úc cũng là nguồn gốc virus này cà?"
Nhưng trước khi chấp nhận kết quả của họ, chúng ta phải tìm hiểu xem cách họ nghiên cứu ra sao.
Họ làm nghiên cứu cũng đơn giản, vì toàn sử dụng dữ liệu của người khác. Họ download tất cả 4.571 bộ gen của SARS-Cov-2 từ 17 quốc gia về máy tính (dữ liệu này có trên thư viện của Mỹ).
Họ dựa vào cái sequence / strain NC_045512 và tính toán tỉ lệ đột biến cho mỗi nước. Giả định đằng sau là nơi nào có tỉ lệ đột biến thấp thì đó có thể là nguồn gốc của virus. Rồi sau đó họ dùng phương pháp Chi squared test để so sánh giữa giá trị quan sát và kỳ vọng, và hễ P < 0.05 thì họ sẽ nói "voila !"
Với giả định và cách làm đó, họ phát hiện những nơi có đột biến thấp là: Ấn Độ, Bangladesh, Saudi Arabia, và Mỹ. Có Úc nữa, nhưng P > 0.05. Họ lýgiải rằng vì Ấn Độ và Bangladesh gần nhau, nên virus có nguồn gốc từ vùng này là khả tín. Họ còn đoán rằng virus đã hoành hành ở đây từ tháng 7 hay 8, 2019 ! Wow !
Người ngoài khoa học và không am hiểu về genetics thì có lẽ khen tác giả làm hay. Nhưng người biết genetics thì sẽ thấy ngay tác giả phạm phải sai lầm. Tôi có thể chỉ ra 5 sai lầm chánh trong nghiên cứu này:
Sai lầm 1: Tác giả chỉ có bộ gen virus của 17 nước, và các bộ gen này cũng được chọn rất ư là chọn lọc (không ngẫu nhiên), thì làm sao nói được nguồn gốc. Họ không có bộ gen từ (ví dụ như) Việt Nam, Phi châu, Âu châu, v.v…thì làm sao dám nói nơi nào là nơi xuất phát. Sai lầm cơ bản.
Sai lầm 2: Mỗi nước có cỡ mẫu (số genome) rất khác nhau. Chưa hết, họ chỉ chọn những bộ nào có 29K nucleotide trở lên, tức là bỏ qua các đột biến có thể hiếm ! Như vậy không thể nói về nguồn gốc từ cái 'selection bias' như vậy.
Sai lầm 3: Tác giả chỉ chọn 1 sequence NC_045512 để tính toán cũng là một bias. Có hàng ngàn sequence, và nếu 1 sequence có ý nghĩa thống kê thì điều đó vẫn có thể là dương tính giả, chớ không phải thật. Dùng ngưỡng P < 0.05 trong bối cảnh này là quá 'simplistic'. Sai lầm này khó nhận ra, nhưng rất quan trọng.
Sai lầm 4: Tác giả dùng kiểm định Ki bình phương, nhưng vấn đề là cách tính giá trị kỳ vọng lệ thuộc vào data chớ không phải theory, và do đó kết luận cũng sai. Cái sai quan trọng hơn nữa là tác giả không phân tích sự khác biệt giữa các nước (between-country) mà chỉ tập trung vào mỗi nước (within-country) và do đó làm bias phương sai và trị số P.
Sai lầm 5: Tác giả nhắm mắt trước các dữ liệu dịch tễ học rõ ràng chỉ về phía Tàu là nguồn gốc. Đây là loại confirmation bias, vì nó phù hợp với giả thuyết của tác giả.
Các chuyên gia virology khác cũng nói nghiên cứu này 'flawed' [2] nhưng họ tập trung vào việc dùng software sai và phylogenetics.
Do đó, tôi nghĩ kết luận của tác giả sai vì phương pháp chọn bộ gen thiếu hệ thống và phương pháp phân tích sai. Đây là một ca tiêu biểu về nghiên cứu Covid-19 có phẩm chất thấp, và chỉ gây nhiễu, chớ chẳng đóng góp gì cho khoa học.
Tóm lại, chưa có bằng chứng gì để nói virus Vũ Hán xuất phát từ Ấn Độ, nhưng ai cũng biết nó xuất hiện đầu tiên ở Vũ Hán.
GSNGUYỄN VĂN TUẤN 28.11.2020
[1] The Early CrypticTransmission and Evolution of SARS-CoV-2 in Human Hosts
[2] Coronavirus was on manycontinents before Wuhan outbreak, Chinese team says
Aucun commentaire:
Enregistrer un commentaire
Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.