Phép kiểm đơn giản đến ngạc nhiên để kiểm tra lỗi trong các bài báo khoa học

  • Chi tiết bài viết
  • Bài viết liên quan

Nhiều nhà thống kê học phải thốt lên rằng, “Làm sao mình lại ngốc đến nỗi không thể nghĩ ra nó cơ chứ!” giống như Thomas Huxley đã từng làm khi ông đọc lý thuyết về chọn lọc tự nhiên (natural selection). Phép kiểm GRIM, viết tắt của granularity-related inconsistency of means (tạm dịch – tính không thống nhất của các giá trị trung bình liên quan đến granularity), là một phương pháp đơn giản để kiểm tra kết quả các nghiên cứu tâm lý học với ít hơn 100 đối tượng nghiên cứu (participants) là chính xác hay không, kể cả về mặt nguyên lý. Phép kiểm này vừa được công bố trên tạp chí bình duyệt ngang hàng PeerJ Preprints bở Nicholas Brown, trường University Medical Centre Groningen, Hà Lan, và James Heathers, trường Poznan University of Medical Sciences, Ba Lan.

Để hiểu phép kiểm GRIM, xem xét một thí nghiệm trong đó đối tượng nghiên cứu được yêu cầu đánh giá một cái gì đó (ví dụ như tính thân thiện của người khác) trong thang đo số nguyên (integer) từ 1 tới 7. Bài báo cho rằng có 49 đối tượng nghiên cứu và giá trị trung bình của các đánh giá là 5.93.  Có vẻ như phép nhân của các số này cho ra một số nguyên, bởi vì phép tính trung bình là lấy một số nguyên chia cho một số khác. Nếu tích số không phải là một số nguyên (trong ví dụ này, tích số là 290.57), nghĩa là có điều gì đó có vẻ sai.

Mặc dù vậy, có một vết nhăn cần chú ý. Thông thường, giá trị trung bình khi được xuất bản thường được làm tròn 2 số thập phân để tiện nhìn. Việc làm tròn này sẽ làm ảnh hưởng tới việc liệu tích số của giá trị trung bình và cỡ mẫu (sample size) có là một số nguyên hay không. Phép kiểm GRIM giải quyết vấn đề bằng cách làm tròn chính tích số thành một số gần với số nguyên (trong ví dụ là 291), tức là kết quả đáng nhẽ ra phải có nếu các số gốc là chính xác và giá trị trung bình không được làm tròn. Tích số được làm tròn ấy lại được chia cho cỡ mẫu và kết quả của phép tính được làm tròn tới 2 số thập phân. Nếu số này không chính xác bằng với giá trị trung bình gốc (và nó không bằng, vì trong ví dụ nó là 5.94), như vậy hoặc là giá trị trung bình ban đầu hoặc là cỡ mẫu đã không chính xác. 

Khi Brown và Healthers thử nghiệm phương pháp của họ trên 71 bài báo của ba tạp chí tâm lý học hàng đầu trong vòng 5 năm trở lại đây, hơn một nữa trong số đó không vượt qua được phép kiểm. Trong số đó, 16 bài chứa nhiều hơn 1 lỗi. Các nhà nghiên cứu liên lạc các tác giả của số bài báo này, cũng như với 5 tác giả khác mà các lỗi đơn trong bài báo trông có vẻ xuất sắc (egregious) một các đặt biệt, và yều cầu dữ liệu gốc từ họ. Chỉ có 9 nhóm là cung cấp dữ liệu, và quả thật các dữ liệu đúng là có chứa lỗi. 

Các lỗi sai được chọn ra trông có vẻ như là tai nạn ngoài ý muốn. Hầu hết là do gõ máy sai (typo) hoặc kết hợp nhầm các bảng tính (spreadsheet) trong phép tính. Tuy nhiên, có ba trường hợp gặp lỗi nghiêm trọng đủ để thay đổi kết luận của bài báo.

Kết quả đó cùng với 12 bài báo không liên lạc được gióng lên một hồi chuông cảnh báo. Với phép kiểm GRIM này, hy vọng rằng các nhà nghiên cứu sẽ cẩn thận hơn và cởi mở hơn trong việc công bố khoa học.

Huy Vũ (chuyển ngữ)

Bài báo:

  1. Come again? A surprisingly simple test to check research papers for errors. The Economist. June 18, 2016. 

Xin Mời Quý Độc Giả bỏ ra 2 – 5 phút để làm một khảo sát mức độ hài lòng về bài viết của IBSG tại đây. IBSG xin chân thành cảm ơn Quý độc giả.

Ý Kiến Độc Giả:

Nhóm nghiên cứu: