Công cụ tìm kiếm các trình tự tương đồng (BLAST)

  • Chi tiết bài viết
  • Bài viết liên quan

Trong nghiên cứu khoa học sự sống, việc tìm kiếm và so sánh trình tự gen hoặc protein giữa các sinh vật là vô cùng quan trọng, để tìm kiếm các gen/ protein tương tự như trình tự đã biết. Việc tìm kiếm này cho phép nhà khoa học suy đoán chức năng của gen mới, dự đoán các thành viên mới của một họ gen, tìm ra mối quan hệ tiến hóa, hay tìm ra sự phân bố và chức năng của các vùng phiên mã hoặc mã hóa cho protein trong hệ gen thông qua việc tìm kiếm sự tương đồng của các trình tự của các hệ gen đã được giải trình tự.

BLAST (Basic Local Alignment Search Tool) là một công cụ tìm kiếm trình tự tương đồng phổ biến trong đó cung cấp các biến khác nhau cho các trình tự được đưa và đối với từng cơ sở dữ liệu khác nhau. Bài này sẽ tập trung vào tìm hiểu cách BLAST hoạt động và đưa ra kết quả.

Phần lớn người dùng sẽ đưa vào BLAST một trình tự nucleotide hoặc protein thông qua textbox để phân tích dựa trên tất cả (hoặc một phần) của các trình tự đã công bố. Nếu người dùng sử dụng công cụ BLAST trên NCBI (National Center for Biotechnology Information), dữ liệu này được chuyển đến xử lí tại máy chủ và cơ sở dữ liệu của NCBI sau đó thông tin sẽ được trả về trình duyệt của người sử dụng theo định dạng hiển thị đã lựa chọn. Tuy nhiên, người dùng cũng có thể cài đặt một phiên bản BLAST độc lập riêng để phân tích cơ sở dữ liệu cục bộ hoặc tùy chỉnh BLAST để phù hợp hơn với nhu cầu của họ. BLAST có sẵn nhiều dạng khác nhau để so sánh các trình tự khác nhau ví dụ như phân tích DNA với cơ sở dữ liệu DNA, phân tích protein với cơ sở dữ liệu protein. Kết quả đưa ra được mặc định hiển thị tại trang web BLAST hoặc các file kết quả dạng XML hoặc ASN được lựa chọn để tối ưu cho ứng dụng.

1-3
Giao diện công cụ BLAST trên NCBI (http://www.ncbi.nlm.nih.gov/Blast.cgi)

Thuật toán BLAST là phương pháp kinh nghiệm, dựa trên một số lối tắt thông minh để thực hiện tìm kiếm nhanh hơn. BLAST giúp sắp xếp cục bộ, ví dụ như các protein thường có dạng module với các domain chức năng được lặp lại ở các protein tương tự cũng như khác nhau ở các loài khác nhau hoặc một mRNA có thể được so sánh trình tự với một phần của DNA hệ gene. Do đó, BLAST cố gắng tìm kiếm các trình tự có sự tương đồng của các domain và motif. Khi một trình tự truy vấn được đưa vào, BLAST sẽ tạo ra một bảng gồm các “từ” (trình tự ngắn) và “từ lân cận” (từ tương đồng với trình tự truy vấn) để tìm kiếm. Khi quét được một kết quả tương tự, nó sẽ được sử dụng để bắt đầu tìm các phần mở rộng chứa gap hoặc không chứa gap của “từ” đó. Các flatfile của cơ sở dữ liệu cũng được chia thành hai file trong đó một chứa thông tin tiêu đề và một chỉ chứa trình tự. Khi chạy ở chế độ độc lập, dữ liệu có thể được gộp lại. Khi thuật toán đã quét tất cả các “từ” và phần mở rộng tối đa, nó tập hợp tất cả các sắp xếp cặp tối ưu nhất vào cấu trúc dữ liệu SeqAlign chứa đường dẫn tới các trình tự trong cơ sở dữ liệu BLAST. Các kết quả được hiển thị theo nhiều cách khác nhau.

Kết quả đưa ra sẽ được đưa ra dưới nhiều dạng cấu trúc tùy theo mục đích của người sử dụng trong đó phổ biến nhất là dạng truyền thống và dạng bảng kết quả. Ngoài ra, dạng thứ 3 đưa ra các cấu trúc đầu ra như XML hay ASN.1 có tích hợp chức năng kiểm tra và hoàn thiện các sai sót cú pháp trong quá trình phân tích khi người dung thay đổi hoặc thêm các chức năng, và dạng cuối cùng là dạng mã BLAST được sử dụng cho các công cụ kiểm kê sẽ được sử dụng cho các mục đích đặc biệt của người sử dụng.

Dạng truyền thống: đưa ra một cách tổng quát các kết quả tìm kiếm.
2
Đồ thị tổng quát. Đưa ra một cách khái quát mức độ bắt cặp tại từng vùng trong trình tự của bạn. Màu đỏ, xanh lục, cam: vùng mức độ bắt cặp tốt; màu xám: vùng mức độ bắt cặp trung bình; màu xanh dương: vùng mức độ bắt cặp kém.
3
Các kết quả tìm kiếm. Bao gồm thông tin rút gọn và các giá trị bắt cặp nằm trên cùng 1 dòng.

Bit score: là điểm bắt cặp sau khi đã được normalize để có thể so sánh kết quả giữa các lần phân tích và phép phân tích khác nhau, do điểm bắt cặp được chỉ định của các ma trận khác nhau là khác nhau.

E-value: giá trị mong đợi, E-value càng nhỏ kết quả càng có ý nghĩa thống kê.
4
Kết quả sắp xếp bắt cặp trình tự: kết quả chi tiết của từng trình tự tương đồng.
Dạng bảng
5
Đối với các nghiên cứu cần chạy BLAST cho mục đích đặc biệt và chỉ cần một tập hợp con các thông tin của báo cáo dạng truyền thống. Các báo cáo định dạng bảng kết quả không chứa trình tự mà chỉ đưa ra các thông tin cần thiết theo một cấu trúc rõ ràng hơn như điểm bắt đầu, kết thúc, phần trăm xác định, bit score và E-value.

Tổng hợp: Nguyễn Đức Hiếu

Hướng dẫn khoa học: TS. Triệu Anh Trung

Biên Tập: Vũ Đình Chất

Ý Kiến Độc Giả:

Nhóm nghiên cứu: