Nhóm các nhà Tin Sinh học dẫn đầu bởi Tiến sĩ Johannes Soding, làm việc tại Trung tâm gene, Đại học Ludwig Maximilian Munich, Đức, đã phát triển một phương pháp tìm kiếm mới (sử dụng phần mềm HHblits) để so sánh trình tự của các protein với các trình tự tương tự trong cơ sở dữ liệu công cộng: nhanh hơn và khám phá nhiều gấp hai lần những dấu hiệu tiến hóa liên quan đến protein so với các phương pháp trước đây; liệt kê các thuộc tính của các protein (thông qua phân tích chức năng và cấu trúc của protein).
Phương pháp tìm kiếm mới (sử dụng phần mềm HHblits) này sẽ được ứng dụng trong các thử nghiệm phân tích về cấu trúc và chức năng của nhiều protein.
Protein tham gia trong gần như tất cả các quá trình hóa sinh của cuộc sống. Các chức năng mà một protein thực hiện phần lớn phụ thuộc vào trình tự của khối xây dựng của 20 axit amin (amino acid) và cấu trúc không gian ba chiều của các chuỗi axit amin nếp gấp. Từ các đặc điểm tương đồng của các chuỗi protein, các phương pháp tin sinh học có thể dự đoán mối liên quan tiến hóa của các protein, với cấu trúc và chức năng tương tự.
Điều này có nghĩa là trình tự của protein cần nghiên cứu sẽ được so sánh với hàng triệu các trình tự protein (bằng cách sắp xếp theo từng đôi) trong cơ sở dữ liệu công cộng (với cấu trúc và chức năng được chú thích sẵn). Các mối quan hệ chung giữa trình tự và chức năng giúp cho phần mềm HHblits có thể để dự đoán cấu trúc và chức năng của một loại protein nhất định bằng cách so sánh trình tự của nó với các protein (có cùng cấu trúc và chức năng) được lưu trữ sẵn trong Cơ sở dữ liệu công cộng.
Phần mềm HHblits, vượt trội hơn so với phần mềm PSI-BLAST (vốn là công cụ phổ biến nhất trong 15 năm qua, được sử dụng cho việc so sánh trình tự protein bởi vì: tốc độ, độ nhạy và độ chính xác cao) trong tất cả các khía cạnh của hiệu suất. Đầu tiên các nhà nghiên cứu chuyển đổi trình tự protein cần phân tích và trình tự trong cơ sở dữ liệu công cộng (dựa vào thuật toán tìm kiếm Mô hình Markov ẩn (HMMs)). Thuật toán HMMs là các mô hình thống kê kết hợp các xác suất đột biến được xác định từ sự sắp xếp trình tự, do đó, bước này làm tăng độ nhạy và độ chính xác của việc tìm kiếm tương tự tiếp theo.
Ngoài ra, nhóm nghiên cứu đã phát triển một quy trình lọc, cho phép tiết giảm đáng kể số lượng dữ liệu cần phải được tìm kiếm. Bí quyết là trước khi lắp ráp trình tự protein tương tự từ cơ sở dữ liệu công cộng. Mỗi cột liên kết sau đó được dán nhãn với một trong 219 “chữ cái”, (tức là cột với thành phần axit amin (amino acid) tương tự sẽ được đại diện bởi cùng một ký tự). “Bằng cách dịch các trình tự protein đã sắp xếp vào chuỗi gồm 219 ký tự, chúng ta có thể luân phiên so sánh từng đôi protein. Điều này giúp tiết giảm thời gian tìm kiếm đến 2500 lần”. Bên cạnh đó, các nhà nghiên cứu cũng kết hợp thông tin về các cấu trúc ba chiều của protein.
Theo Hồ Duy Bình (en.uni-muenchen.de)