(A. proteomics), môn khoa học mới nghiên cứu sản phẩm của genome hay chính là tập hợp các protein được biểu hiện trong tế bào, mô hoặc cơ thể trong những điều kiện và thời gian xác định.
Marc Wilkins là người đầu tiên đưa ra khái niệm proteome (hệ protein) là bổ trợ của genome (bộ/hệ gen). Đây cũng chính là thời điểm đánh dấu một thời kỳ phát triển mới, rất mạnh mẽ, cả về chiều rộng lẫn chiều sâu của các môn khoa học về sự sống. Mặc dù còn phải giải quyết rất nhiều những vướng mắc về các kỹ thuật hoá sinh protein, các nhà khoa học đã bắt đầu không chỉ bàn bạc, mà còn tiến hành thực hiện một chương trình nghiên cứu hậu genome, trong đó có Dự án Hệ protein Người (Human Proteome Project, HPP. Proteomics thật sự đã làm thay đổi rất nhiều trong hiểu biết của chúng ta trong khoa học sự sống và các ngành liên quan. Nhờ có các khái niệm và hiểu biết mới về proteomics, sự sống của các phiên bản genome tĩnh lặng đã thật sự trở thành những proteome năng động.
Nếu proteome được coi là tập hợp các protein được mã hoá và biểu hiện bởi genome, trong đó genome bao hàm toàn bộ các gen trong một cơ thể, thì genomics là khoa học nghiên cứu genome còn proteomics là khoa học nghiên cứu proteome. Như vậy, sẽ có thể có rất nhiều bộ/hệ protein (proteome) được mã hoá bởi một bộ gen. Các ví dụ minh chứng rõ nhất cho khái niệm trên chính là sự thay đổi vòng đời của nhiều loại côn trùng, ký sinh trùng, vi sinh vật, cũng như sự phát triển của nhiều loài sinh vật khác (H1).
Proteomics bao gồm những nghiên cứu có tính hệ thống nhằm cung cấp những kiến thức tổng quan về cấu trúc, chức năng của protein và vai trò của chúng trong điều hoà hoạt động của các hệ sinh học. Những cải tiến về trang thiết bị và phương pháp hiện nay đã cho phép mở rộng phạm vi nghiên cứu từ phân tích hoá sinh các protein đơn lẻ đến việc nhận dạng và xác định những phức hợp protein. Cũng chính vì vậy, proteomics đang trở thành một trong những bộ môn quan trọng nhất của trong khoa học sự sống và công nghệ sinh học. Cùng với những tiến bộ của ngành tin-sinh học (bioinformatics), những nghiên cứu về proteomics đối với các hệ sinh học đang có những đóng góp cơ bản đối với sự hiểu biết của chúng ta về kiểu hình của các tế bào ở các trạng thái bình thường và bệnh lý.
Hình 1. Ví dụ về mối liên quan giữa hệ gen (genome) và hệ protein (proteome).
Sơ đồ mô tả vòng đời của côn trùng với cùng một hệ gen nhưng được biểu hiện bằng nhiều hệ protein khác nhau theo các giai đoạn phát triển (biệt hóa) và thời gian sống.
Hiện đang có rất nhiều các hệ thiết bị và hoá chất được sản xuất chuyên dụng cho những nghiên cứu về biểu hiện protein và xác định protein/proteome. Việc nghiên cứu proteome-tập hợp các protein được biểu hiện bổ trợ của hệ gen và cũng là của một mô hay một kiểu tế bào, sẽ giúp thu được những thông tin bổ sung hữu ích cho những kiến thức mới hỗ trợ cho những nghiên cứu chẩn đoán và điều trị lâm sàng. Những nghiên cứu về tương tác protein-protein đã được cách mạng hoá bằng việc phát triển những kỹ thuật về ProteinChip array. Cũng tương tự như DNA microarray, những biochip như vậy được tạo ra (in) bằng các loại protein khác nhau (ví dụ như kháng thể, thụ thể...), sau đó được lai với hỗn hợp các protein. Kết quả của các tương tác protein-protein có thể được phát hiện bằng các hình ảnh huỳnh quang, phóng xạ hoặc phổ khối. Các phương pháp xác định bằng cách bắt giữ protein cũng được sử dụng với array, bao gồm cả hệ lai nấm men, tách phức hệ các protein với protein bằng sắc ký ái lực hoặc các kỹ thuật tách chiết khác.
Thách thức chính hiện nay đối với những nhà sinh vật học là sử dụng sự phong phú về thông tin di truyền sẵn có từ chương trình xác định trình tự gen không phải chỉ để giải mã trình tự các axít amin của những protein được mã hóa mà còn là xác định những chức năng của chúng. Cách tiếp cận hiện nay là tìm kiếm sự giống nhau qua các chương trình, phần mềm chuyên dụng đối với những protein có chức năng đã biết. Những kết quả thu được cho phép suy diễn về những chức năng có thể có và sau đó được thăm dò bằng thực nghiệm. Cũng chính vì vậy, nhiệm vụ tiếp theo sau giải mã genome là phải làm sáng tỏ cấu trúc ba chiều của các protein chưa biết bằng các kỹ thuật tinh thể tia X và cộng hưởng từ hạt nhân sau khi chúng đã được biểu hiện và tinh sạch. Những phương pháp này có thể cho phép dự đoán cơ chế xúc tác, tương tác protein-protein, hoặc protein-DNA/RNA, cung cấp sự hiểu biết thấu đáo hơn về chức năng. Có rất nhiều nhân tố có ảnh hưởng đến gen, sự biểu hiện của protein và cả trực tiếp đến protein. Trong số các nhân tố này phải kể đến những nhân tố về môi trường và tế bào như pH, sự giảm oxi của không khí, quy cách điều trị bằng thuốc. Tương tự như vậy, vì thông tin giữa gen và protein là hai chiều, kiểu hình (phenotype) của tế bào bị ảnh hưởng bởi những tương tác của các quá trình chuyển hoá được điều chỉnh một cách thống nhất bên trong tế bào. Tuy nhiên, không có hiệu ứng nào, kể cả cơ sở sinh học của những quá trình đa gen như sự lão hoá, sự căng thẳng, và bệnh tật, có thể được xác định chỉ đơn thuần qua kiểm tra hệ gen4. Để có thể hiểu rõ hơn vai trò có thể của các gen, đặc biệt trong quá trình gây bệnh, đã có rất nhiều các kết quả thu được từ những kỹ thuật khác nhau như DNA microarray, một kỹ thuật ngày càng được sử dụng nhiều để biểu thị sự khác biệt của mRNA giữa các trạng thái bình thường và bệnh lý.
Cũng có một số lý do hấp dẫn khác để bổ sung những nghiên cứu này từ viễn cảnh có thể cung cấp những thông tin cả về định tính và định lượng về sự biểu hiện gen. Protein là đầu ra về chức năng của tế bào và do đó có thể cho biết những thông tin thích đáng nhất, đặc biệt khi giải thích về sự biểu hiện của chúng có tính đến động học trong ngữ cảnh sinh học đặc biệt. Sự biểu hiện hoặc chức năng của protein được điều hoà ở tại nhiều thời điểm, từ phiên mã đến dịch mã. Các quá trình này, nói chung đều không thể dự đoán được từ kết quả phân tích trình tự gen. Người ta cũng đã thấy rằng, hầu như không có sự tương quan chặt chẽ giữa số lượng của mRNA và protein tương ứng được dịch mã từ chính mRNA đó6,7. Bản sao (transcript) có thể được nối ghép và tổ hợp theo nhiều cách tạo nên nhiều dạng protein khác nhau. Sau dịch mã, đa phần các phân tử protein lại bị cải biến bởi các tương tác protein-protein hay các phản ứng với các nhóm carbohydrate, phosphate... Chính những cải biến sau dịch mã này (post-translational modifications, PTMs) đóng vai trò chủ yếu trong kích hoạt chức năng của nhiều protein chứ không phải được mã hoá trực tiếp từ gen. Kết quả là từ một gen ban đầu ta có thể tìm thấy sự đa dạng về biểu hiện, cấu trúc và chức năng của rất nhiều loại protein khác nhau8,9. Ở các cơ thể khác nhau, mức độ đa dạng này cũng khác nhau. Những nghiên cứu sơ bộ cho thấy, từ một gen có thể phát sinh từ một tới hai protein trong vi khuẩn, ba trong nấm men, và tới hơn sáu loại ở người. Trên cơ sở số gen đã phát hiện và các khả năng biến đổi sau dịch mã, người ta cũng đã ước tính trong cơ thể người có tới hơn nửa triệu protein cần được nghiên cứu. Từ sự phân tích trên ta có thể thấy, mặc dù proteome là bổ trợ của genome, đây vẫn là hai khái niệm khác nhau cả về không gian và thời gian. Khi trình tự của gen không thể cho biết các thông tin về các biến đổi sau phiên mã có ảnh hưởng và quyết định đến chức năng và hoạt tính của protein thì mức độ biểu hiện gen không thể phản ánh đúng về số lượng protein có hoạt tính trong tế bào.
Thực ra cũng chỉ có khoảng 2% số bệnh tật đã biết được xác định là do có các sai lệch về trình tự gen, hay còn được coi là monogenic, 98 % số bệnh còn lại cần được làm sáng tỏ ở mức tương tác giữa các protein, hay còn gọi là mạng lưới protein (protein network). Bài toán đặc biệt quan trọng này của proteomics sẽ bao gồm cả việc xác định các PTMs và vai trò của chúng trong các quá trình điều hòa và tương tác protein-protein.
Nghiên cứu về proteome chính là nghiên cứu trực tiếp về chức năng của genome, và do đó có thể trả lời được các câu hỏi sau: 1) phần nào của genome được biểu hiện; 2) ở đâu, khi nào và có bao nhiêu sản phẩm được biểu hiện; 3) các sản phẩm protein bị biến đổi như thế nào và 4) các sản phẩm có những tương tác gì và kết quả của những tương tác này là gì. Bộ gen là tập hợp các thông tin mã hoá và chỉ dẫn cho quá trình tạo ra các protein, còn proteome thì phức tạp hơn nhiều. Dựa trên sự phân loại các vùng (domain) có liên quan đến các chức năng của các protein, Venter và các cộng sự đã tiến hành dự đoán và phân chia tỷ lệ của các sản phẩm protein có thể có từ hệ gen người. Cho đến nay chưa thể xác định chính xác liệu có bao nhiêu loại protein có thể có trong mỗi tế bào người. Những công bố gần đây nhất cho thấy, đã có thể xác định và chú giải cho 21 037 trình tự protein từ bộ gen người.
Cùng với sự phát triển của các kỹ thuật proteomics, ngày càng có thêm nhiều các loại protein được nhận dạng và xác định, bổ trợ cho các trình tự đã công bố của bộ gen người. Ví dụ, trong huyết thanh người, nếu như năm 2002 chỉ mới phát hiện được 490 loại protein khác nhau thì những công bố năm 2004 cho thấy con số này đã là 1.444. Năm 2005, theo kết quả xác định và so sánh của 35 phòng thí nghiệm trong dự án proteome huyết tương người của HUPO, con số này đã có thể là 3020.
Lượng thông tin phong phú do các nghiên cứu về proteome đem lại hoàn toàn bổ trợ cho những thông tin di truyền từ những nghiên cứu về genome. Proteomics sẽ là cơ sở cho sự phát triển của genomics chức năng. Sự phối hợp giữa proteomics và genomics sẽ đóng vai trò chủ đạo trong những nghiên cứu về sinh-y học, là nền tảng cho sự phát triển các sản phẩm chẩn đoán và chữa bệnh trong tương lai.
Tài liệu tham khảo:
1. Marc Wilkins, Proteomics data mining. Expert review of proteomics. England. 2009
2. Mocellin S, Rossi CR, Traldi P, Nitti D, Lise M, Molecular oncology in the post-genomic era: the challenge of proteomics, Trends Mol Med, 2004
3. Banks RE, Dunn MJ, Hochsrasser DF, Sachez JC, Blackstock B, Pappin DJ & Selby PJ, Proteomics: new perspectives, new biomedical opportunities, Lancet, 2003
4. Hanash S, Disease proteomics. Nature , 2003
5. Anderson NL, & Anderson NG, The human plasma proteome: history, character, and diagnostic prospects, Mol Cell Proteomics, 2002
6. Merrick BA, Zhou W, Martin KJ, Jeyarajah S, Parker CE, Selkirk JK, Tomer KB, Borchers CH. Site-specific phosphorylation of human p53 protein determined by mass spectrometry, Biochemistry, 2001
7. MacDonald JA, Mackey AJ, Pearson WR & Haystead TA. A strategy for the rapid identification of phosphorylation sites in the phosphoproteome. Mol Cell Proteomics, 2001
8. Eisenstein E, Gilliland GL, Herzberg O, Moult J, Orban J, Poljak RJ, Banerjei L, Richardson D, Howard AJ, Biological function made crystal clear: annotation of hypothetical proteins via structural genomics. Curr Opin Biotechnol, 2000
9. Anderson L, Seilhamer J. A comparison of selected mRNA and protein abundances in human liver, Electrophoresis, 1997
10. Wilkins MR, Sanchez JC, Gooley AA, Appel RD, Humphery-Smith I, Hochstrasser DF, Williams KL, Progress with proteome projects: why all proteins expressed by a genome should be identified and how to do it. Biotechnol Genet Eng Rev, 1996