Sumber database GenBank

Februari 22, 2010

Berita terbaru mengenai riset dan temuan dalam bioinformatika dapat diikuti dari berbagai laporan penelitian pada journal ilmiah, mulai dari yang sifatnya umum seperti Jurnal Ilmiah Nature dan Science, hingga yang dikhususkan untuk bidang bioinformatika, seperti “Bioinformatics” yang diterbitkan oleh Oxford University Press (http://bioinformatics.oxfor djournals.org/archive/). Organisasi profesi elektronika dan informatika terbesar : IEEE dan ACM, sejak tahun 2004 juga menerbitkan “IEEE/ACM Transactions on Computational Biology and Bioinformatics”, yang mewadahi laporan perkembangan terkini dalam bioinformatika. Bioinformatika juga telah diterima oleh komunitas computer science, sehingga dalam berbagai konferensi internasional yang berkaitan dengan computer science, seperti International Joint Conference on Neural Networks (IJCNN), terdapat sesi khusus mengenai aplikasi komputasi dalam bioinformatika.

Daya tarik berbagai masalah dalam bioinformatika ini menyebabkan diangkatnya masalah tersebut sebagai tema kompetisi datamining “KDDCUP” yang diselenggarakan oleh ACM SIGKDD (ACM Special Interest Group on Knowledge Discovery and Datamining). Informasi lengkap mengenai kompetisi yang berlangsung tiap tahun ini dapat dilihat dari

http://www.acm.org/sigs/sigkdd/kddcup/index.php

KDD Cup berlangsung tiap tahun sejak 1997, dimana tiga kali diantaranya mengambil masalah dari bidang bioinformatika. Pada tahun 2001, tema yang diangkat berkaitan dengan bioinformatics & drug discovery, yaitu prediksi bioaktifitas molekul untuk pengembangan obat (drug design), prediksi fungsi gen/protein dan homologi protein.

Kompetisi ini diikuti oleh ratusan tim peneliti dari seluruh dunia. Hasil survey yang dilakukan pada peserta kompetisi memberikan informasi menarik. Pertama-tama diketahui bahwa metode yang dikembangkan oleh masing-masing peserta memiliki kemiripan, diantaranya feature selection, decision tree, k-nearest neighbour, boosting dan SVM. Hasil ini menunjukkan bahwa metode-metode tersebut memiliki potensi tinggi untuk mencapai hasil yang akurat. Dari survey itu juga diketahui bahwa kebanyakan peserta memakai customized software (perangkat lunak), yaitu program yang dibuat sendiri, bukan perangkat lunak komersial. Perangkat lunak komersial sering memiliki keterbatasan yang menyulitkan, jika eksperimen yang dilakukan tidak sesuai dengan spesifikasi perangkat lunak itu. Seperti yang terjadi pada kompetisi di atas, dimana dimensi vektor yang dianalisa pada salah satu soal berkisar 140 ribu. Data dengan karakteristik demikian tidak dapat diolah dengan perangkat lunak komersial yang tersedia, walaupun komputer yang dipakai memiliki 1G RAM. Hal ini menunjukkan pentingnya penguasaan kemampuan pemrograman, dan tidak sekadar mengandalkan perangkat lunak komersial yang ada, jika seseorang ingin terjun dalam penelitian datamining.

Beberapa senter database utama seperti pada:

  1. Genbank, dioperasikan oleh NCBI (National Center for Biotechnology Information)
    mengakomodasi semua publikasi sequences of DNA, dengan annotations (penjelasan atau catatan), yang secara konstan akan selalu berkembang dan diperbaharui. Penjelasan meliputi identifikasi suatu gen, produk gen (jika diketahui), link informasi lain yang terkait dengan sumber database lain.
    NCBI berisi informasi dari sekuens DNA yang sama dengan sekuens DNA dalam EMBL (European Molecular Biology Laboratory) dan DDBJ (DNA Data Bank of Japan)
  2. OMIM, (Online Mendelian Inheritance in Man—woman), adalah insiklopedia gen-gen manusia dan penyakit genetik, merupakan penghubung untuk entry gen pada GenBank dan literatur ilmiah pada PubMed, berisi informasi berbagai gen manusia komplit dan paling baru.
  3. PDB (Protein Data Bank) berisi semua publisitas yang ada secara eksperimen telah dideterminasi (oleh x-ray crystallography dan NMR) sebagai model structural proteins dan asam nukleat. Tidak berisi model homologi atau tipe model teoritis lainnya.
  4. PubMed
    Diskripsi pada Wikipedia sebagai “suatu kebebasan mengakses sititasi database MEDLINE dan abstrak artikel riset biomedik. Subjek utama adalah riset di bidang kedokteran, dan PubMed juga mempublikasi bidang yang terkait dengan bidang kedokteran, seperti kebidanan dan disipiin kesehtan lainnya. Hal in secara menyeIuruh mengkaver keilmuan yang berhungan dengan ilmu seperti biokemia dan biologi sel. Situs ini ditawarkan oleh the United States National Library of Medicine di the National Institutes of Health sebagai bagian dari the Entrez information retrieval system.
  5. UniProt Knowledgebase (Swiss-Prot and TrEMBL), dioperasikan oleh SIB (Swiss Institute of Bioinformatics) dan EBI (European BioinformaticsInstitute), berisi sebagian besar publikasi yang ada berupa sekuens protein (bukan DNA atau RNA). Sekuens dalam SwissProt dijelaskan secara manual dan menyediakan atau menghubungkan pengguna dengan semua informasi publisitas yang berisi sekuens tersebut. Sequences pada TrEMBL dikoleksi dan dijabarkan secara otomatis dari sekuens database, dan akan membuat jalannya menuju Swiss-Prot, tetapi tidak hanya setelah mereka secara manual menjabarkan Swiss-Prot standards.
Situs Informasi database DNA, RNA dan Protein:

  1. NCBI: http://www.ncbi.nlm.nih.gov
  2. EMBL: http://www.ebi.ac.uk
  3. DDBJ: http://www.ddbj.nig.ac.jp
  4. SWISS-PROT:www.expasy.ch/sprot/sprot_details.html
  5. ENSEMBL: http://www.ensembl.org
  6. Univeristy California Santa Cruz: genome.cse.ucsc.edu
  7. MGD the Jackson Lab: http://www.informatics.jax.org

Di Indonesia, penelitian datamining dan bioinformatika telah mulai dilakukan di berbagai lembaga penelitian seperti Lembaga Biologi Molekuler Eijkman, BPPT, LIPI maupun kalangan akademisi di berbagai perguruan tinggi. Diskusi bioinformatika dapat diikuti di mailing list Himpunan Bioinformatika Indonesia yang beralamatkan ilmukomputer-bioinformatika@yahoogroups.com.

Sedangkan komunitas datamining Indonesia memiliki mailing list di indo-dm@yahoogroups.com. Seminar dan workshop bioinformatika telah diselenggarakan beberapa kali, di LIPI, IPB dan universitas yang lain. Peserta yang hadir berasal dari latar belakang beragam, baik biologi maupun komputasi. Dalam berbagai kesempatan menghadiri seminar, maupun diskusi di mailing list, penulis melihat tingginya gairah mahasiswa maupun peneliti Indonesia di bidang bioinformatika dan datamining. Keberadaan database yang mudah diakses dari Indonesia saat ini tengah dirintis oleh tim dalam proyek Mirror Servers for Scientific Data (http://www.arsip.lipi.go.id/). Hal-hal ini merupakan signal positif. Diharapkan komunitas ini kelak berkembang pesat dan dapat berkiprah memberikan kontribusinya bagi kemajuan iptek di tanah air.

Sumber:

website-website GenBank

fatchiyah, 2009. Pengantar Bioinformatika Kedokteran, UB

Iklan

Database

Februari 22, 2010

Apa yang terjadi di Biologi, analog dengan yang terjadi di Fisika. Di Biologi juga terdapat bidang yang bersifat eksperimental (Biokimia) dan analisa (Bioinformatika, Biofisika dan Biomatematika). Selama perkembangannya, Biologi Molekuler & Biokimia telah menghasilkan data eksperimen yang berlimpah terutama mengenai penggandaan deretan himpunan gen, analisa skala besar dari ekspresi gen, dan analisa skala besar dari interaksi protein-protein.

Dampaknya, seiring dengan kemajuan teknologi informasi dan komputer, para ilmuwan mencoba untuk mengaplikasikan ilmu tersebut pada bidang Biologi dengan cara: Pertama, membuat simulasi/grafik tiga dimensi dari struktrur molekuler; Kedua, membuat database dari deretan molekuler; Ketiga, membuat informasi untuk struktrur tiga dimensi. Sehingga,  Bioinformatika secara umum dapat dipandang sebagai bidang yang mempelajari bagaimana teknologi informasi dan komputer digunakan untuk memecahkan masalah di Biologi. Selanjutnya, hasil-hasil simulasi dan database tersebut ditafsirkan dengan konsep-konsep yang terdapat di Matematika dan Fisika. Diantara konsep-konsep yang sedang ramai digunakan adalah : kalkulus, teori knot, teori graph, mekanika statistika jauh dari kesetimbangan (statistical mechanics far from equilibrium), dan integral Feynman heuristik (Heuristic Feynman Integral),

Pangkalan Data sekuens biologi dapat berupa pangkalan data primer untuk menyimpan sekuens primer asam nukleat dan protein, pangkalan data sekunder untuk menyimpan motif sekuens protein, dan pangkalan data struktur untuk menyimpan data struktur protein dan asam nukleat.

Pangkalan data utama untuk sekuens asam nukleat saat ini adalah GenBank (Amerika Serikat), EMBL (the European Molecular Biology Laboratory, Eropa), dan DDBJ (DNA Data Bank of Japan, Jepang). Ketiga pangkalan data tersebut bekerja sama dan bertukar data secara harian untuk menjaga keluasan cakupan masing-masing pangkalan data. Sumber utama data sekuens asam nukleat adalah submisi (pengumpulan) langsung dari peneliti individual, proyek sekuensing genom, dan pendaftaran paten. Selain berisi sekuens asam nukleat, entri dalam pangkalan data sekuens asam nukleat pada umumnya mengandung informasi tentang jenis asam nukleat (DNA atau RNA), nama organisme sumber asam nukleat tersebut, dan segala sesuatu yang berkaitan dengan sekuens asam nukleat tersebut.

Selain asam nukleat, beberapa contoh pangkalan data penting yang menyimpan sekuens primer protein adalah PIR (Protein Information Resource, Amerika Serikat), Swiss-Prot (Eropa), dan TrEMBL (Eropa). Ketiga pangkalan data tersebut telah digabungkan dalam UniProt, yang didanai terutama oleh Amerika Serikat. Entri dalam UniProt mengandung informasi tentang sekuens protein, nama organisme sumber protein, pustaka yang berkaitan, dan komentar yang pada umumnya berisi penjelasan mengenai fungsi protein tersebut.

Perangkat bioinformatika yang berkaitan erat dengan penggunaan pangkalan data sekuens Biologi ialah BLAST (Basic Local Alignment Search Tool). Penelusuran BLAST (BLAST search) pada pangkalan data sekuens memungkinkan ilmuwan untuk mencari sekuens baik asam nukleat maupun protein yang mirip dengan sekuens tertentu yang dimilikinya. Hal ini berguna misalnya untuk menemukan gen sejenis pada beberapa organisme atau untuk memeriksa keabsahan hasil sekuensing atau untuk memeriksa fungsi gen hasil sekuensing. Algoritma yang mendasari kerja BLAST adalah penyejajaran sekuens.

PDB (Protein Data Bank, Bank Data Protein) ialah pangkalan data tunggal yang menyimpan model struktur tiga dimensi protein dan asam nukleat hasil penentuan eksperimental (dengan kristalografi sinar-X, spektroskopi NMR, dan mikroskopi elektron). PDB menyimpan data struktur sebagai koordinat tiga dimensi yang menggambarkan posisi atom-atom dalam protein atau pun asam nukleat.

Data sekuens DNA yang dikoleksi di situs http://www.ncbi.nih.gov/Genbank/genbankstats.html berasal dari kontribusi para peneliti biologi molekuler di seluruh dunia. Kalau dilihat pertumbuhan data nukleotida per 10 tahun, maka banyaknya nukleotida yang disimpan pada tahun 1992, sekitar 150 kali lipat daripada data 1982, sedangkan data tahun 2002 hampir 300 kali lipat dari data 1992. Pertumbuhan ini terus akan berlangsung, dan semakin lama semakin besar. Data yang melimpah ini tidak akan ada artinya, bila tidak ada metode komputasi efektif yang mampu mengolah data berskala besar, dan menggali informasi terpendam di dalamnya.

Upaya untuk mengekstrak informasi dari data biologi  tentu saja telah berkembang sejak puluhan tahun yang lalu. Berbagai pendekatan telah dilakukan, termasuk di dalamnya pemanfaatan metoda statistik. Kalau data tersebut berskala kecil, tentunya analisa dapat dilakukan dengan manual atau dengan metoda statistik konvensional yang sederhana. Namun demikian, dengan semakin meluapnya informasi yang harus segera diolah, kebutuhan akan metode yang mampu menangani problem dengan skala besar semakin dirasakan. Di sinilah teknologi informasi berperan penting. Datamining merupakan solusi yang ditawarkan untuk mengolah ledakan informasi dalam bioinformatika.

Datamining merupakan teknik untuk mengekstrak informasi dari data berskala besar. Informasi tersebut merupakan nilai tambah yang sebelumnya tidak dapat diketahui secara manual. Di sebuah supermarket, misalnya, datamining dapat dipakai untuk mengetahui kecenderungan perilaku konsumen. Analisa transaksi selama seminggu, misalnya, menunjukkan bahwa orang yang membeli roti tawar, membeli juga selai dan mentega. Informasi ini merupakan nilai tambah yang sebelumnya tidak diketahui, dan dapat dipakai untuk menyusun strategi meningkatkan profit. Misalnya saja dengan mengatur agar roti tawar, mentega dan selai ditempatkan berdekatan, atau menjual roti tawar dan selai dalam satu paket. Contoh aplikasi datamining yang lain, misalnya untuk mengetahui kecenderungan perilaku konsumen pada online shop seperti amazon, sehingga dapat diterapkan perlakuan khusus bagi tiap konsumen.

Metode-metode dalam datamining meliputi antara lain aturan asosiasi (association rule), yaitu menemukan aturan-aturan dan keterkaitan satu dengan yang lain. Selain itu terdapat pula clustering, yaitu mengelompokkan data ke dalam grup-grup berdasarkan kemiripannya, klasifikasi, dsb. Besarnya perhatian pada datamining ini terlihat dari banyaknya paper yang dipublikasikan di journal maupun konferens. Misalnya pada konferensi internasional ACM SIGMOD (Association for computing machinery, Special Interest Group on Management of Data) tahun 1998, sebanyak 25% dari paper yang diterima, membahas upaya bagaimana mengekstrak informasi dari data, termasuk di dalamnya datamining dan warehousing.

Dalam bioinformatika, datamining dimanfaatkan untuk menganalisa data hasil observasi biologi seperti misalnya sekuens DNA, deretan asam amino, ekspresi gen, agar menjadi informasi yang bermakna. Dengan demikian, diharapkan berbagai masalah kompleks dalam biologi dapat diselesaikan. Misalnya bagaimana kaitan antara fungsi suatu protein dengan strukturnya, korelasi antara penyakit dan profil ekspresi gen seorang pasien, bagaimana mekanisme timbulnya suatu penyakit. Informasi yang diperoleh dari analisa bioinformatika ini bermanfaat bagi kedokteran modern untuk menyusun strategi terapi medis khusus yang efektif dengan menyesuaikan kondisi genetik si pasien, yang disebut tailor made medicine. Dengan tailor made medicine, diharapkan efek samping dapat dihindarkan dan pengobatan berjalan optimal.

Salah satu topik penelitian yang hangat dibicarakan dalam bioinformatika adalah analisa ekspresi/aktifasi gen. Gen adalah bagian DNA yang bertugas untuk menentukan kapan, dimana, seberapa banyak suatu protein diproduksi. Kelainan yang terjadi pada gen, akan menyebabkan ketidaknormalan pada fungsi protein, dan pada gilirannya berkaitan erat dengan mekanisme timbulnya penyakit pada seseorang. Karena itu analisa ekspresi gen ini merupakan informasi penting untuk mengetahui mekanisme timbulnya suatu penyakit, dan mendesain terapi medis yang tepat bagi seorang pasien.

Dari perkembangan terakhir, diketahui bahwa banyaknya gen yang terdapat pada sel manusia berkisar 32 ribu. Kalau di masa lalu, pengamatan ekspresi gen dilakukan pada skala kecil, dewasa ini dengan adanya piranti DNA chip dan microarray, memungkinkan kita mengamati pola ribuan ekspresi gen sekaligus. Hal ini memberikan tantangan baru bagi dunia komputasi, karena informasi ekspresi gen tersebut menghasilkan ruang vektor berdimensi sangat tinggi. Di antara berbagai metode yang diaplikasikan untuk menganalisa informasi berdimensi tinggi pada ekspresi gen, salah satu yang mendapat perhatian dari peneliti adalah Support Vector Machine (SVM). SVM dikembangkan oleh seorang Vladimir Vapnik, seorang ilmuwan Rusia yang saat ini menjabat sebagai Professor Statistik di University of London. Dalam berbagai penelitian, SVM memberikan solusi yang lebih baik daripada metode konvensional pengenalan pola, seperti Artificial Neural Network (ANN).

Sumber: Fatchiyah, 2009. Pengantar Bioinformatika Kedokteran, UB.

What’s Bioinformatics?

Februari 22, 2010

DNA orbit animationApa itu bioinfromatika?

Bioinformatika, sesuai dengan asal katanya yaitu “bio” dan “informatika”, adalah gabungan antara ilmu biologi dan ilmu teknik informasi (TI). Pada umumnya, Bioinformatika didefenisikan sebagai aplikasi dari alat komputasi dan analisa untuk menangkap dan menginterpretasikan data-data biologi. Ilmu ini merupakan ilmu baru yang yang merangkup berbagai disiplin ilmu termasuk ilmu komputer, matematika dan fisika, biologi, dan ilmu kedokteran, dimana kesemuanya saling menunjang dan saling bermanfaat satu sama lainnya.

Istilah bioinformatics mulai dikemukakan pada pertengahan era 1980-an untuk mengacu pada penerapan komputer dalam biologi. Namun demikian, penerapan bidang-bidang dalam bioinformatika (seperti pembuatan basis data dan pengembangan algoritma untuk analisis sekuens biologis) sudah dilakukan sejak tahun 1960-an.

Ilmu bioinformatika lahir atas insiatif para ahli ilmu komputer berdasarkan artificial intelligence. Mereka berpikir bahwa semua gejala yang ada di alam ini bisa diuat secara artificial melalui simulasi dari gejala-gejala tersebut. Untuk mewujudkan hal ini diperlukan data-data yang yang menjadi kunci penentu tindak-tanduk gejala alam tersebut, yaitu gen yang meliputi DNA atau RNA. Bioinformatika ini penting untuk manajemen data-data dari dunia biologi dan kedokteran modern. Perangkat utama Bioinformatika adalah program software dan didukung oleh kesediaan internet

Perkembangan teknologi DNA rekombinan memainkan peranan penting dalam lahirnya bioinformatika. Teknologi DNA rekombinan memunculkan suatu pengetahuan baru dalam rekayasa genetika organisme yang dikenala bioteknologi. Perkembangan bioteknologi dari bioteknologi tradisional ke bioteknologi modren salah satunya ditandainya dengan kemampuan manusia dalam melakukan analisis DNA organisme, sekuensing DNA dan manipulasi DNA.

Sekuensing DNA satu organisme, misalnya suatu virus memiliki kurang lebih 5.000 nukleotida atau molekul DNA atau sekitar 11 gen, yang telah berhasil dibaca secara menyeluruh pada tahun 1977. Kemudia Sekuen seluruh DNA manusia terdiri dari 3 milyar nukleotida yang menyusun 100.000 gen dapat dipetakan dalam waktu 3 tahun, walaupun semua ini belum terlalu lengkap. Saat ini terdapat milyaran data nukleotida yang tersimpan dalam database DNA, GenBank di AS yang didirikan tahun 1982. Bioinformatika (bahasa Inggris: bioinformatics) adalah ilmu yang mempelajari penerapan teknik komputasional untuk mengelola dan menganalisis informasi biologis. Bidang ini mencakup penerapan metode-metode matematika, statistika, dan informatika untuk memecahkan masalah-masalah biologis, terutama dengan menggunakan sekuens DNA dan asam amino serta informasi yang berkaitan dengannya. Contoh topik utama bidang ini meliputi basis data untuk mengelola informasi biologis, penyejajaran sekuens (sequence alignment), prediksi struktur untuk meramalkan bentuk struktur protein maupun struktur sekunder RNA, analisis filogenetik, dan analisis ekspresi gen.

Bioinformatika ialah ilmu yang mempelajari penerapan teknik komputasi untuk mengelola dan menganalisis informasi hayati. Bidang ini mencakup penerapan metode-metode matematika, statistika, dan informatika untuk memecahkan masalah-masalah biologi, terutama yang terkait dengan penggunaan sekuens DNA dan asam amino. Contoh topik utama bidang ini meliputi pangkalan data untuk mengelola informasi hayati, penyejajaran sekuens (sequence alignment), prediksi struktur untuk meramalkan struktur protein atau pun struktur sekunder RNA, analisis filogenetik, dan analisis ekspresi gen.

Bioinformatika pertama kali dikemukakan pada pertengahan 1980an untuk mengacu kepada penerapan ilmu komputer dalam bidang biologi. Meskipun demikian, penerapan bidang-bidang dalam bioinformatika seperti pembuatan pangkalan data dan pengembangan algoritma untuk analisis sekuens biologi telah dilakukan sejak tahun 1960an.

Membicarakan bioinformatika, tak dapat lepas dari proses lahirnya bidang tersebut. Sebagaimana diketahui, bioteknologi dan teknologi informasi merupakan dua di antara berbagai teknologi penting yang mengalami perkembangan signifikan dalam beberapa tahun terakhir ini. Bioteknologi berakar dari bidang biologi, sedangkan perkembangan teknologi informasi tak dapat dilepaskan dari matematika. Umumnya biologi dan matematika dianggap sebagai dua bidang yang sangat berbeda, dan sulit untuk dipadukan. Tetapi perkembangan ilmu pengetahuan terkini justru menunjukkan sebaliknya. Perpaduan antara biologi dan matematika, menghasilkan embrio suatu cabang pengetahuan baru yang memiliki masa depan yang menjanjikan di abad 21 ini. Embrio itulah yang bernama bioinformatika. Bioinformatika merupakan perpaduan harmonis antara teknologi informasi dan bioteknologi, yang dilatarbelakangi oleh ledakan data (data explosion) observasi biologi sebagai hasil yang dicapai dari kemajuan bioteknologi. Contohnya adalah pertumbuhan pesat database DNA pada GenBank. Genbank adalah database utama dalam biologi molekuler, yang dikelola oleh NCBI (National Center for Biotechnology Information) di AS.

Kemajuan teknik biologi molekuler dalam mengungkap sekuens biologi protein (sejak awal 1950an) dan asam nukleat (sejak 1960an) mengawali perkembangan pangkalan data dan teknik analisis sekuens biologi. Pangkalan data sekuens protein mulai dikembangkan pada tahun 1960an di Amerika Serikat, sementara pangkalan data sekuens DNA dikembangkan pada akhir 1970an di Amerika Serikat dan Jerman pada Laboratorium Biologi Molekuler Eropa (European Molecular Biology Laboratory).

Penemuan teknik sekuensing DNA yang lebih cepat pada pertengahan 1970an menjadi landasan terjadinya ledakan jumlah sekuens DNA yang dapat diungkapkan pada 1980an dan 1990an. Hal ini menjadi salah satu pembuka jalan bagi proyek-proyek pengungkapan genom, yang meningkatkan kebutuhan akan pengelolaan dan analisis sekuens, dan pada akhirnya menyebabkan lahirnya bioinformatika.

Perkembangan jaringan internet juga mendukung berkembangnya bioinformatika. Pangkalan data bioinformatika yang terhubungkan melalui internet memudahkan ilmuwan dalam mengumpulkan hasil sekuensing ke dalam pangkalan data tersebut serta memperoleh sekuens biologi sebagai bahan analisis. Selain itu, penyebaran program-program aplikasi bioinformatika melalui internet memudahkan ilmuwan dalam mengakses program-program tersebut dan kemudian memudahkan pengembangannya.

(Sumber: Fatchiyah, 2009, Pengantar Bioinformatika Kedokteran)