Cari Blog Ini

Selasa, 02 Februari 2016

HEATMAP - PLOTTING A DIAGONAL CORRELATION MATRIX


KATA PENGANTAR

Puji dan syukur kepada Tuhan Yang Maha Esa, yang telah melimpahkan rahmat-Nya kepada kami para penyusun untuk dapat menyelesaikan Buku yang berjudul "Heatmap - Plotting a diagonal correlation matrix". Tujuan penyusunan makalah ini ialah untuk melengkapi tugas mata kuliah softskill semester 5 yang diajarkan oleh Dr. rer. nat. I Made Wiryana, SKom, SSi, MAppSc

Dalam menyelesaikan makalah ini, penyusun telah mendapat bantuan dari berbagai pihak. Oleh sebab itu sudah selayaknya penyusun mengucapkan terima kasih kepada teman teman dan google. yang telah membantu kami di dalam penulisan buku . Juga tidak lupa mengucapkan terima kasih kepada semua pihak yang telah memberikan bantuan dan tidak sempat penyusun sebutkan satu per satu.

Kami berharap semoga dengan disusunnya buku ini dapat memberikan pengetahuan bagi para pembaca. Kami menyadari bahwa buku ini masih jauh dari sempurna, oleh karena itu kritik dan saran dari semua pihak yang bersifat membangun selalu kami harapkan demi kesempurnaan buku ini.

Depok, 2 Februari 2016

Kelas 3IA15

Kelompok 7





BAB 1. Pendahuluan

0.1 Latar Belakang

Buku ini adalah buku yang membahas tentang korelasi matriks heatmap, buku ini penulis dedikasikan untuk memberikan sebuah penyampaian materi yang berbeda, dari materi buku – buku lainnya. Tujuan dari heatmap matriks korelasi adalah sebuah peta yang menggambarkan persebaran lokasi dan frekuensi data dalam dengan pewarnaan.

Matrix korelasi ialah sebuah matrix yang di gunakan untuk mengetahui ketergantungan antara variabel yang berkelipatan pada saat yang bersamaan. hasil dari tabel tersebut mengandung koefisien korelasi diantara para variabel lainnya. ada beberapa cara untuk korelasi matrix antara lain : Peasrson paramatric correlation test, Spearman dan Kendall di urutkan berdasarkan korelasi matrix, ketiga cara ini lah yang akan saya jelaskan dibawah.

BAB 2. Konsep Heatmap - Plotting a diagonal correlation matrix

0.2 Penjelasan Heatmap

Sebuah Heatmap adalah representasi grafis dari data di mana nilai-nilai individu yang terkandung dalam matriks yang direpresentasikan sebagai warna. Peta Fractal dan pohon peta baik sering menggunakan sistem serupa warna-coding untuk mewakili nilai-nilai yang diambil oleh sebuah variabel dalam hirarki. Istilah ini juga digunakan untuk berarti yang tematik aplikasi sebagai peta choropleth.

\bigskip

Istilah "Heatmap" pada awalnya diciptakan dan diperkenalkan oleh software desainer Cormac Kinney pada tahun 1991, untuk menggambarkan tampilan 2D menggambarkan real time informasi pasar keuangan.

\bigskip

Heatmap pada asalnya menampilkan gambar bentuk 2D dari nilai-nilai dalam matriks data. Nilai yang lebih besar diwakili oleh abu-abu atau hitam gelap kotak kecil (pixel) dan nilai-nilai yang lebih kecil dengan kotak yang lebih cerah. Sneath (1957) ditampilkan hasil analisis cluster dengan permutasi baris dan kolom dari matriks untuk menempatkan nilai yang sama dekat satu sama lain sesuai dengan clustering. Jacques Bertin digunakan representasi yang sama untuk menampilkan data yang sesuai untuk skala Guttman. Ide untuk bergabung pohon cluster untuk baris dan kolom dari matriks data yang berasal Robert Ling pada tahun 1973. Ling menggunakan karakter printer telak untuk mewakili berbagai nuansa abu-abu, satu karakter-lebar per pixel. Leland Wilkinson mengembangkan program komputer pertama pada tahun 1994 (SYSTAT) untuk menghasilkan heatmap cluster dengan grafis warna resolusi tinggi. The Eisen et al. display yang ditunjukkan pada gambar adalah replikasi dari sebelumnya SYSTAT desain.

\bigskip

"Heatmap" yang dihasilkan dari data DNA microarray mencerminkan nilai-nilai ekspresi gen dalam beberapa kondisi



0.2.1 Jenis Heatmap

Ada berbagai jenis Heatmap :

• Web Heat Maps telah digunakan untuk menampilkan area dari halaman web yang paling sering dipindai oleh pengunjung. Heatmaps web yang sering digunakan bersama bentuk-bentuk lain dari analisis web dan sesi ulangan alat.



• Biology Heat Maps biasanya digunakan dalam biologi molekuler untuk mewakili tingkat ekspresi banyak gen di sejumlah sampel sebanding (misalnya sel di negara-negara yang berbeda, sampel dari pasien yang berbeda) karena mereka diperoleh dari DNA microarray.



• TreeMap adalah partisi hirarkis 2D dari data yang secara visual menyerupai peta panas.



• Mosaic Plot adalah panas peta ubin untuk mewakili dua arah atau lebih tinggi-cara tabel data. Seperti treemaps, daerah persegi panjang dalam plot mosaik yang hirarki terorganisir. Sarana bahwa daerah yang persegi panjang bukannya kotak. Friendly (1994) survei sejarah dan penggunaan grafik ini.



• Bagaimana saya bisa membuat matriks korelasi heatmap?

Halaman ini akan menunjukkan beberapa metode untuk membuat peta korelasi matriks panas. Hal pertama yang kita butuhkan adalah matriks korelasi yang akan kita buat menggunakan perintah corr2data dengan mendefinisikan matriks korelasi (c), standar deviasi (s) dan sarana (m). Kami mengatur ukuran sampel 400 menggunakan opsi n ().





\bigskip

Pemeriksaan matriks korelasi menunjukkan bahwa ada tiga set variabel yang sangat intercorrelated, (1, 2 & 3), (4, 5 & 6), dan (7, 8 & 9). Korelasi antara variabel dalam set yang berbeda bervariasi 0,01-0,40. Ini adalah korelasi yang ingin kita untuk memvisualisasikan. Langkah berikutnya adalah untuk mengambil elemen dari matriks korelasi dan mengubahnya menjadi nilai data dalam dataset kami. Dalam proses ini kita akan membuat tiga variabel baru; rho1 indeks baris, rho2 indeks kolom, dan rho3 koefisien korelasi itu sendiri. Perintah terakhir, svmat, menyimpan matriks rho untuk dataset kami.





\bigskip

Sekarang kita dapat membuat korelasi heatmaps matriks dimulai dengan satu yang menggunakan perintah kontur tanah. Pilihan menu c-potong() mendefinisikan bahwa nilai-nilai potong untuk korelasi sedangkan c-warna mendefinisikan warna yang akan digunakan untuk masing-masing potongan. Salah satu item diperhatikan, yscale (reverse) opsi membalikkan skala pada sumbu y sehingga diagonal utama plot berjalan dari kiri atas ke kanan bawah.

\bigskip





Kita pasti bisa melihat struktur korelasi namun ada cara lain untuk menghasilkan sebuah heatmap.

Kali ini kita akan menggunakan twoway scatter plot perintah biasa. Perintah ini terlihat jauh lebih kompleks tetapi sebenarnya tidak. Hanya sebar sebuah diulang beberapa kali untuk rentang yang berbeda dari koefisien korelasi. Sekali lagi, kita menggunakan skala (reverse) seperti sebelumnya.







Menggunakan pendekatan yang sama kita dapat menghasilkan heatmap menggunakan skala abu-abu.







\bigskip

Contoh-contoh ini menunjukkan prinsip-prinsip dasar tetapi tidak berurusan dengan kompleksitas korelasi negatif. Salah satu selalu bisa saja mengambil nilai absolut korelasi ketika membaca dalam matriks korelasi. Namun, mungkin lebih baik untuk memperluas skala heatmap ke dalam nilai-nilai negatif dari korelasi. Berikut adalah contoh menggunakan twoway scatter. Menggunakan RGB nilai warna berkisar dari merah muda menjadi merah untuk korelasi positif dan dari biru muda ke biru tua untuk korelasi negatif.



















Pilihan skema warna sangat pribadi. pilihan Anda mungkin sangat berbeda dari saya. Jika Anda suka pilihan bawaan Stata untuk warna untuk plot kontur, di sini adalah apa plot yang tampak seperti.





Satu catatan terakhir, jika Anda memiliki lebih variabel dari sembilan digunakan dalam contoh ini Anda mungkin ingin membuat mSize yang () lebih kecil. Dalam rangka dari terbesar ke terkecil ukuran adalah: ehuge, vhuge, besar, besar, besar, med besar, menengah, med kecil, kecil, kecil, kecil, dan sangat kecil.

BAB 3. Konsep Korelasi Peta Matrix Diagonal pada Software R

0.3 Apa itu korelasi matriks?

Sebuah korelasi matriks digunakan untuk menyelidiki ketergantungan antara beberapa variabel pada saat yang sama. Hasilanya adalah label yang berisi korelasi koefisien antara masing-masing variabel dan lain-lain.

Ada berbagai metode untuk menganalisis korelasi tersebut: Uji koreasi Pearson parametrik, Spearman dan Kendall. berbasis rank korelasi analisis. Korelasi matriks dapat divisualisasikan menggunakan correlogam pada Software yang bernama R.

0.3.1 Software R

0.3.2 Sejarah R

Versi pertama R diluncurkan pada tahun 1992 oleh Ross Ihaka dan Robert Gentleman (1996) (singkatan R berasal dari kedua nama tersebut) yang keduanya dari the University of Auckland. Diawal pengembangannya, proyek R dibuat dengan bahasa LISP serta hanya diimplementasikan di macintosh dengan bahasa semantik Scheme. Pada saat ini source code R yang dibuat telah bersifat multiplatform, sehingga dapat dikompilasi dan dijalankan diberbagai sistem operasi berbasis *NIX dan Windows. R dikembangan secara intensif oleh R-core Team yang anggotanya terdiri dari 17 orang ahli statistika ( http://www.r-project.org/contributors.html) dan melibatkan banyak kontributor lain dari berbagai institusi diseluruh dunia. Seperti halnya linux, source code R tersedia untuk dibaca, dianalisis, identifikasi bug dan modifikasi.

Bahasa R berbasis bahasa S yang dibangun di Bell laboratories di tahun 80-an. Dengan kata lain R adalah implementasi bahasa S yang sudah dibangun oleh Rick Becker, John Chambers dan Allan Wilks, yang juga membentuk dasar dari sistem S-Plus. Dengan demikian sintak R hampir identik dengan S dengan perbedaan yang tidak terlalu banyak. Sebagai contoh mulai R versi 1.7.0 assign variabel diperbolehkan menggunakan “=” yang mana di S assign variabel menggunakan “<- br="">
0.3.3 Mengapa Menggunakan R?

Analisis data tidak dapat dilakukan tanpa melakukan teknik yang tepat. Artinya, analisis yang handal seharusnya memanfaatkan keakurasian dan kecepatan perhitungan dengan paket komputasi statitistik (statistical computing package). Begitu banyak pilihan paket tools statistika yang kita gunakan seperti SPSS, EVIEWS, STATA, MINITAB, SAS dan sebagainya. Masingmasing tool didesain untuk pengguna yang memiliki karakteristik berbeda-beda dan tentunya memiliki kelibihan dan kekurangan. Menurut Ihaka dan Gentleman (1996), ada beberapa alasan mengapa menggunakan R, diantaranya adalah:

1. Serba guna (versatile).R adalah bahasa pemrograman, sehingga tidak ada batasan bagi pengguna untuk memakai prosedur yang hanya terdapat pada paket-paket yang standar. Bahkan pemrograman R adalah berorientasi obyek dan memiliki banyak library yang sangat bermanfaat yang dikembangkan oleh kontributor. Pengguna bebas menambah dan mengurangi library tergantung kebutuhan. R juga memiliki interface pemrograman C, phyton, bahkan java yang tentu saja berkat jerih payah kontributor aktif proyek R. Jadi selain bahasa R ini cukup pintar, penggunanya pun bisa menjadi lebih pintar dan kreatif.Beberapa analisis yang membutuhkan fungsi lanjutan memang ada yang belum tersedia dalam R. Tidak berarti R tidak menyediakan fasilitas tersebut, namun lebih karena faktor waktu. Jadi hanya menunggu waktu saja package lanjutan tersebut tersedia.

2. Interaktif (interactive). Pada saat ini analisis data membutuhkan pengoperasian yang interaktif. Apalagi jika data yang dianalisis adalah data yang bergerak. R dilengkapi dengan konektivitas ke database server, olap, maupun format data web service seperti XML, spreadsheet dan sebagainya. Sehingga apabila data set berubah hasil analisis pun dapat segera ikut berubah (real time).

3. Berbasis S yaitu turunan dari tool statitistik komersial S-Plus.R hampir seluruhnya kompatibel dengan S-Plus. Artinya sebagian besar kode program yang dibuat oleh S dapat dijalankan di S-plus kecuali fungsi-fungsi yang sifatnya add-on packages atau tambahan yang dibuat oleh kontributor proyek R.

4. Populer. Secara umum SAS adalah software statistika komersial yang populer, namun demikian R atau S adalah bahasa yang paling populer digunakan oleh peneliti di bidang statistika. Beberapa tulisan berupa jurnal statistika mengkonfirmasi kebenaran hal ini. R juga populer untuk aplikasi kuantitatif dibidang keuangan.Secara fair Ihaka dan Gentlemen menyebutkan kekurangan dari R adalah tidak mudah untuk dipelajari. Beberapa requirement awal diperlukan sebelum memperoleh manfaat dari R diperoleh seperti pemahaman tentang dasar-dasar pemrograman. Namun menurut pendapat penulis, user linux seharusnya sudah memiliki pemahaman tentang dasar-dasar pemrograman sehingga akan lebih mudah dan produktif dalam mengekspolitasi tools statistika yang hebat ini.



0.3.4 Lingkungan R.

R adalah suite terintegrasi fasilitas perangkat lunak untuk manipulasi data, perhitungan dan tampilan grafis. Itu termasuk :

• Efektif dalam pengelolaan data dan fasilitas penyimpanan. Ukuran file yang disimpan jauh lebih kecil dibanding software lainnya.

• Lengkap dalam operator perhitungan array,

• Lengkap dan terdiri dari koleksi tools statistik yang terintegrasi untuk analisis data, diantaranya, mulai statistik deskriptif, fungsi probabilitas, berbagai macam uji statistik, hingga time series.

• Tampilan grafik yang menarik dan fleksibel ataupun costumized.

• Dapat dikembangkan sesuai keperluan dan kebutuhan dan sifatnya yang terbuka, setiap orang dapat menambahkan fitur-fitur tambahan dalam bentuk paket ke dalam software R.

• R bersifat multiplatform, yakni dapat diinstall dan digunakan baik pada system operasi Windows , UNIX/LINUX maupun pada Macintosh. Untuk dua system operasi disebeutkan terakhir diperlukan sedikit penyesuaian.

istilah “lingkungan” ini dimaksudkan untuk menggambarkan sebagai sebuah sistem yang direncanakan sepenuhnya dan koheren, daripada menambahkan alat lain yang sangat spesifik dan tidak fleksibel, seperti yang sering terjadi dengan perangkat lunak analisis data lainnya.

Pada R, seperti halnya S, dirancang di sekitar sebuah bahasa komputer yang baik, yang memungkinkan pengguna untuk menambahkan fungionalitas tambahan dengan mendefinisikan fungi baru. Banyak dari sistem ini sendiri ditulis dalam dialek R-S, yang membuatnya mudah bagi pengguna untuk mengikuti pilihan algoritma yang dibuat. Untuk tugas komputasi intensid, C, C++ dan kode Fortran dapat dihubungkan dan bisa digunakan pada saat itu juga. Pengguna tingkat lanjut dapat menulis kode C untuk memanipulasi benda R secara langsung.

R dapat diperoleh secara gratis di CRAN-archive yaitu The Comprehensice R Archive Network di alamat http://cran.r-project.org. Pada server CRAN ini dapat didownload file instalasi binary dan source code dari R-base system dalam sistem operasi Windows (semua versi), beberapa jenis distro linux, dan Macintosh.

Fungsi dan kemampuan dari R sebagian besar dapat diperoleh melalui Add-on packages/library. Suatu library adalah kumpulan perintah atau fungsi yang dapat digunakan untuk melakukan analisis tertentu. Sebagai contoh, fungsi untuk melakukan analisis time series dapat diperoleh di library ts. Instalasi standar dari R akan memuat berbagai library dasar, antara lain base, datasets, graphics, utils, dan stats. Library lain hasil kontribusi dari pengguna R (di luar yang standar) harus diinstal satu per satu sesuai dengan yang dibutuhkan untuk analisis. Daftar semua library yang tersedia dapat diakses dari link download CRAN di alamat http://cran.r-project.org.

0.3.5 Instalasi R

Bagi pengguna linux instalasi R cukup mudah dilakukan. Penulis akan memberikan contoh bagaimana menginstall di linux ubuntu. Bagi pengguna selain ubuntu dapat menggunakan source code yang langsung dapat didownload dari website R.

• Instalasi R melalui “apt” di ubuntu.Dengan menggunakan apt-get kita dapat secara mudah mendapatkan paket R ini melalui repository ubuntu. Ketikkan perintah berikut pada console (huruf R menggunakan kapital):$ sudo apt-get install r-base-dev r-base-coreJika muncul prompt password, ketikkan password user ubuntu anda lalu tunggulah beberapa saat sampai proses download dan instalasi selesai.

• Mengkompilasi R dari source. Apabila anda ingin menggunakan versi terbaru bahkan versi heavy development R anda dapat mengkompilasi langsung kode sumbernya. Penulis akan mencontohkan source R dan beberapa source aplikasi lain yang penting terkait dengan R (gambar 1). Anda harus melengkapi kompiler anda dengan beberapa program tambahan sebagai contoh compiler anda harus sudah tersedia 'gfortran' (kompiler fortran), jadi tidak hanya 'gcc' saja.



0.3.6 R dan Matematika

R dapat digunakan sebagai kalkulator. Tidak hanya sesederhana itu, R juga dapat menyelesaikan problematika matematika seperti persamaan kuadrat, matriks, kalkulus, trigonometri dan sebagainya. Sangat membantu bagi anda yang tidak ingin bersusah payah menggunakan caracara manual dalam menyelesaikan problematika matematika.

• R sebagai kalkulator lanjutan (Rositter, 2009)

Ketikkan perintah-perintah berikut dan tekan enter :

> pi*7Pi adalah konstanta lingkaran.

> 1 / 2^2 + 2 * piDimana ini perhitungan logaritma dalam satu baris masing-masing dipisahkan dengan tanda semicolon (;)

> log(10); log10(10); log2(10)Untuk membulatkan gunakan fungsi round().

> round(log(10))Untuk mencari akar persamaan kuadrat gunakan fungsi sqrt().

> sqrt(8)Kita juga dapat menyelesaikan problem trigonometri. Untuk mencari sin(300), maka untuk mengubah menjadi radian harus dikalikan dengan pi/180.

> sin(30 * pi/180)



0.3.7 Membuat Matriks Korelasi pada R

Membuat dengan contoh sederhana, dengan matriks 10 x 10.

#membuat matriks acak dengan angka mulai dari 1 sampai 100.



• Heatmap A

Sekarang untuk menghitung korelasi, menggunakan rank Spearman, setiap baris dengan setiap baris menggunakan R dan menyimpan hasil dalam matriks korelasi.

A

• Bagaimana jika kita ingin membuat matriks yang lebih besar?

Seperti yang kita lakukan saat menghitung korelasi dari setiap baris dengan baris lainnya, waktu komputasi meningkat seperti kita memiliki baris tambahan. Sebagai contoh, sebuah file koma dengan batasan 10.006 baris yang memiliki tingkat ekspresi untuk 40 sampel. Untuk ini banyak baris, akan ada (10.005 1) (10005 1) + (100051) / 2, 50045010 perbandingan / perhitungan. Butuh ~ 33 jam untuk melakukan semua perhitungan pada satu inti dari Intel (R) Xeon (R) CPU X7560 @ 2.27GHz.

Menurut GENCODE (veri 15), ada 195.433 transkrip. Jika kita entah bagaimana bisa mengukur tingkat ekspresi dari semua transkrip tersebut, berapa banyak perhitungan kita akan perlu untuk membuat? Berikut ini salah satu cara untuk menghitung jumlah perbandingan sehubungan dengan jumlah baris.

#write a function to calculate the number of comparisons



• Membuat CO-EXPRESSION NETWORK

Pada kode R di atas, matriks korelasi yang tersimpan menggunakan fungsi write.matrix (). Di bawah ini adalah script Perl sederhana yang memparsing output dari write.matrix () dan menciptakan sebuah file sif, yang kemudian dapat dimuat ke Cytoscape. Harap dicatat bahwa script ini tidak menangkap korelasi negatif, hanya korelasi positif yang sama atau lebih tinggi dari nilai ambang batas.

#!/usr/bin/perl

Pada dasarnya script meneliti korelasi matriks dan mencetak asosiasi jika korelasi antara dua baris lebih besar dari $ ambang batas. Berikut adalah cara terlihat ketika dimuat ke Cytoscape:



Membuat matriks korelasi dengan R cukup mudah dan seperti yang telah ditunjukkan, hasilnya dapat divisualisasikan menggunakan Cytoscape. Bila diterapkan dataset transcriptomic, ini mungkin berguna dalam mengidentifikasi transkrip codiungkapkan. Contoh ini menggunakan dataset nyata, namun perhatikan bahwa dalam contoh ada relatif sedikit tes atau sampel. Hal ini dapat membatasi kegunaan pendekatan ini karena jumlah tanggapan transkripsi lebih kecil. Namun, bayangkan sebuah dataset dengan sejumlah besar tes, seperti profil transkripsi dari panel besar jaringan. Menggunakan pendekatan ini, kita mungkin dapat mengungkap transkrip spesifik jaringan karena mereka akan memiliki respon transkripsi sangat unik.

0.3.8 Corrplot Package

Paket corrplot adalah tampilan grafis dari matriks korelasi, selang kepercayaan. Hal ini juga berisi beberapa algoritma untuk melakukan penataan kembali matriks. Selain itu, corrplot baik di detail, termasuk memilih warna, label teks, label warna, tata letak, dll

• Metode visualisasi

Ada tujuh metode visualisasi (parameter metode) di corrplot paket, bernama "lingkaran", "square", "elips", "jumlah", "warna", "warna", "pie".

library(corrplot



corrplot(M, method = "square")



corrplot(M, method = "ellipse")



corrplot(M, method = "number")



corrplot(M, method = "shade")



corrplot(M, method = "color")



corrplot(M, method = "pie")



• Layout

Ada tiga jenis tata letak (parameter jenis), bernama "full" (default), "upper" atau "lower", tampilan matriks penuh, segitiga bawah atau matriks segitiga atas.

corrplot(M, type = "upper")



corrplot(M, type = "lower")



corrplot.mixed() is a wrapped function for mixed visualization style.

corrplot.mixed(M)



corrplot.mixed(M, lower = "ellipse", upper = "circle")



corrplot.mixed(M, lower = "square", upper = "circle")



BAB 4. Tujuan kegunaan dari Heatmap - Plotting a diagonal corellation matrix

0.4 KORELASIONAL ANALISIS: Pearson'S r

Tujuan dari analisis korelasional Tujuan melakukan analisis korelasional:

• Untuk mengetahui apakah ada hubungan antara variabel,

• Untuk mengetahui arah hubungan - apakah itu positif, negatif atau nol,

• Untuk menemukan kekuatan hubungan antara dua variabel.

Uji statistik, disebut koefisien korelasi r, mengukur kekuatan hubungan antara variabel. ukuran ini bervariasi dari 0 (tidak ada hubungan) untuk 1 dan -1 (hubungan yang sempurna).

0.4.1 Direction of the Relationship

• Positive

Skor tinggi pada satu variabel cenderung berhubungan dengan skor tinggi pada variabel lain:

Contoh Jam belajar X Nilai pada ujian

• Negative

Sskor tinggi pada satu variabel berhubungan dengan skor rendah pada variabel lainnya:

Contoh Usia driver X kecelakaan mobil pembalap muda laki-laki lebih mungkin untuk memiliki kecelakaan.



• Zero

Gaji bulanan X tomat yang dimakan per bulan

Perfect Positive

usia kakak X usia Anda

Imperfect positive

IQ X Hasil ujian

Perfect Negative

Jumlah cokelat dalam Jumlah mesin penjual otomatis X uang dimasukkan

ke dalam mesin

Imperfect Negative

Kehadiran di pertandingan sepak bola X Jumlah curah hujan



0.4.2 The Strength or Magnitude of the Relationship( + or - )

\bigskip

1.0 Sempurna

0,9-0,7 Kuat

0,6-0,4 Moderat

0,3-0,1 Lemah

0.0 Nol (tidak ada)

\bigskip

Sebuah Contoh Koefisien Korelasi

SAT Skor Tes dan Tinggi Mahasiswa + 0,05

\bigskip

SAT Skor Test dan Prestasi Kumulatif + 0,38

\bigskip

Kosakata Dewasa dan Kemampuan Matematika + 0.59

\bigskip

skor IQ kembar identik yang dibesarkan bersama-sama + 0.86

\bigskip

Nilai IPK dan Cara Duduk mahasiswa di kelas + 0.35

\bigskip

Kepuasan dengan pekerjaan dan jumlah stres para pekerja - 0,27

\bigskip

Jumlah rokok yang dihisap per hari dan Jumlah stres kerja - 0,01

\bigskip

0.4.3 Hubungan antara Variabel

Dalam setiap ilmu yang ideal adalah untuk mengetahui beberapa jenis hubungan sebab dan akibat. Ini adalah hubungan yang berubah dalam satu penyebab variabel perubahan lain. Contoh: Belajar untuk ujian (penyebab) hasil dalam kelas tinggi (efek). Variabel yang menyebabkan perubahan (dalam hal ini, belajar) disebut variabel independen. Variabel yang berubah (ujian grade) disebut variabel dependen.

Mengapa menghubungkan variabel dalam hal sebab dan akibat penting? Karena hubungan semacam ini memungkinkan kita untuk memprediksi bagaimana satu jenis perilaku akan menghasilkan lain.

Adalah salah untuk berpikir bahwa hubungan sebab dan akibat ini setiap kali variabel berubah bersama-sama. Contoh 1: Tingkat marrige di Inggris jatuh ke titik terendah pada bulan Januari, tepatnya bulan yang sama ketika tingkat kematian mencapai titik tertinggi. Ini tidak berarti bahwa orang-orang mati karena mereka gagal untuk mary (atau bahwa mereka tidak melakukan mary karena mereka mati). Bahkan, itu adalah cuaca buruk selama Januari yang menyebabkan kedua tingkat marrige rendah dan tingkat kematian yang tinggi.



\bigskip

Korelasi adalah ukuran hubungan antara dua (atau lebih) variabel yang berubah bersama-sama. Kadang-kadang hubungan antara dua (atau lebih) variabel tampaknya akan terhubung ke beberapa variabel lain. koneksi semacam ini disebut korelasi palsu. Ini adalah hubungan yang salah dan perlu membuka kedok. Membuka selubung korelasi sebagai palsu dibantu oleh teknik yang disebut kontrol variabel yang relevan.

Variabel selain variabel independen yang dapat mengerahkan efek pada variabel dependen disebut variabel yang relevan.

\bigskip

0.4.4 Varians Penjelasan Koefisien Korelasi

Koefisien korelasi (r) adalah rasio antara covariance (varians bersama oleh dua variabel) dan ukuran dari varians terpisah. Mari kita mengambil contoh dari IQ ayah dan IQ anak. Kedua variabel berhubungan positif (berkorelasi): lebih dari IQ ayah, semakin tinggi IQ anak. Ketika dua variabel yang berkorelasi, kita mengatakan bahwa mereka 'berbagi' varians. Ayah dan berbagi IQ anak banyak varian. Berapa banyak varian yang mereka berbagi? Sebuah koefisien korelasi akan memberikan jawabannya: Dengan mengkuadratkan koefisien korelasi, kita tahu berapa banyak varians, dalam hal persentase, dua variabel share.If Anda memiliki korelasi r = 0,80, Anda telah menyumbang (menjelaskan) 64 persen varians. Ini disebut koefisien determinasi. Jika kita menggunakan diagram Venn, tumpang tindih antara kedua variabel adalah proporsi varians umum atau bersama mereka. Jika 64% dibagi varians, maka 36% tidak dibagi: itu adalah apa yang dikenal sebagai varian unik: membagi 36 dengan 2, 18% adalah unik untuk ayah dan 18% adalah unik untuk anak. Bagian yang diarsir (tumpang tindih) pada diagram Venn (64%) adalah varians dua variabel (skor IQ anak ayah dan). Dengan kata lain, 64% dari variasi skor IQ anak dapat dijelaskan oleh variasi dalam nilai IQ ayah. 36% adalah 'dijelaskan', yaitu, variasi dalam nilai harus karena faktor lain, mungkin genetika usia dan faktor lingkungan.



0.4.5 ANALISIS REGRESI

Tujuan dari Psikolog regresi linear tertarik untuk menggunakan regresi linier untuk mengetahui pengaruh satu variabel (yang kita menunjukkan x) yang lain (yang kita nyatakan y).

Analisis korelasional memungkinkan kita untuk menyimpulkan seberapa kuat dua variabel berhubungan satu sama lain (baik besar dan arah);

\bigskip

Analisis regresi linier menjawab pertanyaan 'Berapa banyak kemauan y perubahan, jika x perubahan? "Dengan kata lain: Jika x perubahan dengan jumlah tertentu, kita akan dapat memperkirakan berapa banyak y akan change.A analisis korelasional sederhana akan menunjukkan kepada kita bahwa IQ ayah dan skor IQ anak berkorelasi positif: dalam hal ini, kita dapat mengatakan bahwa sebagai IQ ayah meningkat, demikian IQ anak. Tapi kita tidak bisa mengatakan jumlah peningkatan IQ anak, untuk jumlah tertentu peningkatan IQ ayah. Psikolog menggunakan regresi linear agar dapat menilai efek yang x memiliki pada y. Hasil analisis regresi linier dalam formula (persamaan regresi) yang dapat kita gunakan untuk memprediksi persis bagaimana y akan berubah, sebagai akibat dari perubahan x. Sejak regresi linier memberi kita ukuran efek yang x telah di y, teknik memungkinkan kita untuk memprediksi y, dari x.

BAB 5. Penutup

0.5 Kesimpulan

0.5.1 Software R

Penggunaa software R pada diagonal matriks sangan mempengangaruhi kulaitas dalam pembuatan daigonal heatmap (plotting diagonal dan hubungan MATRIKS). Kelebihan dan Fitur-fitur R mempunyai karakteristik tersendiri, dimana selalu dimulai dengan prompt “>“ pada console-nya.

R mempunyai beberapa kelebihan dan fitur-fitur yang canggih dan berguna, diantaranya:

• efektif dalam pengelolaan data dan fasilitas penyimpanan. Ukuran file yang disimpan jauh lebih kecil dibanding software lainnya.

• lengkap dalam operator perhitungan array,

• lengkap dan terdiri dari koleksi tools statistik yang terintegrasi untuk analisis data, diantaranya, mulai statistik deskriptif, fungsi probabilitas, berbagai macam uji statistik, hingga time series.

• tampilan grafik yang menarik dan fleksibel ataupun costumized

• dapat dikembangkan sesuai keperluan dan kebutuhan dan sifatnya yang terbuka, setiap orang dapat menambahkan fitur-fitur tambahan dalam bentuk paket ke dalam software R Selain kelebihan dan kelengkapan fitur-fiturnya, hal yang terpenting lainnya yakni, R bersifat multiplatform, yakni dapat diinstall dan digunakan baik pada system operasi Windows , UNIX/LINUX maupun pada Macintosh.

Untuk dua system operasi disbeutkan terakhir diperlukan sedikit penyesuaian. Selain kelebihan disebutkan di atas, R didukung oleh komunitas yang secara aktif saling berinteraksi satu sama lain melalui Internet dan didukung oleh manual atau Rhelp yang menyatu pada software R. Sebagai catatan, buku ini mengambil contoh pada penggunaan R pada system berbasis Windows. II.2.2. R, Riset dan Akademis Software R sangat cocok untuk riset, baik statistik,ekonomi, komputasi numerik dan pemrograman komputer. Karena didukung oleh banyak tenaga ahli dibidangnya, R layak dijadikan suatu perangkat lunak acuan bagi berbagai kalangan, terlebih di kalangan akademik (dosen, mahasiswa). Selain itu R memiliki fitur yang lengkap dan handal serta faktor tanggung jawab moral dan legal/hukum bukan lagi menjadi kekhawatiran dalam penggunaannya, karena dapat diperoleh secara GRATIS.

Berikut adalah beberapa contoh yang didapat dari R sebagai acauan implementasi pada:.

1. Pemodelan matematis (seperti software MATLAB) dalam membentuk perspektif, cocok jurusan teknik arsitek, sipil, mesin, dan ilmu computer (pencitraan) .

2. Pencitraan dan analisis kontur, cocok untuk jurusan geografi dan sejenis .

3. Proses analisis data statistik,dengan tampilan grafik plot yang costumized dan grafik fungsi densitas yang dapat diparalelkan dnegan histogram. Cocok untuk bidang statistika, ekonomi, dan lain lain.

Penggunaan Software R sangat mempengaruhi kualitas dari pembuatan diagonal matriks.

0.5.2 Plotting Diagonal dan Hubungan Matriks

Plot diagonal lebih mengarah kepada analisis terhadap suatu matriks. Beberapa ide kesamaan dari dua sekuens dapat diperoleh dari jumlah dan panjang cocok segmen ditampilkan dalam matriks. Protein identik jelas akan memiliki garis diagonal di tengah matriks. Sisipan dan penghapusan antara urutan menimbulkan gangguan ini diagonal. Daerah kesamaan atau berulang urutan lokal menimbulkan pertandingan diagonal lanjut selain pusat diagonal. Karena keterbatasan alfabet protein, banyak segmen urut pencocokan mungkin hanya muncul secara kebetulan.

Dot plot membandingkan dua sekuens dengan menyelenggarakan satu urutan pada sumbu x, dan satu lagi di sumbu y, dari plot. Ketika residu dari kedua urutan sesuai di lokasi yang sama pada plot, sebuah titik diambil pada posisi yang sesuai. Perhatikan, bahwa urutan dapat ditulis belakang atau ke depan, namun urutan kedua sumbu harus ditulis dalam arah yang sama. Juga mencatat, bahwa arah urutan pada sumbu akan menentukan arah garis pada titik petak. Setelah titik telah diplot, mereka akan bergabung untuk membentuk garis. Kedekatan urutan di kesamaan akan menentukan seberapa dekat garis diagonal adalah untuk apa grafik yang menunjukkan kurva menunjukkan hubungan langsung. Hubungan ini dipengaruhi oleh fitur urutan tertentu seperti pergeseran bingkai, mengulangi langsung, dan mengulangi terbalik. Pergeseran bingkai meliputi insersi, delesi, dan mutasi. Kehadiran salah satu fitur tersebut, atau adanya beberapa fitur, akan menyebabkan untuk beberapa baris yang akan diplot dalam berbagai kemungkinan konfigurasi, tergantung pada fitur yang ada di urutan. Sebuah fitur yang akan menyebabkan hasil yang sangat berbeda pada titik plot kehadiran rendah kompleksitas wilayah / daerah. Daerah rendah kompleksitas adalah daerah di urutan dengan hanya beberapa asam amino, yang pada gilirannya, menyebabkan redundansi dalam wilayah yang kecil atau terbatas. Daerah ini biasanya ditemukan di sekitar diagonal, dan mungkin atau mungkin tidak memiliki persegi di tengah-tengah titik petak.

Jadi inti sebenarnya Diagonal PLOT ialah :

Salah satu cara untuk memvisualisasikan kesamaan antara dua protein atau sekuens asam nukleat adalah dengan menggunakan matriks kesamaan , yang dikenal sebagai titik petak . Untuk representasi visual sederhana dari kesamaan antara dua sekuens , sel-sel individu dalam matriks dapat diarsir hitam jika residu yang identik , sehingga segmen urut cocok muncul sebagai berjalan dari garis diagonal di matriks.

0.6 Saran

Menyadari bahwa penulisan ini memiliki banyak kekurangan dalam pembuatan penulisan . Pada dasarnya penulisan ini dilakukan untuk menyelesaikan tugas namun tujuannya juga sebagai pembelajaran yang baru yang dapat menambah wawasan lebih baik lagi. Semoga dengan terselesaikannya tulisan ini dapat menambah ilmu yang baik kepada kami dan memberikan sedikit pandangan baru terhadap dosen.



Daftar Pustaka

• Sigit Wahyu Kartiko. “Mengenal Software Statistika “R” sebgai Datamining Tool di Linux. “.

• https://www.r-project.org/about.html

• http://davetang.org/muse/2012/01/31/creatingacorrelation-matrixwithr/

• https://cran.r-project.org/web/packages/corrplot/vignettes/corrplot-intro.html

• https://en.wikipedia.org/wiki/Heat_map

• http://www.sthda.com/english/wiki/visualize-correlation-matrix-using-correlogram

• http://www.sthda.com/english/wiki/correlation-analysis

• https://www.academia.edu/11561550/Path_Analysis

• http://statistikceria.blogspot.com/2013/11/perkenalan-penggunaan-software-r-dalam.html<- br="">

Tidak ada komentar:

Posting Komentar