BAB 2
- diidy dwie
- Feb 1, 2016
- 10 min read
Bab 2 2 Landasan Teori
2.1 Denisi Heatmap Apa itu heatmap? Heatmap adalah sebuah peta yang menggam- barkan persebaran lokasi dan frekuensi data dalam dengan pewar- naan. Heatmap adalah representasi gras dari data di mana nilai- nilai individu yang terkandung dalam matriks yang direpresentasikan sebagai warna. Peta fraktal dan peta pohon baik sering menggunakan sistem serupa warna-coding untuk mewakili nilai-nilai yang diambil oleh variabel dalam hirarki. Istilah ini juga digunakan untuk berarti aplikasi tematik sebagai peta choropleth.
2.2 Sejarah Heatmap Istilah "Heatmap" pada awalnya diciptakan dan merek dagang oleh software desainer Cormac Kinney pada tahun 1991, untuk menggam- barkan tampilan 2D menggambarkan real time informasi pasar keuan- gan. Heatmap berasal menampilkan 2D dari nilai-nilai dalam matriks data. nilai yang lebih besar diwakili oleh kotak kecil abu-abu gelap atau hitam (piksel) dan nilai-nilai yang lebih kecil dengan kotak ringan. Sneath (1957) ditampilkan hasil analisis cluster dengan permutasi baris dan kolom dari matriks untuk menempatkan nilai yang sama dekat satu sama lain sesuai dengan clustering. Jacques Bertin digunakan representasi yang sama untuk menampilkan data yang sesuai untuk skala Guttman. Ide untuk bergabung pohon cluster untuk baris dan kolom dari matriks data yang berasal Robert Ling pada tahun 1973. Ling digunakan karakter printer telak untuk mewakili berbagai nuansa abu-abu, satu karakter-lebar per pixel. Leland Wilkinson mengembangkan program komputer pertama pada tahun 1994 (SYSTAT) untuk menghasilkan peta panas cluster dengan gras warna resolusi tinggi. The Eisen et al. display yang ditunjukkan pada gambar adalah replikasi dari sebelumnya SYSTAT desain. Pada tahun 1993, dengan Carnegie Mellon Senior Research Scientist, Marc H. Graham, Kinney didirikan NeoVision Hypersystems, Inc. untuk mengembangkan dan memasarkan teknologi heatmaps. NeoVision heatmaps adalah waktu middleware nyata dan platform komputasi dengan antarmuka visual warna-warni sekarang-akrab. Dengan platform heatmaps, perdagangan khusus, manajemen risiko dan broker pemantauan aplikasi yang dibangun, mengkonsolidasikan sejumlah besar real time dan data statis. Setelah lisensi teknologi untuk meja perdagangan di Merrill Lynch, Citibank, Salomon Brothers dan Morgan Stanley, dan 9 departemen di Deutsche Bank, ia mengangkat total $ 8 juta dari Deutsche Bank, Bear Stearns, Intel Corporation dan investor modal ventura. Dengan modal segar, Kinney disewa Brian Barefoot, Presiden PaineWebber International, dan kepala sebelumnya global penjualan dan perdagangan di MerrillLynch sebagai CEO, menambahkan Deutsche Bank Global COO ke papanNeoVision ini, dan terus memperluas peluncuran heatmaps banyak buy besardan menjual lembaga keuangan sisi, termasuk Bank of America, PaineWebber,Bear Stearns, Merrill Lynch, Smith Barney dan 13 broker lainnya, JPMorganChase, Fidelity dan DTC , untuk memantau sampai $ 1,7 triliun pada transaksiharian. Setelah NeoVision, Barefoot menjadi Presiden Babson College selamatujuh tahun.lisensi distribusi yang signikan dibuat dengan Bloomberg LP, Dow JonesTelerate, Thomson, dan Reuters untuk lisensi heatmaps ke lebih dari 300.000desktop. The Nasdaq adalah yang pertama untuk lisensi versi web, webHeatmaps,yang telah disertakan pada halaman depan www.nasdaq.com sejak tahun 2001sampai 2013, dengan sekitar 2,4 juta tampilan halaman setiap hari.Pada tahun 2002, ia merancang biaya perdagangan sistem analisis untuk FidelityInvestments - dikutip oleh The Wall Street Journal sebagai "sistem pelacakancanggih untuk melihat mana broker dapat melakukan perdagangan yangpaling esien," yang dikreditkan, sebagian, dengan mengurangi reksadana biayaperdagangan perusahaan dengan ratusan juta dolar per tahun, setengah ratarataindustri. Sistem ini, Brokermaps, kemudian dipasang di Bank of AmericaManajemen Investasi, Invesco, Janus, Merrill Lynch Investment Managementdan Putnam Investments.Pada Juli 2013, sejak tahun 1993, heatmaps telah dikutip di lebih dari 350paten yang diberikan oleh PTO AS, dan di puluhan peer review makalah penelitian.Setelah direncanakan IPO $ 30.000.000 jatuh karena com kecelakaan dot,NeoVision diakuisisi pada tahun 2003 oleh software keuangan konglomerat SS& C Technologies. Hari ini teknologi NeoVision dimasukkan ke dalam beberapaSS & C produk.

Figure 1: Heat map telah digunakan untuk menampilkan area dari halaman web yang paling sering dipindai oleh pengunjung. Heatmaps web yang sering digunakan bersama bentuk-bentuk lain dari analisis web dan alat sesi replay. 2.3 Tipe
2.3 Tipe Heatmap Ada berbagai jenis heatmap: Heat map telah digunakan untuk menampilkan area dari halaman web yang paling sering dipindai oleh pengunjung. Heatmaps web yang sering digunakan bersama bentuk-bentuk lain dari analisis web dan alat sesi replay. Peta biologi panas biasanya digunakan dalam biologi molekuler untuk mewakili tingkat ekspresi banyak gen di sejumlah sampel sebanding (misalnya sel di negara-negara yang berbeda, sampel dari pasien yang berbeda) karena mereka diperoleh dari DNA microarray. Tree map adalah partisi hirarkis 2D dari data yang secara visual menyerupai peta panas. Sebuah plot mosaik adalah heatmap untuk mewakili dua arah atau lebih dataran tinggi-cara tabel data. Seperti treemaps, daerah persegi panjang

Figure 2: Peta biologi panas biasanya digunakan dalam biologi molekuler untuk mewakili tingkat ekspresi banyak gen di sejumlah sampel sebanding (misalnya sel di negara-negara yang berbeda, sampel dari pasien yang berbeda) karena mereka diperoleh dari DNA microarray.

Figure 3: Tree map adalah partisi hirarkis 2D dari data yang secara visual menyerupai peta panas. dalam plot mosaik yang hirarki terorganisir. Sarana bahwa daerah yang persegi panjang bukannya kotak. Friendly (1994) survei sejarah dan penggunaan grak ini.
2.4 Skema Warna
Ada banyak skema warna yang berbeda yang dapat digunakan untuk menggambarkan heatmap, dengan keuntungan persepsi dan kerugian untuk setiap. Rainbow colormaps sering digunakan, agar manusia dapat merasakan nuansa lebih warna dari yang mereka dapat dari abu-abu, dan ini nantinya akan meningkatkan jumlah detail dipa- hami dalam gambar. Namun, ini tidak disarankan oleh banyak dalam komunitas ilmiah, dengan alasan sebagai berikut: 1. Warna kekurangan memesan persepsi alami yang ditemukan dalam grayscale atau hitam colormaps spektrum. 2. Colormaps umum (seperti "jet" colormap digunakan sebagai default di banyak paket perangkat lunak visualisasi) memiliki perubahan yang tidak terkendali di luminance yang mencegah konversi berarti untuk grayscale untuk tampilan atau pencetakan. Ini juga mengalihkan perhatian dari data aktual, sewenang-wenang membuat daerah kuning dan cyan tampil lebih menonjol dari pada daerah data yang sebenarnya paling penting. 3. Perubahan antara warna juga menyebabkan persepsi gradien yang tidak benar-benar hadir, membuat gradien yang sebenarnya kurang menonjol,

Figure 4: Sebuah plot mosaik adalah heatmap untuk mewakili dua arah atau lebih dataran tinggi-cara tabel data. Seperti treemaps, daerah persegi panjang dalam plot mosaik yang hirarki terorganisir. Sarana bahwa daerah yang persegi panjang bukannya kotak. Friendly (1994) survei sejarah dan penggunaan grak ini. yang berarti bahwa colormaps pelangi dapat rinci sebenarnya jelas dalam banyak kasus daripada meningkatkan itu.
2.5 Cluster Heatmap Cluster Heatmap atau Peta klaster panas adalah kotak atau persegi panjang dari matriks data dengan pohon klaster ditambahkan ke margin-nya. Dalam area tampilan yang relatif kompak, memfasilitasi pemeriksaan baris, kolom, dan struktur cluster bersama. Matriks data yang cukup besar (beberapa ribu baris / kolom) dapat dita- mpilkan secara efektif pada warna monitor resolusi tinggi dan ma- triks yang lebih besar dapat ditangani di media cetak atau di display megapiksel. Peta klaster panas terkenal dalam ilmu alam dan salah satu grak yang paling banyak digunakan dalam ilmu biologi. Sebagai Weinstein (2008) menyebutkan: Untuk visualisasi, sejauh ini representasi gras yang paling populer telah heatmap berkerumun, yang compacts sejumlah besar informasi ke dalam sebuah ruang kecil untuk membawa keluar pola yang koheren dalam data. ... Sejak debut mereka lebih dari 10 tahun yang lalu, peta berkerumun panas telah muncul di lebih dari 4000 publikasi biologis atau biomedis. Weinstein menggambarkan peta panas sebagai berikut: Dalam kasus ekspresi gen data, warna ditugaskan ke titik di peta panas jaringan menunjukkan berapa banyak dari RNA tertentu atau protein dinyatakan dalam sampel yang diberikan. Ekspresi gen Tingkat umumnya ditandai dengan warna merah untuk ekspresi tinggi dan baik hijau atau biru untuk ekspresi yang rendah. Pola koheren (patch) dari warna yang dihasilkan oleh pengelompokan hirarki pada kedua horisontal dan vertikal sumbu untuk membawa seperti bersama-sama dengan seperti. Hubungan Cluster ditandai dengan pohon-seperti struktur berdekatan dengan peta panas, dan patch warna dapat menunjukkan hubungan fungsional antara gen dan sampel. Gambar 1 menunjukkan peta panas khas seperti yang dijelaskan oleh Weinstein. Yang paling populer bioinformatika perangkat lunak un- tuk memproduksi gras ini didokumentasikan dalam Eisen et al. (1998). The Eisen kertas, yang menggambarkan sebuah cluster panas peta Program, adalah artikel yang paling dikutip ketiga di PNAS pada tanggal 1 Juli, 2008 (PNAS 2008). The "Debut" Weinstein men- gacu mungkin adalah debut dalam literatur biologi, tapi jelas tidak debut dalam literatur statistik. Komponen layar ini memiliki se- jarah panjang dalam grak statistik. Itu referensi biologi memberikan sedikit indikasi latar belakang untuk ide-ide yang mendasari diper- lukan untuk membangun peta panas. Pada artikel ini, kita menelusuri garis keturunan dari peta panas dan menunjukkan apa elemen yang

figure 4

Figure 6: akhirnya terintegrasi dalam tampilan yang ahli biologi akhirnya di-adopsi.
Untuk menjelaskan sejarah layar ini, kami akan menyajikan masing- masing komponen yang mendasari desain peta klaster panas. Beber- apa yang cukup lama, beberapa yang relatif baru.
2.5.1 Shading Matriks Pusat peta panas adalah matriks layar warna teduh. Berbayang menampilkan matriks yang lebih dari satu abad tua. Gambar 2 menunjukkan contoh dari Loua (1873). Gras ini merangkum berbagai statistik sosial di seluruh arondisemen Paris. Seperti gras lainnya dalam buku ini, itu digambar tangan dan berwarna. Shading tabel atau matriks adalah perangkat lama untuk menyoroti entri, baris, atau kolom. Akuntan, desainer gras, insinyur komputer, dan lain-lain telah menggunakan metode ini selama bertahun-tahun. Yang paling umum baru-baru ini aplikasi melibatkan penggunaan warna untuk baris warna, kolom, atau sel-sel dari spreadsheet. 2.5.2 Permuting Matriks Peta klaster panas tidak lebih dari warna. Ini permutes baris dan kolom dari matriks untuk mengungkapkan struktur. Permutasi matriks memiliki sejarah panjang juga. Seperti ide shading, menyortir matriks atau tabel untuk mengungkapkan struktur adalah lebih dari satu abad tua. Gambar 3 menunjukkan matriks diurutkan data pendidikan dari Brinton (1914). Gambar 4 menunjukkan contoh dari Bertin (1967). Jacques Bertin dikhususkan bab untuk menggambarkan kegunaan apa yang disebut matriks reorderable. Contoh nya diurutkan dengan tangan. Seriation Itu adalah antropolog yang mengembangkan salah satu model pertama untuk memesan matriks data. Petrie (1899) berusaha untuk mengatur ulang baris dan kolom dari matriks persegi panjang dari pengukuran pada antropologi artefak sehingga nilai terbesar akan dekat diagonal utama. Tujuan langsungnya adalah menggunakan atribut (kolom) untuk cerita artefak (baris) dalam rangka memulihkan memesan temporal di artefak. Tujuannya memiliki implikasi baik di luar materi pelajaran nya. Petrie telah mengidentikasi struktur Toeplitz tersirat dalam pemesanan matriks data berdasarkan waktu (atau beberapa dimensi lain). Artikelnya yang dihasilkan banyak literatur selama lebih dari satu abad pada topik bervariasi disebut seriation atau matriks penataan kembali (Robinson 1951; Kendall 1963; Mc- Cormick et al. 1972; Hubert 1974, 1976; Lenstra 1974; Ramah 2002; Ramah dan Kwan 2003; Climer dan Zhang 2006). Sepuluh tahun
setelah Petrie, Jan Czekanowski mengembangkan metode seriation dan menggunakan Dialog berbayang gram untuk mewakili struktur data blok-diagonal. Gambar 5 menunjukkan matriks diurutkan data pendidikan dari Czekanowski (1909). Display Czekanowski, kecuali kurangnya pewarnaan dan pohon klaster ditambahkan, adalah mirip dengan output dari program penataan kembali matriks komputer kontemporer (Liiv 2008) Guttman Scalogram Lima puluh tahun setelah Petrie, Louis Guttman memperkenalkan permutasi matriks untuk mengungkapkan yang berbeda satu dimensi struktur. The Guttman Scalogram (Guttman 1950) adalah metode langsung untuk pas model deterministik (a total order yang Guttman disebut Simplex) untuk matriks biner. Dalam metode Guttman, biner persegi panjang matriks itu permutasi dengan tangan (menggunakan kertas atau mesin tabulasi) untuk mendekati skala unidimensional: di bawah kuasi-diagonal yang menjadi sebanyak 1 sebagai mungkin dan atas kuasi-diagonal, sebanyak 0 sebagai mungkin. Sebuah matriks dengan struktur ini dikatakan scalable, menyiratkan pemesanan baris dan kolom. The Scalogram menemukan aplikasi luas dalam dekade berikutnya, terutama dalam ilmu-ilmu sosial. Ara- ure 6 menunjukkan contoh dari Rondinelli (1980). Program komputer akhirnya otomatis skala ini (Nie et al. 1970; Wilkinson 1979). Lainnya akhirnya mengembangkan program analisis visual interaktif untuk memungkinkan pengguna untuk mengeksplorasi permutasi mereka sendiri (Siirtola dan Makinen 2005). Dan statistik dikembangkan stochastic generalisasi model Guttman yang memungkinkan permutasi ini untuk diterapkan lebih luas (Goodman 1975; Andrich 1978). Clustering hirarkis
Untuk pohon biner dengan daun n, ada 2 -n 1 orderings linear yang mungkin dari daun dalam tata letak planar pohon. Algoritma clustering hirarki tidak menentukan tata letak tertentu. Oleh karena itu, kita perlu algoritma tambahan untuk Seriate baris / kolom dari matriks berkerumun. Gruvaeus dan WAINER (1972) mengembangkan algoritma serakah yang Wilkinson digunakan di layar SYSTAT. Gale et al. (1984) menyusun algoritma alternatif untuk tujuan ini. Makalah yang lebih baru membahas masalah ini secara rinci dan menentukan algoritma optimasi dengan fungsi obyektif yang dirancang untuk tugas (Wishart 1997; Bar-joseph dkk. 2003; Morris et al. 2003). Aspek yang diinginkan dari algoritma ini adalah bahwa mereka menghasilkan total order ketika ada (misalnya, ketika matriks asosiasi memiliki bentuk Toeplitz). Appending Trees Masih ada isu menambahkan pohon cluster untuk data matriks persegi panjang. Kita telah melihat contoh-contoh yang menambahkan sebuah pohon clustering untuk matriks asosiasi. Gower dan Digby (1981) mengambil langkah berikutnya dan ditambahkan pohon cluster untuk kedua baris dan kolom matriks asosiasi. Gambar 8 menunjukkan template mereka. Mereka tata letak dalam beberapa hal lebih unggul peta microarray panas modern, karena bersamaan menampilkan baris dan kolom kesamaan / perbedaan-perbedaan yang clustering didasarkan. Chen (2002) dan lainlain yang diadopsi desain ini. Ini adalah langkah singkat dari desain ini untuk tata letak yang dipilih oleh para ahli biologi. Pertama peta panas diterbitkan dalam bentuk ini muncul di Wilkinson (1994). Gambar 9 menunjukkan versi warna angka dari SYSTAT manual. Pada saat Eisen et al. (1998) muncul, ada puluhan ribu eksemplar SYSTAT beredar di komunitas ilmiah. Weinstein (2008) menemukan membangun klaster panas memetakan sebuah "proses mengejutkan halus." Deskripsinya kehalusan ini tidak akan mengejutkan ahli statistik. Mereka yang akrab dengan literatur klaster tahu bahwa ada literatur. Isu-isu mengenai pilihan ukuran jarak (Euclidean, tertimbang Eu- clidean, City Block, dll) dan pilihan metode linkage (tunggal, lengkap, rata-rata, pusat massa, Ward, dll). Kettenring (2006) membahas masalah ini dalam praktek. Selain itu,Weinstein menyebutkan masalah memesan daun clustering pohon, menunjukkan bahwa "beberapa tu- juan (tapi, untuk gelar, sewenang-wenang) aturan harus dipanggil un- tuk memutuskan mana cara masing-masing cabang akan, pada keny- ataannya, ayunan "Seperti yang telah kami sebutkan, ini bukan tu- juan yang sewenang-wenang.; itu a-didenisikan dengan baik masalah seriation. Paket statistik modern menerapkan tampilan peta panas

Figure 13:
sebagai bagian dari paket pengelompokan (misalnya, JMP dan SY- STAT) atau mereka membuatnya mudah untuk merencanakan peta panas menggunakan algoritma seriation (misalnya, R dan Stata). Dengan demikian, semua pilihan yang tersedia untuk pengelompokan atau analisis lainnya renderable di peta panas. Ini arsitektur eksibel menggarisbawahi fakta bahwa peta panas adalah reeksi visual model statistik. ini bukan pemesanan sewenang-wenang baris dan kolom klaster pohon. Secara umum, peta matriks panas dapat dianggap se- bagai display yang baris dan kolom telah permutasi melalui algoritma. Banyak referensi baru-baru ini dikutip dalam artikel ini menyebutkan eksplisit fungsi tujuan untuk mengevaluasi permutasi yang dihasilkan. Fungsi kerugian seriation populer adalah jumlah dari jarak antara baris dan kolom yang berdekatan. Kita dapat meminimalkan fungsi ini langsung pada dataset yang diberikan atau menggunakannya un- tuk mengevaluasi kebaikan dari seriation heuristik tertentu. Atau, kita dapat mencicipi nilai dari distribusi bivariat diketahui, menga- cak baris dan kolom dalam matriks data sampel, dan membandingkan solusi dari algoritma seriation berbeda. Wilkinson (2005) yang dihasilkan matriks persegi panjang yang baris dan kolom covariances ditentukan oleh lima berbeda struktur ko- varians: Toeplitz, Band, Edaran, Equicovariance, dan Blok diago- nal. Dia kemudian secara acak baris dan kolom permutasi sebelum menerapkan beberapa algoritma seriation yang berbeda, termasuk clustering, MDS, dan SVD. Secara keseluruhan, SVD pulih peme- sanan asli lebih baik daripada metode lain yang digunakan pada se- mua lima jenis matriks. Temuan ini menunjukkan bahwa SVD seder- hana mungkin yang terbaik metode seriation umum dan klaster yang metode harus dibatasi kepada mereka dataset mana model cluster yang sesuai. Jika SVD yang dipilih, maka salah satu harus memper- timbangkan metode yang kuat terakhir untuk dekomposisi ini (Liu et al. 2003). Untuk data microarray, itu masih merupakan pertanyaan terbuka apakah seriation berbasis hirarkis-clustering lebih berguna daripada pendekatan lain, meskipun popularitas dari metode ini.
Comments