Friday 18 August 2017

Jaccard Similarity Binary Options


Dari Encyclopedia of Statistical Sciences, saya mengerti bahwa atribut p dikotomis (biner: 1present 0absent) (variabel), kita dapat membentuk tabel kontingensi untuk dua objek i dan j dari sebuah sampel: Kita dapat menghitung dari koefisien kemiripan nilai-nilai ini antara pasangan manapun Dari objek, khususnya koefisien fraktur Jaccard dan koefisien Russell dan Rao frac frac. Bila dihitung koefisien ini akan memberikan nilai yang berbeda, namun saya tidak dapat menemukan sumber yang menjelaskan mengapa saya harus memilih satu dari yang lain. Apakah hanya karena untuk beberapa dataset, ketidakhadiran simultan kedua atribut tersebut (d) tidak menyampaikan informasi yang diminta 13 13 di 21:24 Ada banyak koefisien seperti itu (sebagian besar dinyatakan di sini). Coba renungkan apa konsekuensi dari perbedaan formula, terutama bila Anda menghitung matriks koefisien. Bayangkan, misalnya, objek 1 dan 2 serupa, seperti objek 3 dan 4. Tapi 1 dan 2 memiliki banyak atribut pada daftar sementara 3 dan 4 hanya memiliki sedikit atribut. Dalam kasus ini, Russell-Rao (proporsi atribut gabungan dengan jumlah atribut yang dipertimbangkan) akan tinggi untuk pasangan 1-2 dan rendah untuk pasangan 3-4. Tapi Jaccard (proporsi atribut gabungan dengan jumlah atribut gabungan kedua objek memiliki probabilitas bahwa jika salah satu objek memiliki atribut maka keduanya memilikinya) akan tinggi untuk kedua pasangan 1-2 dan 3-4. Penyesuaian untuk tingkat dasar kejenuhan oleh atribut membuat Jaccard begitu populer dan lebih bermanfaat daripada Russell-Rao. misalnya Dalam analisis cluster atau multidimensional scaling. Anda mungkin, dalam arti tertentu, selanjutnya memperbaiki penyesuaian di atas dengan memilih ukuran Kulczynski-2 yang merupakan probabilitas mean aritmetika bahwa jika satu objek memiliki atribut, objek yang lain memilikinya juga: (frac frac) 2 Di sini dasar (atau bidang ) Atribut untuk dua objek tidak dikumpulkan, seperti pada Jaccard, tapi dimiliki untuk masing-masing dari dua objek. Akibatnya, jika objek sangat berbeda dengan jumlah atribut yang mereka miliki, dan semua atributnya, objek yang lebih miskin berbagi dengan yang lebih kaya, Kulczynski akan tinggi sedangkan Jaccard akan moderat. Atau Anda bisa memilih untuk menghitung probabilitas mean geometrik bahwa jika satu objek memiliki atribut, objek lainnya juga memilikinya, yang menghasilkan ukuran Ochiai: sqrt frac Karena produk meningkat lebih lemah daripada jumlah ketika hanya satu dari istilah yang tumbuh, Ochiai akan benar-benar tinggi. Hanya jika kedua dari dua proporsi (probabilitas) tinggi, yang menyiratkan bahwa untuk dianggap serupa oleh Ochiai, objek harus berbagi bagian besar atribut mereka. Singkatnya, Ochiai membatasi persamaan jika b dan c tidak sama. Ochiai sebenarnya adalah ukuran kesamaan kosinus (dan Russell-Rao adalah kesamaan produk titik). Apakah hanya karena untuk beberapa kumpulan data, ketidakhadiran secara bersamaan dari kedua atribut tersebut (d) tidak menyampaikan informasi apapun Berbicara mengenai langkah kesamaan, seseorang tidak boleh mencampur atribut dikotomasikan nominal (misalnya perempuan, laki-laki) dengan atribut biner (sekarang vs tidak ada). Atribut biner tidak simetris (secara umum), - jika Anda dan saya memiliki karakteristik, ini adalah dasar untuk memanggil kita serupa jika Anda dan saya sama-sama melewatkan karakteristiknya, mungkin atau mungkin tidak dianggap sebagai bukti kemiripan, tergantung pada Konteks penelitian. Oleh karena itu perlakuan d berbeda dari d adalah mungkin. Perhatikan juga bahwa jika Anda ingin menghitung kesamaan antara objek berdasarkan 1 atribut nominal (dikotomis atau polytomous), recode setiap variabel tersebut ke dalam himpunan variabel biner dummy. Kemudian ukuran kesamaan yang disarankan untuk dihitung adalah Dice (yang bila dihitung untuk 1 set variabel dummy, setara dengan Ochiai dan Kulczynski-2). Dijawab 17 Jun 13 at 9:45 Kegunaan koefisien Tanimoto atas keakuratan tradisional (yaitu Russell-Rao) terbukti dalam analisis citra, saat membandingkan segmentasi dengan standar emas. Perhatikan dua gambar berikut: Pada masing-masing gambar yang merupakan topeng biner, kita memiliki dua objek dengan ukuran yang sama namun ditempatkan pada lokasi yang sedikit berbeda, dan kita ingin mengevaluasi sejauh mana benda-benda ini identik dalam bentuk dan posisi dengan menilai tumpang tindihnya. . Biasanya satu (misalnya topeng ungu) adalah segmentasi (dihasilkan oleh algoritma komputer), mis. Ini bisa menjadi upaya untuk menemukan jantung dari citra medis. Yang lain, (mis. Hijau) adalah standar emas (yaitu hati, seperti yang diidentifikasi oleh dokter ahli). Dimana ada warna putih, dua bentuk tumpang tindih. Pixel hitam adalah latar belakang. Kedua gambar itu identik (yaitu hasil algoritma segmentasi, dan juga standar emas, sama pada kedua gambar tersebut), kecuali banyak padding latar belakang pada gambar kedua (misalnya ini bisa mewakili dua eksperimen dengan dua perbedaan Mesin x-ray, di mana mesin ke-2 memiliki sinar yang lebih lebar yang menutupi lebih banyak area tubuh, namun ukuran hati sama pada kedua gambar). Jelas, karena segmentasi dan standar emas pada kedua gambar itu identik, jika kita mengevaluasi akurasi segmentasi terhadap standar emas, kami ingin metrik kami menghasilkan hasil akurasi yang sama pada kedua eksperimen tersebut. Namun, jika kita mencoba menilai kualitas segmentasi menggunakan pendekatan Russel-Rao, kita akan mendapatkan akurasi yang sangat menyesatkan untuk gambar yang benar (mendekati 100), karena piksel latar belakang diidentifikasi dengan benar karena piksel latar belakang berkontribusi terhadap keakuratan keseluruhan. Set, dan piksel latar belakang tidak proporsional ditunjukkan pada set kedua. Benda-benda yang tumpang tindih yang ingin kita evaluasi dalam segmentasi medis seringkali merupakan bintik kecil dalam latar belakang yang sangat besar, jadi ini tidak terlalu berguna bagi kita. Selanjutnya, ini akan menyebabkan masalah jika kita mencoba membandingkan keakuratan satu algoritma segmentasi dengan algoritma lainnya, dan keduanya dievaluasi pada gambar dengan ukuran berbeda (atau, setara, pada skala yang berbeda). Ukuran penskalaan gambar embedding seharusnya tidak membuat perbedaan dalam evaluasi segmentasi terhadap standar emas. Sebaliknya, koefisien tanimoto tidak memperhatikan piksel latar belakang, sehingga membuatnya berubah menjadi skala. Jadi sejauh koefisien tanimoto diperhatikan, kesamaan kedua perangkat ini akan sama, menjadikannya metrik kesamaan yang jauh lebih bermanfaat bagi kita untuk digunakan untuk mengevaluasi kualitas algoritma segmentasi. Dijawab Jul 25 16 at 0: 14Jaccard similarity Kesamaan Jaccard (Jaccard 1902, Jaccard 1912) adalah indeks umum untuk variabel biner. Ini didefinisikan sebagai hasil bagi antara persimpangan dan gabungan dari variabel berpasangan dibandingkan di antara dua objek. Dalam persamaan d JAD adalah jarak Jaccard antara objek i dan j. Untuk dua record data dengan n variabel biner y variabel indeks k berkisar antara 0 sampai n -1. Empat kombinasi yang berbeda antara y i, k dan y j, k dapat dibedakan saat membandingkan variabel biner. Kombinasi ini adalah (00), (01), (10) dan (11). Jumlah kombinasi ini dapat dikelompokkan sebagai berikut: Karena masing-masing variabel berpasangan termasuk salah satu dari kelompok ini, mudah dilihat bahwa: Karena kesamaan Jaccard didasarkan pada kehadiran bersama, J 00 akan dibuang. Perbedaan Jaccard didefinisikan sebagai d JAD 1- d JAS. Dalam beberapa kasus, persamaan Jaccard dihitung sebagai d JAS 2 d BCD (1 d BCD). Dimana d BCD adalah ketidaksamaan BrayCurtis. Persamaan ini tidak mengurangi nilai ke keadaan biner. Dengan demikian, hasilnya berbeda bila menggunakan satu sisi matriks absensi dan di sisi lain merupakan matriks hitungan. Hasilnya sama, ketika matriks hitungan diubah menjadi matriks biner sebelumnya. Kesamaan Jaccard atau koefisien kesamaan Jaccard sering disebut indeks Jaccard. Bagaimanapun, istilah indeks Jaccard kadang-kadang digunakan untuk ketidaksamaan Jaccard, sementara perbedaan Jaccard kadang-kadang disebut jarak Jaccard. Dapat diamati bahwa istilah Jaccard similarity dan Jaccard dissimilarity tidak secara tepat dipisahkan dan terkadang nampaknya digunakan sinonim atau membingungkan, walaupun hasilnya mewakili makna yang berlawanan. Dengan demikian, seseorang harus hati-hati memeriksa maksud analisisnya. Kesamaan Jaccard dapat digunakan, ketika intersted dalam perbedaan biner antara dua atau lebih objek. Terutama dalam penyelidikan penelitian ekologi yang sering fokus pada kehadiran di antara beberapa situs. Bila tertarik untuk mengkarakterisasi situs dibandingkan dengan kemungkinan spesies untuk menetap di sana, kelimpahan seringkali diabaikan. Algoritma mengontrol apakah matriks input data berbentuk segi empat atau tidak. Jika tidak, fungsi mengembalikan FALSE dan matriks output yang pasti namun kosong. Bila matriksnya berbentuk segi empat, persamaan Jaccard akan dihitung. Oleh karena itu, dimensi dari masing-masing susunan matriks output ditetapkan, dan judul untuk baris dan kolom ditetapkan. Hasilnya adalah matriks bujursangkar, yang dicerminkan sepanjang nilai diagonal hanya untuk satu bagian segitiga dan diagonal dihitung. Ketika kesalahan terjadi selama perhitungan fungsi mengembalikan FALSE. Untuk alasan praktis, implementasi algoritma tidak memerlukan data biner sejati. Ini membedakan apakah sebuah nilai 0 atau dalam batas tertentu yang dekat dengannya. Dalam hal ini akan diartikan sebagai logika FALSE. misalnya ketiadaan. Nilai yang lebih besar dari ambang batas yang diberikan ditafsirkan sebagai logika logis. misalnya kehadiran. Dengan demikian, dimungkinkan tanpa persiapan lebih lanjut untuk melewatkan matriks hitungan ke fungsi. Karena ambang batas yang diberikan mempengaruhi semua nilai secara sama, hal itu tidak mengubah karakteristik metriknya. Untuk menghitung ketidaksamaan Jaccard matriks kesamaan Jaccard dihitung terlebih dahulu dan kemudian ditransformasikan. Untuk data matriks aInputMatrix dari tipe t2dVariantArrayDouble. Dihuni dengan: Kita tahu bahwa Jaccard (dihitung antara dua kolom data biner bf) adalah frac, sedangkan Rogers-Tanimoto adalah frac, di mana sejumlah baris di mana kedua kolom adalah 1 b - jumlah baris dimana ini dan bukan yang lain Kolom adalah 1 c - jumlah baris dimana kolom lainnya dan bukan kolom ini adalah 1 d - jumlah baris dimana kedua kolom adalah 0 abcdn, jumlah baris dalam bf bf XXA adalah matriks simetris persegi antara satu kolom. Bf (bukan X) (bukan X) D adalah matriks simetris persegi d antara semua kolom (bukan X yang mengonversi 1-0 dan 0-1 di X). Jadi, frac adalah matriks simetris kuadrat Jaccard di antara semua kolom. Frac frac adalah matriks simetris persegi dari Rogers-Tanimoto di antara semua kolom. Saya memeriksa secara numerik jika formula ini memberikan hasil yang benar. Mereka lakukan Pembaruan Anda juga dapat memperoleh matriks bf B dan bf C: bf B 1X-A, di mana 1 menunjukkan matriks yang, berukuran seperti huruf X. bf adalah matriks asimetris persegi b antara semua kolom dengan elemen ij adalah jumlah baris di Bf X dengan 0 pada kolom i dan 1 pada kolom j. Konsekuensinya, bf CB. Matriks bf D juga bisa dihitung dengan cara ini, tentu saja: n bf - A-B-C. Mengetahui matriks bf A, B, C, D, Anda dapat menghitung matriks koefisien kemiripan berpasangan (dis) yang ditemukan untuk data biner. Fraksi tidak masuk akal untuk matriks kecuali jika mereka bepergian: mengalikan di sebelah kanan dengan kebalikan sebaliknya akan memberikan hasil yang berbeda daripada mengalikan di sebelah kiri. Selain itu, biasanya tidak terjadi bahwa produk dari dua matriks simetrik simetris. Apakah Anda mungkin bermaksud komponen-oleh-komponen divisi Bisakah Anda memperbaiki notasi Anda untuk mencerminkan apa yang Anda inginkan adalah rumus yang benar di mana saya tidak menggunakan inversi atau penggandaan matriks simetris persegi. X adalah matriks data biner dan X39X adalah matriks SSCP-nya. Bukan X adalah X dimana 1-gt0, 0-gt1. Dan pembagian di sini adalah pembagian yang elementwise. Tolong perbaiki notasi saya jika anda melihatnya tidak sesuai. Ndash ttnphns 7 Feb 13 at 7:29 Solusi di atas tidak begitu bagus jika X jarang. Karena mengambil X akan membuat matriks padat, mengambil sejumlah besar memori dan perhitungan. Solusi yang lebih baik adalah menggunakan rumus Jaccardi, j common (i j - common). Dengan matriks yang jarang Anda bisa melakukannya sebagai berikut (perhatikan kode juga bekerja untuk matriks yang tidak jarang): Ini mungkin atau mungkin tidak berguna bagi Anda, tergantung pada kebutuhan Anda. Dengan asumsi bahwa Anda tertarik pada kesamaan antara tugas pengelompokan: The Jaccard similarity Coefficient atau Jaccard Index dapat digunakan untuk menghitung kesamaan dua tugas pengelompokan. Mengingat label L1 dan L2. Ben-Hur, Elisseeff, dan Guyon (2002) telah menunjukkan bahwa indeks Jaccard dapat dihitung dengan menggunakan dot-products dari matriks perantara. Kode di bawah ini dengan cepat menghitung Indeks Jaccard tanpa harus menyimpan matriks perantara di memori. Kode ditulis dalam C, tapi bisa diisikan ke R menggunakan perintah sourceCpp. Jawab 7 Okt 15 at 5:47 Jawaban Anda 2017 Stack Exchange, IncSo saya memiliki array 3D yang sangat besar yang merupakan pemindaian beberapa jaringan. Saya harus bisa mengganti semua entri non zero dalam array ini dengan 1, dan menyimpan semua angka nol sama. Bagaimana saya bisa melakukan ini Kemudian, setelah saya melakukan ini, saya perlu menghitung koefisien kemiripan jaccard (JSC) yang dapat saya gunakan untuk membangun matlabs dalam fungsi union () dan memotong (). Saya hanya perlu menemukan cara untuk menemukan jumlah voxel di jaringan (yaitu jika array saya adalah x. Saya perlu mencari x) Bantuan apa pun dihargai 22 Jan at 14:46

No comments:

Post a Comment