fbpx

Pengaruh Adanya Outliers terhadap Analisis Statistik

Bagikan Postingan Ini

Seringkali kita merasa gagal sebagai peneliti ketika hasil analisis statistik kita ternyata tidak sesuai dengan hipotesis kita atau hasil uji statistik kita tidak signifikan. Menanggapi kemungkinan buruk tersebut, kita seharusnya tidak tergesa-gesa mengambil kesimpulan bahwa hipotesis kita tidak terbukti. Kita harus mencari tahu terlebih dahulu apakah analisis yang kita gunakan sudah tepat, atau data yang kita gunakan sudah benar-benar dapat dipertanggungjawabkan. Salah satu penyebab kacaunya hasil analisis statistik kita adalah karena adanya data outliers.

Apa itu outliers?

Outliers adalah data yang memiliki nilai sangat jauh dari nilai umumnya, atau dengan kata lain memiliki nilai yang ekstrem. Adanya outliers ini dapat berpengaruh pada hasil uji asumsi, seperti uji normalitas, lineraritas, maupun homogenitas varians. Lebih parah lagi, outliers ini dapat berpengaruh pada pegambilan kesimpulan penelitian dari hasil uji statistik. Ada beberapa faktor yang menyebabkan munculnya data outliers, diantaranya adalah:

  • Kesalahan penginputan data
  • Kesalahan pengambilan sampel
  • Subjek yang mengerjakan secara asal-asalan
  • Fakta di lapangan memang demikian

 

Jika alasan munculnya outliers adalah karena kesalahan penginputan, maka bisa kita koreksi. Namun jika munculnya outliers adalah karena kesalahan pengambilan sampel atau subjek yang mengerjakan secara asal-asalan, maka lebih baik kita bersihkan terlebih dahulu data tersebut sebelum kita melakukan analisis statistik.

Cara mengidentifikasi outliers

Ada berbagai macam cara mengidentifikasi outliers, seperti dengan menampilkan histogram, menampilkan nilai Z, dan boxplot. Secara umum, data disebut outliers jika memiliki nilai Z di atas 2,5 atau di bawah -2,5. Berikut adalah cara mengidentifikasi dengan boxplot di SPSS. Untuk melihat data outliers, kita dapat melakukannya di menu analyze – descriptive statistics – explore. Kemudian kita masukan variabel yang dinyatakan tidak normal, yakni variabel kepuasan ke kotak dependent list, lalu klik menu statistics dan centang bagian outliers. Jika sudah klik continue dan OK.

Baca Juga :   Prodi Sistem Informasi: Serba-serbi yang Harus Diketahui

Untuk melihat data mana saja yang terindikasi sebagai outliers, kita dapat langsung menuju bagian boxplot pada output. Hasil output boxplot data kita dapat dilihat pada gambar di bawah.

Gambar tersebut mengindikasikan data-data mana saja yang terindikasi merupakan data ekstrem atau outliers.  Jika data berada di atas kotak, menunjukkan data ekstrem tinggi, sedangkan jika berada di bawah kotak menunjukkan data ekstrem rendah. Semakin jauh dari kotak, semakin ekstrem data tersebut. Dari output di atas kita dapat melihat bahwa subjek nomer 1, 2, 3, 4, 5 terindikasi sebagai outliers. Subjek nomer 1 dan 2 merupakan subjek yang paling ekstrem nilainya.

Dampak outliers pada uji statistik

Outliers dapat mengubah kesimpulan penelitian yang diambil dari hasil analsis statistik. Berikut ini adalah contoh penelitian mengenai “hubungan antara pelayanan istri dengan kepuasan suami”. Untuk melihat hubungan kedua variabel tersebut di SPSS, dapat dilihat dari menu analyze – correlate – bivariate. Lalu masukkan variabel kepuasan dan pelayanan, lalu klik OK.

Jika dilihat dari output di atas, diperoleh nilai r=0,167 dan p=0,129 (p>0,05), sehingga diperoleh kesimpulan tidak ada hubungan antara pelayanan istri dengan kepuasan suami. Namun apakah memang benar demikian? Mari kita lihat scaterplot dan garis korelasi kedua variabel tersebut.

Untuk melihat scaterplot, klik graph – legacy dialogs – scatter/dot – simple scatter – define. Lalu masukkan variabel kepuasan ke Y axispelayanan ke X Axix, dan ID ke label cases by. Kemudian klik options dan centang display charts with case labels.   

Jika sudah tekan continue dan OK, maka kita akan mendapatkan ouput berupa scatterplot. Untuk menampilkan garis korelasi scatterplot kita, doble klik pada gambar scatterplot, lalu klik menu add fit line at total yang berada di atas gambarMaka akan diperoleh output seperti gambar di bawah ini.

Baca Juga :   Saya Belum Paham Programming, Apakah Bisa Masuk Jurusan Ilmu Komputer / IT?

Dari gambar di atas daat kita lihat bahwa terdapat dua subjek yang memiliki nilai jauh sekali dari garis korelasinya. Hal ini tentu akan berpengaruh pada kemiringan garis korelasi. Nilai R square yang menunjukkan sumbangan efektif variabel pelayanan terhadap kepuasan hanya sebesar 0,026 (2,6%). Adanya outliers yakni subjek nomer 1 dan 2 menarik garis korelasi, yang menyebabkan hubungan kedua variabel tersebut menjadi lemah.

Sekarang mari kita coba hapus dua outliers tersebut. Untuk menghapus data subjek, klik kanan pada nomer subjek, lalu pilih clear. Untuk menghapus, jangan lupa, kita menghapus dari subjek yang bawah terlebih dahulu, agar nomer subjek tidak bergeser nantinya. Setelah data outliers tersebut kita hapus, kita anlisis ulang data kita dengan analisis korelasi pearson. Hasil analisis ulang kita adalah sebagai berikut.

Dari output tersebut terlihat bahwa garis korelasi menjadi lebih curam, semakin mendekati 45 derajat jika dibanding sebelumnya. Nilai R Square juga meningkat menjadi 0,145 (14,5%).

Simulasi ini menunjukkan bahwa adanya dua subjek yang memiliki nilai ekstrem ternyata dapat membuat pengaruh yang begitu besar dalam kesimpulan hasil analisis statistik. Analisis statistik yang melibatkan outliers, meskipun hanya dua orang, menghasilkan kesimpulan tidak signifikan. Sedangkan ketika outliers dihapus, hasil analisis menjadi signifikan dan nilai R Square juga meningkat. Jadi ketika kita hendak mengambil kesimpulan akan hasil analisis kita, terlebih dahulu kita harus mengecek data kita apakah sudah bersih atau belum.

Beri Komentar Pada Artikel Ini

Berikan komentar Anda kepada saya disini

Leave a Comment

Your email address will not be published. Required fields are marked *

Berlangganan Artikel Saya

Dapatkan pembaruan dan pelajari dari yang terbaik

Lebih Banyak Untuk Dijelajahi