Hitung pencilan

Pengarang: Charles Brown
Tanggal Pembuatan: 8 Februari 2021
Tanggal Pembaruan: 1 Juli 2024
Anonim
STATISTIKA #5_Menentukan Pencilan (Outlier)
Video: STATISTIKA #5_Menentukan Pencilan (Outlier)

Isi

SEBUAH outlier atau outlier dalam statistik adalah titik data yang berbeda secara signifikan dari titik data lain dalam sampel. Seringkali, pencilan menunjukkan perbedaan atau kesalahan dalam pengukuran ke ahli statistik, setelah itu mereka dapat menghapus pencilan dari kumpulan data. Jika mereka benar-benar memilih untuk menghapus pencilan dari kumpulan data, itu bisa menghasilkan perubahan signifikan dalam kesimpulan yang diambil dari penelitian. Inilah mengapa penting untuk menghitung dan menentukan pencilan jika Anda ingin menafsirkan data statistik dengan benar.

Melangkah

  1. Pelajari cara mengenali kemungkinan pencilan. Sebelum kita dapat memutuskan apakah akan menghapus nilai anomali dari kumpulan data tertentu, tentu saja kami harus terlebih dahulu mengidentifikasi kemungkinan pencilan dalam kumpulan data. Secara umum, pencilan adalah titik data yang menyimpang secara signifikan dari tren yang membentuk nilai lain dalam himpunan - dengan kata lain, mereka memancar dari nilai-nilai lainnya. Biasanya mudah untuk mengenali ini dalam tabel dan (terutama) dalam grafik. Jika kumpulan data dibuat grafik secara visual, pencilan akan "jauh" dari nilai lainnya. Misalnya, jika sebagian besar titik dalam kumpulan data membentuk garis lurus, pencilan tidak akan mengikuti garis ini.
    • Mari kita lihat kumpulan data yang menunjukkan suhu 12 objek berbeda di sebuah ruangan. Jika suhu 11 benda berfluktuasi paling banyak beberapa derajat sekitar 21 ° C, sedangkan satu benda, oven, memiliki suhu 150 ° C, Anda dapat melihat sekilas bahwa oven itu mungkin pencilan.
  2. Urutkan semua poin data dari terendah hingga tertinggi. Langkah pertama dalam menghitung pencilan adalah menemukan nilai median (atau nilai tengah) dari kumpulan data. Tugas ini menjadi jauh lebih mudah jika nilai dalam kumpulan diurutkan dari terendah ke tertinggi. Jadi sebelum melanjutkan, urutkan nilai-nilai dalam dataset Anda seperti ini.
    • Mari lanjutkan dengan contoh di atas. Berikut adalah kumpulan data kami yang menunjukkan suhu dalam derajat Fahrenheit berbagai objek dalam ruangan: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jika kita mengurutkan nilai dalam himpunan dari terendah ke tertinggi, ini menjadi himpunan baru kita: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Hitung median kumpulan data. Median set data adalah titik data dengan separuh data berada di atasnya, dan separuh data berada di bawahnya - ini, pada dasarnya, merupakan "pusat" set data. Jika kumpulan data berisi jumlah titik ganjil, median mudah ditemukan - median adalah titik dengan jumlah titik di atas seperti di bawah ini. Jika ada jumlah titik genap, karena tidak ada satu pusat, Anda harus mengambil rata-rata dari dua titik pusat untuk mencari median. Saat menghitung pencilan, median biasanya dirujuk oleh variabel Q2 - karena terletak di antara Q1 dan Q3, kuartil pertama dan ketiga. Kami akan menentukan variabel-variabel ini nanti.
    • Jangan bingung dengan kumpulan data dengan jumlah titik genap - rata-rata dari dua titik tengah seringkali merupakan angka yang tidak ada dalam kumpulan data itu sendiri - ini tidak masalah. Namun, jika dua titik tengahnya sama, meannya tentu saja juga angka ini - juga ini baik.
    • Dalam contoh kami, kami memiliki 12 poin. Dua suku tengah masing-masing adalah titik 6 dan 7 - 70 dan 71. Jadi median kumpulan data kita adalah rata-rata dari dua titik ini: ((70 + 71) / 2) =70,5.
  4. Hitung kuartil pertama. Titik ini, yang kami nyatakan dengan variabel Q1, adalah titik data di bawah 25 persen (atau seperempat) pengamatan berada. Dengan kata lain, ini adalah pusat dari semua titik dalam kumpulan data Anda di bawah median. Jika ada angka genap di bawah median, Anda harus mengambil lagi rata-rata dari dua nilai tengah untuk mencari Q1, seperti yang mungkin Anda lakukan untuk menentukan median sendiri.
    • Dalam contoh kita, enam poin berada di atas median dan enam poin di bawahnya. Jadi untuk menemukan kuartil pertama kita harus mengambil rata-rata dari dua titik tengah di enam titik terbawah. Poin 3 dan 4 dari enam terbawah keduanya adalah 70, jadi rata-ratanya adalah ((70 + 70) / 2) =70. Jadi nilai kita untuk Q1 adalah 70.
  5. Hitung kuartil ketiga. Titik ini, yang kami tunjukkan dengan variabel Q3, adalah titik data di atas yang 25 persen datanya berada. Menemukan Q3 secara praktis sama dengan mencari Q1, kecuali kita melihat poin-poin dalam kasus ini atas median.
    • Melanjutkan contoh di atas, kita melihat bahwa dua titik tengah dari enam titik di atas median adalah 71 dan 72. Rata-rata dari kedua titik ini adalah ((71 + 72) / 2) =71,5. Jadi nilai kami untuk Q3 adalah 71,5.
  6. Temukan rentang interkuartil. Sekarang setelah kita menentukan Q1 dan Q3, kita harus menghitung jarak antara kedua variabel ini. Anda dapat mencari jarak antara Q1 dan Q3 dengan mengurangi Q1 dari Q3. Nilai yang Anda peroleh untuk rentang interkuartil sangat penting untuk menentukan batas untuk titik non-deviasi dalam kumpulan data Anda.
    • Dalam contoh kita, nilai untuk Q1 dan Q3 masing-masing adalah 70 dan 71.5. Untuk mencari rentang interkuartil, kita menghitung Q3 - Q1: 71,5 - 70 =1,5.
    • Ini berfungsi bahkan jika Q1, Q3, atau kedua angka itu negatif. Misalnya, jika nilai kita untuk Q1 adalah -70, kisaran interkuartilnya adalah 71,5 - (-70) = 141,5, yang mana itu benar.
  7. Temukan "Batasan Dalam" dari kumpulan data. Anda dapat mengenali pencilan dengan menentukan apakah pencilan termasuk dalam sejumlah batas numerik; yang disebut "batas dalam" dan "batas luar". Titik yang berada di luar batas dalam kumpulan data diklasifikasikan sebagai satu pencilan ringan, dan titik di luar batas terluar diklasifikasikan sebagai satu pencilan ekstrim. Untuk menemukan batas dalam kumpulan data Anda, pertama-tama kalikan rentang interkuartil dengan 1,5. Tambahkan hasilnya ke Q3 dan kurangi dari Q1. Kedua hasil tersebut adalah batas dalam kumpulan data Anda.
    • Dalam contoh kita, rentang interkuartil adalah (71,5 - 70), atau 1,5. Kalikan ini dengan 1,5 untuk mendapatkan 2,25. Kami menambahkan nomor ini ke Q3 dan menguranginya dari Q1 untuk menemukan batas dalam sebagai berikut:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Jadi batas internalnya 67,75 dan 73,75.
    • Dalam kumpulan data kami, hanya suhu oven - 300 derajat Fahrenheit - yang berada di luar kisaran ini. Jadi ini mungkin pencilan ringan. Namun, kami belum menentukan apakah suhu ini merupakan pencilan yang ekstrim, jadi jangan langsung menyimpulkan.
  8. Temukan "batas luar" dari kumpulan data. Anda melakukan ini dengan cara yang sama seperti pada batas dalam, dengan satu-satunya perbedaan adalah Anda mengalikan jarak interkuartil dengan 3, bukan 1,5. Anda kemudian menambahkan hasilnya ke Q3 dan mengurangi dari Q1 untuk menemukan nilai batas terluar.
    • Dalam contoh kita, kita mengalikan jarak interkuartil dengan 3 untuk mendapatkan (1,5 * 3) atau 4,5. Sekarang kita dapat menemukan batas terluar dengan cara yang sama seperti batas dalam:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Jadi batas terluarnya adalah 65,5 dan 76.
    • Titik data yang berada di luar batas eksternal dianggap sebagai pencilan yang ekstrim. Dalam contoh kami, suhu oven, 300 derajat Fahrenheit, berada di luar batas luar. Jadi suhu ovennya pasti pencilan ekstrim.
  9. Gunakan penilaian kualitatif untuk menentukan apakah Anda harus "membuang" pencilan. Dengan metode di atas Anda dapat menentukan apakah titik-titik tertentu merupakan pencilan ringan, pencilan ekstrim atau tidak ada pencilan sama sekali. Tapi jangan salah - mengakui suatu titik sebagai pencilan membuatnya hanya satu calon untuk dihapus dari kumpulan data, dan tidak langsung menjadi titik yang dihapus harus berubah menjadi. Itu alasan mengapa pencilan berbeda dari poin-poin lain dalam kumpulan sangat penting dalam menentukan apakah pencilan harus dihapus. Umumnya, pencilan yang disebabkan oleh beberapa kesalahan - kesalahan dalam pengukuran, dalam rekaman atau dalam desain eksperimental, misalnya - dihilangkan. Sebaliknya, pencilan yang tidak disebabkan oleh kesalahan dan yang mengungkapkan informasi atau tren baru biasanya menjadi tidak dihapus.
    • Kriteria lain yang perlu dipertimbangkan adalah apakah pencilan mempengaruhi rata-rata kumpulan data dengan cara yang miring atau menyesatkan. Ini sangat penting jika Anda berencana menarik kesimpulan dari mean kumpulan data Anda.
    • Mari kita menilai teladan kita. Sejak paling tinggi Kecil kemungkinan tungku mencapai suhu 300 ° F karena beberapa kekuatan alam yang tidak terduga, dalam contoh kita, kita dapat menyimpulkan dengan hampir 100% kepastian bahwa tungku tidak sengaja dihidupkan, menyebabkan pembacaan suhu tinggi yang tidak normal. Selain itu, jika kita tidak menghapus pencilan, rata-rata kumpulan data kita menjadi (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 ° F, sedangkan mean tanpa pencilan keluar menjadi (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Karena pencilan disebabkan oleh kesalahan manusia, dan karena tidak benar untuk mengatakan bahwa suhu ruangan rata-rata mendekati 32 ° C, kita harus memilih untuk menggunakan pencilan. menghapus.
  10. Pahami pentingnya (terkadang) mempertahankan pencilan. Meskipun beberapa pencilan harus dihapus dari kumpulan data karena itu adalah hasil dari kesalahan atau karena pencilan hasil dengan cara yang menyesatkan, pencilan lainnya harus dipertahankan. Misalnya, jika pencilan telah diperoleh dengan benar (dan oleh karena itu bukan merupakan hasil dari kesalahan) dan / atau jika pencilan menawarkan wawasan baru tentang fenomena yang akan diukur, pencilan tidak boleh segera dihapus. Eksperimen ilmiah adalah situasi yang sangat sensitif ketika berurusan dengan pencilan - secara keliru menghapus pencilan dapat berarti membuang informasi penting tentang tren atau penemuan baru.
    • Misalnya, bayangkan kita sedang merancang obat baru untuk membuat ikan di peternakan ikan menjadi lebih besar. Mari kita gunakan kumpulan data lama kita ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), dengan perbedaan bahwa setiap titik sekarang mewakili massa ikan (dalam gram ) setelah pengobatan dengan obat eksperimental lain sejak lahir. Dengan kata lain, obat pertama memberi satu ikan massa 71 gram, obat kedua memberi ikan lain massa 70 gram, dan seterusnya. Dalam situasi ini, 300 masih pencilan yang sangat besar, tetapi kita tidak harus menghapusnya sekarang. Karena, jika kita berasumsi bahwa pencilan bukanlah hasil dari kesalahan, itu merupakan kesuksesan besar dalam percobaan kita. Obat yang menghasilkan ikan 300 gram bekerja lebih baik daripada obat lain, jadi inilah obatnya paling titik data penting di set kami, bukan paling sedikit titik data penting.

Tips

  • Jika Anda menemukan outlier, coba jelaskan sebelum menghapusnya dari dataset; mereka dapat menunjukkan kesalahan atau penyimpangan pengukuran dalam distribusi.

Kebutuhan

  • Kalkulator