Belajar tentang Outlier

Apa Itu Outlier atau pencilan merupakan data yang berbeda secara signifikan dari data lain dalam satu set data. Outlier dapat muncul karena kesalahan pengukuran, proses tidak terduga, atau bahkan dapat mengindikasikan adanya masalah dalam data itu sendiri. Pencilan dapat menjadi masalah dalam analisis data karena dapat menyebabkan hasil yang tidak akurat dan tidak dapat diandalkan.

Contoh sederhana dapat dijelaskan dengan mempertimbangkan sebuah set data tinggi badan siswa dalam kelas. Kurang dari 1% siswa dalam kelas memiliki tinggi badan 2 meter, sedangkan sisanya memiliki tinggi yang bervariasi antara 1,5 meter dan 1,8 meter. Pada contoh ini, siswa dengan tinggi badan 2 meter bisa dianggap sebagai outlier karena nilainya jauh lebih tinggi dari nilai rata-rata siswa lainnya yang hanya sekitar 1,6 meter.

Seorang analis data terkadang memilih untuk menghapus outlier dari set data karena bisa jadi mengganggu hasil analisis. Namun, pada contoh sebelumnya, oleh karena hanya sedikit siswa yang merupakan outlier, maka menghapus data itu mungkin tidak menjadi keputusan yang tepat. Dalam kasus yang lain, mempertahankan outlier dalam analisis dapat membantu menyatakan suatu trend pada data dengan lebih akurat.

Selain itu, outlier juga bisa menjadi titik data yang sangat penting dalam analisis karena bisa jadi memberikan sinyal atau indikasi adanya masalah atau trend yang layak untuk dieksplorasi lebih lanjut. Namun, dalam situasi yang lain, outlier mungkin memerlukan observasi lebih lanjut dan perbaikan dalam proses pengukuran dan proses bisnis.

Dalam bahasa statistika, outlier sering disebut sebagai data yang tidak biasa atau yang ekstrim. Namun, penting untuk mendekati outlier dengan objektivitas dan mempertimbangkan konteks dalam analisis data. Outlier dapat menjadi alat yang berguna untuk meningkatkan pemahaman tentang suatu fenomena atau masalah dalam data dan kualitas hasil analisis yang dihasilkan.

Yo, wassup guys? Hari ini kita bakalan explore topik yang lagi rame nih di dunia data science yaitu outlier. Gas keun aja, biar kamu jagoan data yahaha!

Jadi, outlier itu adalah data yang beda banget sama data-point lainnya. Gimana beda banget? Bentuknya bisa beda, ukurannya bisa beda-beda, atau nilainya bisa jauh lebih tinggi atau rendah dari data-point lainnya. Outlier sebenernya bisa jadi aneh dan bikin bingung loh, karena bisa jadi dia bagian dari data yang bener-bener diluar ekspektasi.

Nah, outlier ini bersifat sangat penting banget buat dunia data science. Karena meskipun dia agak aneh dan beda, outlier bisa sangat membantu banget dalam mencari tahu trend atau sinyal yang lain nggak terlihat dalam data.

Misalnya, ada studi yang menghubungkan polusi udara dengan kesehatan masyarakat di daerah tertentu. Kita ambil data dari beberapa tahun dan mendapatkan hasil yang lumayan konsisten. Tapi, di tahun-tahun tertentu, si outlier muncul. Kita liat-liat dan ternyata itu waktu adanya kebakaran hutan yang nyatanya bisa melepaskan polusi udara yang bikin kesehatan masyarakat makin buruk. Jadi, si outlier ini memberi kita informasi penting soal hubungan yang ada di antara polusi udara dan kesehatan masyarakat yang kalo nggak ditemukan, ya kita bisa miss buat nentuin korelasi yang beneran ada.

Tapi, kenapa outlier juga bisa jadi masalah, sih? Iya, dia bisa jadi punya pengaruh yang terlalu besar atau bikin kita salah ngambil kesimpulan. Misalnya kalau dia nilai dari pengukuran yang salah, atau data yang salah input. Ada juga yang bilang kalo outlier itu bisa jadi sinyal adanya masalah struktural dalam data kita.

Buat ngebantu temen-temen yang lagi main dengan data, ada beberapa teknik yang bisa kita pake untuk menangani si outlier ini. Yang pertama kita bisa pakai z-score yang bakal bantu kita menentukan seberapa jauh suatu data-point dari mean. Semua data-point yang punya z-score di atas 3 atau di bawah -3 bisa kita anggap sebagai outlier.

Teknik lain yang bisa kita pake adalah boxplot. Boxplot bisa bantu kita mengidentifikasi data yang berada lebih jauh dari outliers, dan bisa ngebantu kita lebih cepat paham distribusi data kita.

Jadi guys, outlier gak selalu jadi masalah. Kadang-kadang dia bisa jadi solusi bahkan membantu kita nentuin kesimpulan yang lebih kuat. Tapi, kita juga harus hati-hati dalam menanganinya dan pake teknik yang memang efektif soal menentukan outlier. Keep exploring data dan stay curious!