STATISTIKA

Website ini dapat diakses melalui link https://s.id/materistatistika

PENGANTAR

Statistik

Statistik adalah disiplin yang menyangkut pengumpulan, pengorganisasian, penyajian, analisis, interpretasi, dan penyajian data. [1] [2] [3] Dalam menerapkan statistik pada masalah ilmiah, industri, atau sosial, adalah konvensional untuk memulai dengan populasi statistik atau model statistik yang akan dipelajari. Populasi dapat beragam kelompok orang atau benda seperti "semua orang yang tinggal di suatu negara" atau "setiap atom yang menyusun kristal". Statistik berkaitan dengan setiap aspek data, termasuk perencanaan pengumpulan data dalam hal desain survei dan eksperimen . [4] Lihat glosarium probabilitas dan statistik.

Ketika data sensus tidak dapat dikumpulkan, ahli statistik mengumpulkan data dengan mengembangkan desain eksperimen tertentu dan sampel survei . Sampling representatif memastikan bahwa kesimpulan dan kesimpulan dapat diperluas dari sampel ke populasi secara keseluruhan. Sebuah studi eksperimental melibatkan mengambil pengukuran sistem yang diteliti, memanipulasi sistem, dan kemudian mengambil pengukuran tambahan menggunakan prosedur yang sama untuk menentukan apakah manipulasi telah memodifikasi nilai-nilai pengukuran. Sebaliknya, penelitian observasional tidak melibatkan manipulasi eksperimental.

Dua metode statistik utama digunakan dalam analisis data : statistik deskriptif , yang merangkum data dari sampel menggunakan indeks seperti mean atau standar deviasi , dan statistik inferensial , yang menarik kesimpulan dari data yang tunduk pada variasi acak (misalnya, kesalahan pengamatan, variasi pengambilan sampel). [5] Statistik deskriptif paling sering berkaitan dengan dua set properti distribusi (sampel atau populasi): kecenderungan pusat (atau lokasi ) berusaha untuk mengkarakterisasi nilai pusat atau khas distribusi, sementara dispersi (atauvariabilitas ) mencirikan sejauh mana anggota distribusi berangkat dari pusat dan satu sama lain. Kesimpulan tentang statistik matematika dibuat di bawah kerangka teori probabilitas , yang berkaitan dengan analisis fenomena acak.

Prosedur statistik standar melibatkan pengujian hubungan antara dua set data statistik, atau set data dan data sintetis yang diambil dari model ideal. Sebuah hipotesis diusulkan untuk hubungan statistik antara dua set data, dan ini dibandingkan sebagai alternatif untuk hipotesis nol yang diidealkan tidak ada hubungan antara dua set data. Menolak atau menyangkal hipotesis nol dilakukan dengan menggunakan uji statistik yang mengukur rasa nol dapat dibuktikan salah, mengingat data yang digunakan dalam tes. Bekerja dari hipotesis nol, dua bentuk dasar kesalahan diakui: Kesalahan tipe I (hipotesis nol ditolak secara salah dengan memberikan "false positive") dan kesalahan Tipe II(hipotesis nol gagal ditolak dan hubungan aktual antara populasi tidak terjawab sehingga memberikan "false negative"). [6] Berbagai masalah telah dikaitkan dengan kerangka kerja ini: mulai dari mendapatkan ukuran sampel yang cukup hingga menentukan hipotesis nol yang memadai. [ rujukan? ]

Proses pengukuran yang menghasilkan data statistik juga mengalami kesalahan. Banyak dari kesalahan ini diklasifikasikan sebagai acak (noise) atau sistematis ( bias ), tetapi jenis kesalahan lainnya (misalnya, kesalahan, seperti ketika analis melaporkan unit yang salah) juga dapat terjadi. Kehadiran data atau sensor yang hilang dapat menghasilkan estimasi yang bias dan teknik khusus telah dikembangkan untuk mengatasi masalah ini.

Tulisan-tulisan paling awal tentang probabilitas dan statistik , metode statistik yang diambil dari teori probabilitas , berasal dari ahli matematika dan kriptografi Arab , terutama Al-Khalil (717-786) [7] dan Al-Kindi (801–873). [8] [9] Pada abad ke-18, statistik juga mulai menarik banyak dari kalkulus . Dalam beberapa tahun terakhir statistik lebih mengandalkan perangkat lunak statistik untuk menghasilkan tes seperti analisis deskriptif. [10]


Pendahuluan

Statistik adalah badan ilmu matematika yang berkaitan dengan pengumpulan, analisis, interpretasi atau penjelasan, dan penyajian data , [11] atau sebagai cabang matematika . [12]Beberapa menganggap statistik sebagai ilmu matematika yang berbeda daripada cabang matematika. Sementara banyak investigasi ilmiah menggunakan data, statistik berkaitan dengan penggunaan data dalam konteks ketidakpastian dan pengambilan keputusan dalam menghadapi ketidakpastian. [13] [14]

Dalam menerapkan statistik pada suatu masalah, adalah praktik umum untuk memulai dengan populasi atau proses yang akan dipelajari. Populasi dapat beragam topik seperti "semua orang yang tinggal di suatu negara" atau "setiap atom yang menyusun kristal". Idealnya, ahli statistik mengumpulkan data tentang seluruh populasi (sebuah operasi yang disebut sensus ). Ini dapat diselenggarakan oleh lembaga statistik pemerintah. Statistik deskriptif dapat digunakan untuk merangkum data populasi. Deskriptor numerik termasuk mean dan standar deviasi untuk tipe data kontinu (seperti pendapatan), sedangkan frekuensi dan persentase lebih berguna dalam hal menggambarkan data kategorikal (seperti pendidikan).

Ketika sensus tidak layak, subset populasi yang dipilih yang disebut sampel dipelajari. Setelah sampel yang mewakili populasi ditentukan, data dikumpulkan untuk anggota sampel dalam pengaturan observasional atau eksperimental . Sekali lagi, statistik deskriptif dapat digunakan untuk meringkas data sampel. Namun, gambar sampel telah tunduk pada unsur keacakan, maka deskriptor numerik yang ditetapkan dari sampel juga karena ketidakpastian. Untuk masih menarik kesimpulan yang berarti tentang seluruh populasi, statistik inferensialdibutuhkan. Menggunakan pola dalam data sampel untuk menarik kesimpulan tentang populasi yang diwakili, akuntansi untuk keacakan. Kesimpulan ini dapat berupa: menjawab ya / tidak pertanyaan tentang data ( pengujian hipotesis ), memperkirakan karakteristik numerik data ( estimasi ), menggambarkan asosiasi dalam data ( korelasi ) dan memodelkan hubungan dalam data (misalnya, menggunakan analisis regresi ). Inferensi dapat meluas ke peramalan , prediksi dan estimasi nilai-nilai yang tidak teramati baik dalam atau terkait dengan populasi yang sedang dipelajari; itu dapat mencakup ekstrapolasi dan interpolasidari time series atau data spasial , dan juga bisa memasukkan data mining .

Statistik matematika

Statistik matematika adalah aplikasi matematika untuk statistik. Teknik matematika yang digunakan untuk ini meliputi analisis matematika , aljabar linier , analisis stokastik , persamaan diferensial , dan teori probabilitas ukuran-teori . [15] [16]

Sejarah

Tulisan-tulisan paling awal tentang probabilitas dan statistik berasal dari matematikawan dan kriptografer Arab , selama Zaman Keemasan Islam antara abad ke-8 dan ke-13. Al-Khalil (717-786) menulis Buku Pesan Kriptografi , yang berisi penggunaan permutasi dan kombinasi pertama , untuk membuat daftar semua kata Arab yang mungkin dengan dan tanpa vokal. [7] Buku paling awal tentang statistik adalah manuskrip risalah abad ke-9 tentang Menguraikan Pesan-Pesan Kriptografis , yang ditulis oleh sarjana Arab Al-Kindi(801–873). Dalam bukunya, Al-Kindi memberikan deskripsi rinci tentang cara menggunakan statistik dan analisis frekuensi untuk menguraikan pesan terenkripsi . Teks ini meletakkan dasar untuk statistik dan pembacaan sandi . [8] [9] Al-Kindi juga membuat penggunaan inferensi statistikpaling awal yang diketahui , sementara ia dan kemudian kriptografer Arab mengembangkan metode statistik awal untuk memecahkan kodepesan terenkripsi. Ibn Adlan (1187-1268) kemudian memberikan kontribusi penting, pada penggunaan ukuran sampel dalam analisis frekuensi. [7]

Tulisan Eropa paling awal tentang statistik berasal dari tahun 1663, dengan publikasi Pengamatan Alam dan Politik atas Bills of Mortalityoleh John Graunt . [17] aplikasi awal dari pemikiran statistik berkisar kebutuhan negara untuk kebijakan basis data demografi dan ekonomi, maka yang stat- etimologi . Ruang lingkup disiplin statistik diperluas pada awal abad ke-19 untuk memasukkan pengumpulan dan analisis data secara umum. Saat ini, statistik banyak digunakan dalam pemerintahan, bisnis, dan ilmu alam dan sosial.

Fondasi matematika dari statistik modern diletakkan pada abad ke-17 dengan pengembangan teori probabilitas oleh Gerolamo Cardano , Blaise Pascal dan Pierre de Fermat . Teori probabilitas matematika muncul dari studi permainan kebetulan, meskipun konsep probabilitas sudah diperiksa dalam hukum abad pertengahan dan oleh para filsuf seperti Juan Caramuel . [18] The metode kuadrat terkecil pertama kali dijelaskan oleh Adrien-Marie Legendre pada tahun 1805.

Karl Pearson , seorang pendiri statistik matematika.

Bidang statistik modern muncul pada akhir abad ke-19 dan awal ke-20 dalam tiga tahap. [19] Gelombang pertama, pada pergantian abad, dipimpin oleh karya Francis Galton dan Karl Pearson , yang mengubah statistik menjadi disiplin matematika yang ketat yang digunakan untuk analisis, tidak hanya dalam sains, tetapi dalam industri dan politik juga . Kontribusi Galton termasuk memperkenalkan konsep standar deviasi , korelasi , analisis regresi dan penerapan metode ini untuk mempelajari berbagai karakteristik manusia — tinggi, berat, panjang bulu mata di antara yang lain. [20] Pearson mengembangkanPearson koefisien korelasi momen-produk , didefinisikan sebagai momen-produk, [21] yang metode momen untuk pemasangan distribusi sampel dan distribusi Pearson , antara banyak hal lainnya. [22]Galton dan Pearson mendirikan Biometrika sebagai jurnal pertama statistik matematika dan biostatistik (kemudian disebut biometri), dan yang terakhir mendirikan departemen statistik universitas pertama di dunia di University College London . [23]

Ronald Fisher menciptakan istilah nol hipotesis selama percobaan mencicipi teh Lady , yang "tidak pernah terbukti atau didirikan, tetapi mungkin dibantah, dalam proses eksperimen". [24] [25]

Gelombang kedua tahun 1910-an dan 20-an diprakarsai oleh William Sealy Gosset , dan mencapai puncaknya dalam wawasan Ronald Fisher , yang menulis buku teks yang mendefinisikan disiplin akademik di universitas-universitas di seluruh dunia. Publikasi Fisher yang paling penting adalah makalah seminari 1918-nya . Korelasi antara Kerabat pada Pendapat Warisan Mendel , yang merupakan yang pertama menggunakan istilah statistik, varian , karya klasiknya 1925, Metode Statistik untuk Pekerja Penelitian, dan 1935nya The Design of Experiments , [ 1935 The Design of Experiments , [ 1935 ] 26] [27] [28] di mana ia mengembangkan desain eksperimen yangketatmodel. Dia berasal konsep kecukupan , statistik tambahan , diskriminator linear Fisher dan informasi Fisher . [29] Dalam bukunya tahun 1930 The Genetical Theory of Natural Selection ia menerapkan statistik pada berbagai konsep biologis seperti prinsip Fisher [30] ). Namun demikian, AWF Edwards telah mengatakan bahwa itu "mungkin argumen yang paling terkenal dalam biologi evolusi ". [30] (tentang rasio jenis kelamin ), pelarian Nelayan , [31] [32] [33][34] [35] [36] sebuah konsep dalam seleksi seksual tentang pengaruh umpan balik positif yang ditemukan dalam evolusi .

Gelombang terakhir, yang terutama melihat penyempurnaan dan perluasan perkembangan sebelumnya, muncul dari karya kolaboratif antara Egon Pearson dan Jerzy Neyman pada 1930-an. Mereka memperkenalkan konsep kesalahan " Tipe II ", kekuatan tes dan interval kepercayaan . Jerzy Neyman pada tahun 1934 menunjukkan bahwa stratified random sampling secara umum merupakan metode estimasi yang lebih baik daripada purposive (kuota) sampling. [37]

Saat ini, metode statistik diterapkan di semua bidang yang melibatkan pengambilan keputusan, untuk membuat kesimpulan yang akurat dari kumpulan data dan untuk membuat keputusan dalam menghadapi ketidakpastian berdasarkan metodologi statistik. Penggunaan komputer modern telah mempercepat perhitungan statistik skala besar dan juga memungkinkan metode baru yang tidak praktis untuk dilakukan secara manual. Statistik terus menjadi bidang penelitian aktif misalnya pada masalah bagaimana menganalisis Big data . [38]

Data statistik

Pengumpulan data

Pengambilan sampel

Ketika data sensus penuh tidak dapat dikumpulkan, ahli statistik mengumpulkan data sampel dengan mengembangkan desain eksperimen tertentu dan sampel survei . Statistik itu sendiri juga menyediakan alat untuk prediksi dan peramalan melalui model statistik . Ide membuat kesimpulan berdasarkan data sampel mulai sekitar pertengahan 1600-an sehubungan dengan perkiraan populasi dan pengembangan prekursor asuransi jiwa. [39]

Untuk menggunakan sampel sebagai panduan untuk seluruh populasi, penting bahwa itu benar-benar mewakili keseluruhan populasi. Sampling representatif memastikan bahwa kesimpulan dan kesimpulan dapat dengan aman diperluas dari sampel ke populasi secara keseluruhan. Masalah utama terletak pada menentukan sejauh mana sampel yang dipilih benar-benar representatif. Statistik menawarkan metode untuk memperkirakan dan mengoreksi bias dalam sampel dan prosedur pengumpulan data. Ada juga metode desain eksperimental untuk eksperimen yang dapat mengurangi masalah ini pada awal studi, memperkuat kemampuannya untuk membedakan kebenaran tentang populasi.

Teori sampel adalah bagian dari disiplin matematika dari teori probabilitas . Probabilitas digunakan dalam statistik matematika untuk mempelajari distribusi sampling dari statistik sampel dan, lebih umum, sifat-sifat prosedur statistik . Penggunaan metode statistik apa pun valid ketika sistem atau populasi yang dipertimbangkan memenuhi asumsi metode tersebut. Perbedaan sudut pandang antara teori probabilitas klasik dan teori sampling adalah, secara kasar, bahwa teori probabilitas dimulai dari parameter yang diberikan dari total populasi untuk menyimpulkanprobabilitas yang berkaitan dengan sampel. Inferensi statistik, bagaimanapun, bergerak dalam arah yang berlawanan - secara induktif menyimpulkandari sampel ke parameter populasi yang lebih besar atau total.

Studi eksperimental dan observasional

Tujuan umum untuk proyek penelitian statistik adalah untuk menyelidiki hubungan sebab akibat , dan khususnya untuk menarik kesimpulan tentang pengaruh perubahan dalam nilai-nilai prediktor atau variabel independen pada variabel dependen . Ada dua jenis utama studi statistik kausal: studi eksperimental dan studi observasional. Dalam kedua jenis penelitian, pengaruh perbedaan variabel independen (atau variabel) pada perilaku variabel dependen diamati. Perbedaan antara kedua jenis itu terletak pada bagaimana sebenarnya penelitian itu dilakukan. Masing-masing bisa sangat efektif. Sebuah studi eksperimental melibatkan mengambil pengukuran sistem yang diteliti, memanipulasi sistem, dan kemudian mengambil pengukuran tambahan menggunakan prosedur yang sama untuk menentukan apakah manipulasi telah memodifikasi nilai-nilai pengukuran. Sebaliknya, penelitian observasional tidak melibatkan manipulasi eksperimental . Sebagai gantinya, data dikumpulkan dan korelasi antara prediktor dan respons diselidiki. Sementara alat analisis data bekerja paling baik pada data dari studi acak, mereka juga diterapkan pada jenis data lain — seperti eksperimen alami dan studi observasional [40] —untuk yang mana seorang ahli statistik akan menggunakan metode estimasi yang lebih terstruktur yang dimodifikasi (mis. Perbedaan dalam estimasi perbedaan dan variabel instrumental , di antara banyak lainnya) yang menghasilkan penduga yang konsisten .

Eksperimen

Langkah-langkah dasar percobaan statistik adalah:

  1. Merencanakan penelitian, termasuk menemukan jumlah ulangan penelitian, menggunakan informasi berikut: perkiraan awal mengenai ukuran efek pengobatan , hipotesis alternatif , dan estimasi variabilitas eksperimental . Pertimbangan pemilihan subjek eksperimental dan etika penelitian diperlukan. Ahli statistik merekomendasikan bahwa percobaan membandingkan (setidaknya) satu pengobatan baru dengan pengobatan atau kontrol standar, untuk memungkinkan perkiraan yang tidak bias dari perbedaan dalam efek pengobatan.

  2. Desain eksperimen , menggunakan pemblokiran untuk mengurangi pengaruh variabel pengganggu , dan penetapan perawatan secara acak pada subjek untuk memungkinkan estimasi efek pengobatan dan kesalahan eksperimental yang tidak bias . Pada tahap ini, para peneliti dan ahli statistik menulis protokol eksperimental yang akan memandu kinerja percobaan dan yang menentukan analisis utama dari data eksperimen.

  3. Melakukan percobaan mengikuti protokol eksperimental dan menganalisis data mengikuti protokol eksperimental.

  4. Selanjutnya memeriksa set data dalam analisis sekunder, untuk menyarankan hipotesis baru untuk studi masa depan.

  5. Mendokumentasikan dan mempresentasikan hasil penelitian.

Eksperimen pada perilaku manusia memiliki perhatian khusus. Studi Hawthorne yang terkenal meneliti perubahan pada lingkungan kerja di pabrik Hawthorne di Western Electric Company . Para peneliti tertarik untuk menentukan apakah peningkatan pencahayaan akan meningkatkan produktivitas pekerja jalur perakitan . Para peneliti pertama-tama mengukur produktivitas di pabrik, kemudian memodifikasi iluminasi di area pabrik dan memeriksa apakah perubahan iluminasi memengaruhi produktivitas. Ternyata produktivitas memang meningkat (di bawah kondisi eksperimental). Namun, penelitian ini banyak dikritik hari ini untuk kesalahan dalam prosedur eksperimental, khususnya karena kurangnya kelompok kontrol dankebutaan . The efek Hawthorne mengacu pada temuan bahwa hasil (dalam hal ini, produktivitas pekerja) berubah karena pengamatan itu sendiri. Orang-orang dalam studi Hawthorne menjadi lebih produktif bukan karena pencahayaan diubah tetapi karena mereka sedang diamati. [41]

Studi observasional

Contoh dari penelitian observasional adalah penelitian yang mengeksplorasi hubungan antara merokok dan kanker paru-paru. Jenis studi ini biasanya menggunakan survei untuk mengumpulkan pengamatan tentang bidang yang diminati dan kemudian melakukan analisis statistik. Dalam hal ini, para peneliti akan mengumpulkan pengamatan dari perokok dan non-perokok, mungkin melalui studi kohort , dan kemudian mencari jumlah kasus kanker paru-paru pada masing-masing kelompok. [42] Sebuah studi kasus-kontrol adalah jenis lain dari studi observasional di mana orang dengan dan tanpa hasil yang menarik (misalnya kanker paru-paru) diundang untuk berpartisipasi dan riwayat pajanan mereka dikumpulkan.

Jenis data

Berbagai upaya telah dilakukan untuk menghasilkan taksonomi tingkat pengukuran . Psikofisika Stanley Smith Stevens mendefinisikan skala nominal, ordinal, interval, dan rasio. Pengukuran nominal tidak memiliki urutan peringkat yang bermakna di antara nilai-nilai, dan mengizinkan transformasi satu-ke-satu (injeksi). Pengukuran ordinal memiliki perbedaan yang tidak tepat antara nilai-nilai berturut-turut, tetapi memiliki urutan yang bermakna dengan nilai-nilai itu, dan memungkinkan setiap transformasi pelestarian pesanan. Pengukuran interval memiliki jarak yang berarti antara pengukuran yang ditentukan, tetapi nilai nolnya arbitrer (seperti dalam kasus dengan pengukuran bujur dan suhu dalam Celsius atau Fahrenheit).), dan mengizinkan transformasi linear apa pun. Pengukuran rasio memiliki nilai nol yang berarti dan jarak antara pengukuran yang berbeda yang ditentukan, dan memungkinkan transformasi pengubahan ukuran.

Karena variabel yang hanya sesuai dengan pengukuran nominal atau ordinal tidak dapat diukur secara numerik, kadang-kadang variabel tersebut dikelompokkan bersama sebagai variabel kategori , sedangkan pengukuran rasio dan interval dikelompokkan bersama sebagai variabel kuantitatif , yang dapat berupa diskrit atau kontinu , karena sifat numeriknya. Perbedaan seperti itu sering kali dapat dikorelasikan secara longgar dengan tipe data dalam ilmu komputer, di mana variabel kategorik dikotomis dapat diwakili dengan tipe data Boolean , variabel kategoris polytomous dengan bilangan bulat yang ditempatkan secara acak dalam tipe data integral, dan variabel kontinu dengan tipe data nyata yang melibatkan perhitungan floating point . Tetapi pemetaan tipe data sains komputer ke tipe data statistik tergantung pada kategorisasi mana yang terakhir sedang diimplementasikan.

Kategorisasi lain telah diusulkan. Sebagai contoh, Mosteller dan Tukey (1977) [43] membedakan nilai, peringkat, fraksi yang dihitung, jumlah, jumlah, dan saldo. Nelder (1990) [44]menggambarkan penghitungan terus menerus, rasio kontinyu, rasio penghitungan, dan mode kategorikal data. Lihat juga Chrisman (1998), [45] van den Berg (1991). [46]

Masalah apakah perlu menerapkan berbagai jenis metode statistik untuk data yang diperoleh dari berbagai jenis prosedur pengukuran diperumit oleh masalah yang menyangkut transformasi variabel dan interpretasi yang tepat dari pertanyaan penelitian. "Hubungan antara data dan apa yang mereka gambarkan hanya mencerminkan fakta bahwa beberapa jenis pernyataan statistik mungkin memiliki nilai kebenaran yang tidak berubah-ubah dalam beberapa transformasi. Apakah suatu transformasi masuk akal untuk direnungkan atau tidak tergantung pada pertanyaan yang coba dijawab seseorang. "(Hand, 2004, hlm. 82). [47]

Metode statistik

Statistik deskriptif

Sebuah statistik deskriptif (dalam hitungan benda akal) adalah statistik ringkasan yang kuantitatif menjelaskan atau merangkum fitur dari kumpulan informasi , [48] sementara statistik deskriptif dalam kata benda massa akal adalah proses menggunakan dan menganalisis statistik tersebut. Statistik deskriptif dibedakan dari statistik inferensial (atau statistik induktif), karena statistik deskriptif bertujuan untuk merangkum sampel , daripada menggunakan data untuk mempelajari tentang populasi yang dianggap mewakili sampel data.

Statistik inferensial

Inferensi statistik adalah proses menggunakan analisis data untuk menyimpulkan properti dari distribusi probabilitas yang mendasarinya . [49] Analisis statistik inferensial menyimpulkan properti suatu populasi , misalnya dengan menguji hipotesis dan memperoleh taksiran. Diasumsikan bahwa kumpulan data yang diamati diambil sampelnya dari populasi yang lebih besar. Statistik inferensial dapat dikontraskan dengan statistik deskriptif . Statistik deskriptif semata-mata berkaitan dengan sifat-sifat data yang diamati, dan tidak bergantung pada asumsi bahwa data tersebut berasal dari populasi yang lebih besar.

Terminologi dan teori statistik inferensial

Statistik, penduga dan jumlah penting

Pertimbangkan variabel acak independen terdistribusi identik (IID) dengan distribusi probabilitas yang diberikan : inferensi statistik standar dan teori estimasi mendefinisikan sampel acak sebagai vektor acak yang diberikan oleh vektor kolom dari variabel-variabel IID ini. [50] The penduduk yang diperiksa digambarkan oleh distribusi probabilitas yang mungkin memiliki parameter yang tidak diketahui.

Sebuah statistik adalah variabel acak yang merupakan fungsi dari sampel acak, tapi bukan merupakan fungsi dari parameter yang tidak diketahui . Distribusi probabilitas statistik, mungkin memiliki parameter yang tidak diketahui.

Pertimbangkan sekarang fungsi dari parameter yang tidak diketahui: estimator adalah statistik yang digunakan untuk memperkirakan fungsi tersebut. Penduga yang umum digunakan meliputi rerata sampel , varians sampel yang tidak bias dan kovarians sampel .

Variabel acak yang merupakan fungsi dari sampel acak dan parameter yang tidak diketahui, tetapi distribusi probabilitasnya yang tidak bergantung pada parameter yang tidak dikenal disebut kuantitas pivotal atau pivot. Pivot yang banyak digunakan mencakup z-score , statistik chi square dan nilai-t Student .

Antara dua penduga dari parameter yang diberikan, yang dengan kesalahan kuadrat rata-rata lebih rendah dikatakan lebih efisien . Lebih lanjut, estimator dikatakan tidak memihakjika nilai yang diharapkan sama dengan nilai sebenarnya dari parameter yang tidak diketahui yang diestimasi, dan asimtotik tidak memihak jika nilai yang diharapkan konvergen pada batas dengan nilai sebenarnya dari parameter tersebut.

Properti yang diinginkan lainnya untuk estimator meliputi: estimator UMVUE yang memiliki varians terendah untuk semua nilai yang mungkin dari parameter yang akan diestimasi (ini biasanya properti yang lebih mudah untuk diverifikasi daripada efisiensi) dan estimator yang konsisten yang konvergen dalam probabilitas ke nilai sebenarnya dari parameter tersebut .

Ini masih menyisakan pertanyaan tentang bagaimana memperoleh estimator dalam situasi tertentu dan melakukan perhitungan, beberapa metode telah diusulkan: metode momen , metode kemungkinan maksimum , metode kuadrat terkecil, dan metode estimasi estimasi yang lebih baru .

Hipotesis kosong dan hipotesis alternatif

Interpretasi informasi statistik seringkali dapat melibatkan pengembangan hipotesis nol yang biasanya (tetapi tidak harus) bahwa tidak ada hubungan di antara variabel atau bahwa tidak ada perubahan yang terjadi dari waktu ke waktu. [51] [52]

Ilustrasi terbaik untuk seorang pemula adalah kesulitan yang dihadapi oleh pengadilan pidana. Hipotesis nol, H 0 , menyatakan bahwa terdakwa tidak bersalah, sedangkan hipotesis alternatif, H 1 , menyatakan bahwa terdakwa bersalah. Dakwaan tersebut muncul karena dicurigai bersalah. H 0 (status quo) bertentangan dengan H 1 dan dipertahankan kecuali H 1didukung oleh bukti "tanpa keraguan". Namun, "kegagalan untuk menolak H 0 " dalam kasus ini tidak menyiratkan tidak bersalah, tetapi hanya bahwa bukti tidak cukup untuk menghukum. Jadi juri tidak harus menerima H 0 tetapi gagal menolak H0 . Sementara seseorang tidak dapat "membuktikan" hipotesis nol, seseorang dapat menguji seberapa dekat dengan uji kekuatan , yang menguji kesalahan tipe II.

Apa yang para ahli statistik sebut sebagai hipotesis alternatif hanyalah sebuah hipotesis yang bertentangan dengan hipotesis nol .

Kesalahan

Bekerja dari hipotesis nol , dua bentuk dasar kesalahan diakui:

  • Tipe I kesalahan di mana hipotesis nol ditolak palsu memberikan "false positive".

  • Tipe II kesalahan di mana hipotesis nol gagal ditolak dan perbedaan aktual antara populasi dilewatkan memberikan "false negative".

Standar deviasi mengacu pada sejauh mana pengamatan individu dalam sampel berbeda dari nilai pusat, seperti rata-rata sampel atau populasi, sedangkan Kesalahan standarmengacu pada perkiraan perbedaan antara rata-rata sampel dan rata-rata populasi.

Sebuah kesalahan statistik adalah jumlah dimana suatu berbeda pengamatan dari yang nilai yang diharapkan , seorang residual adalah jumlah yang berbeda pengamatan dari nilai penaksir nilai yang diharapkan mengasumsikan pada sampel yang diberikan (juga disebut prediksi).

Mean squared error digunakan untuk mendapatkan estimator yang efisien , kelas estimator yang banyak digunakan. Root mean square error hanyalah akar kuadrat dari mean squared error.


Banyak metode statistik berusaha untuk meminimalkan jumlah residu kuadrat , dan ini disebut " metode kuadrat terkecil " berbeda dengan deviasi absolut terkecil . Yang terakhir memberikan bobot yang sama untuk kesalahan kecil dan besar, sedangkan yang pertama memberi bobot lebih besar untuk kesalahan besar. Jumlah residu kuadrat juga dapat dibedakan , yang menyediakan properti praktis untuk melakukan regresi . Kuadrat terkecil yang diterapkan pada regresi linier disebut metode kuadrat terkecil biasa dan kuadrat terkecil yang diterapkan pada regresi nonlinier disebut kuadrat terkecil non-linier. Juga dalam model regresi linier bagian non deterministik dari model ini disebut istilah kesalahan, gangguan atau lebih sederhana noise. Baik regresi linier dan regresi non-linear dibahas dalam kuadrat terkecil polinomial , yang juga menggambarkan varians dalam prediksi variabel dependen (sumbu y) sebagai fungsi dari variabel independen (sumbu x) dan penyimpangan (kesalahan, kebisingan, gangguan) dari perkiraan kurva (dilengkapi).

Proses pengukuran yang menghasilkan data statistik juga mengalami kesalahan. Banyak dari kesalahan ini diklasifikasikan sebagai acak(noise) atau sistematis ( bias ), tetapi jenis kesalahan lainnya (misalnya, kesalahan, seperti ketika analis melaporkan unit yang salah) juga bisa menjadi penting. Kehadiran data atau sensor yang hilang dapat menghasilkan estimasi yang bias dan teknik khusus telah dikembangkan untuk mengatasi masalah ini. [53]

Estimasi interval

Interval kepercayaan : garis merah adalah nilai sebenarnya untuk mean dalam contoh ini, garis biru adalah interval kepercayaan acak untuk 100 realisasi.

Sebagian besar penelitian hanya mengambil sampel sebagian dari suatu populasi, sehingga hasilnya tidak sepenuhnya mewakili seluruh populasi. Setiap perkiraan yang diperoleh dari sampel hanya mendekati nilai populasi. Interval kepercayaan memungkinkan ahli statistik untuk menyatakan seberapa dekat estimasi sampel cocok dengan nilai sebenarnya dalam seluruh populasi. Seringkali mereka dinyatakan sebagai interval kepercayaan 95%. Secara formal, interval kepercayaan 95% untuk suatu nilai adalah kisaran di mana, jika pengambilan sampel dan analisis diulang dalam kondisi yang sama (menghasilkan dataset yang berbeda), interval tersebut akan mencakup nilai (populasi) yang sebenarnya dalam 95% dari semua kasus yang mungkin terjadi. . Ini tidak menyiratkan bahwa probabilitas bahwa nilai sebenarnya dalam interval kepercayaan adalah 95%. Dari yang seringperspektif, klaim seperti itu bahkan tidak masuk akal, karena nilai sebenarnya bukan variabel acak . Nilai sebenarnya atau tidak dalam interval yang diberikan. Namun, memang benar bahwa, sebelum data diambil sampelnya dan diberikan rencana bagaimana membangun interval kepercayaan, probabilitasnya adalah 95% bahwa interval yang belum dihitung akan mencakup nilai sebenarnya: pada titik ini, batas interval adalah variabel acak yang belum diamati . Salah satu pendekatan yang menghasilkan interval yang dapat diartikan sebagai memiliki probabilitas tertentu untuk mengandung nilai sebenarnya adalah dengan menggunakan interval yang kredibel dari statistik Bayesian : pendekatan ini tergantung pada cara berbeda dalam menafsirkan apa yang dimaksud dengan "probabilitas", itu sebagai probabilitas Bayesian .

Pada prinsipnya interval kepercayaan bisa simetris atau asimetris. Interval dapat asimetris karena berfungsi sebagai batas bawah atau atas untuk parameter (interval sisi kiri atau interval sisi kanan), tetapi juga dapat asimetris karena interval dua sisi dibangun melanggar simetri di sekitar perkiraan. Kadang-kadang batas untuk interval kepercayaan tercapai tanpa gejala dan ini digunakan untuk memperkirakan batas sebenarnya.

Signifikansi

Statistik jarang memberikan jawaban tipe Ya / Tidak sederhana untuk pertanyaan yang sedang dianalisis. Interpretasi sering turun ke tingkat signifikansi statistik yang diterapkan pada angka-angka dan sering merujuk pada probabilitas nilai yang secara akurat menolak hipotesis nol (kadang-kadang disebut sebagai nilai -p ).

Dalam grafik ini garis hitam adalah distribusi probabilitas untuk statistik uji , wilayah kritis adalah himpunan nilai di sebelah kanan titik data yang diamati (nilai yang diamati dari statistik uji) dan nilai -pdiwakili oleh area hijau.

Pendekatan standar [50] adalah untuk menguji hipotesis nol terhadap hipotesis alternatif. Sebuah daerah kritisadalah himpunan nilai-nilai estimator yang mengarah ke menyangkal hipotesis nol. Oleh karena itu probabilitas kesalahan tipe I adalah probabilitas bahwa estimator termasuk dalam wilayah kritis mengingat bahwa hipotesis nol benar ( signifikansi statistik ) dan probabilitas kesalahan tipe II adalah probabilitas bahwa estimator tidak termasuk dalam wilayah kritis yang diberikan. bahwa hipotesis alternatif itu benar. Kekuatan statistik dari suatu tes adalah probabilitas bahwa tes tersebut dengan benar menolak hipotesis nol ketika hipotesis nol salah.

Mengacu pada signifikansi statistik tidak selalu berarti bahwa hasil keseluruhannya signifikan dalam hal dunia nyata. Sebagai contoh, dalam sebuah penelitian besar terhadap suatu obat dapat ditunjukkan bahwa obat tersebut memiliki efek menguntungkan yang signifikan secara statistik tetapi sangat kecil, sehingga obat tersebut tidak dapat membantu pasien secara nyata.

Meskipun pada prinsipnya tingkat signifikansi statistik yang dapat diterima dapat diperdebatkan, nilai -p adalah tingkat signifikansi terkecil yang memungkinkan tes untuk menolak hipotesis nol. Tes ini secara logis ekuivalen dengan mengatakan bahwa nilai-p adalah probabilitas, dengan asumsi hipotesis nol adalah benar, untuk mengamati suatu hasil paling tidak sama ekstrimnya dengan statistik uji . Oleh karena itu, semakin kecil nilai p, semakin rendah kemungkinan melakukan kesalahan tipe I.

Beberapa masalah biasanya dikaitkan dengan kerangka kerja ini (Lihat kritik terhadap pengujian hipotesis ):

  • Perbedaan yang sangat signifikan secara statistik masih tidak memiliki signifikansi praktis, tetapi dimungkinkan untuk merumuskan tes dengan tepat untuk menjelaskan hal ini. Satu tanggapan melibatkan melampaui melaporkan hanya tingkat signifikansi untuk menyertakan p -nilai ketika melaporkan apakah hipotesis ditolak atau diterima. Namun, nilai-p tidak menunjukkan ukuran atau pentingnya efek yang diamati dan juga dapat tampaknya melebih-lebihkan pentingnya perbedaan kecil dalam penelitian besar. Pendekatan yang lebih baik dan semakin umum adalah melaporkan interval kepercayaan . Meskipun ini dihasilkan dari perhitungan yang sama dengan tes hipotesis atau p-nilai, mereka menggambarkan ukuran efek dan ketidakpastian di sekitarnya.

  • Kekeliruan dari kondisi yang dialihkan, alias kekeliruan jaksa penuntut : kritik muncul karena pendekatan pengujian hipotesis memaksa satu hipotesis (hipotesis nol ) menjadi disukai, karena apa yang sedang dievaluasi adalah probabilitas dari hasil yang diamati diberikan hipotesis nol dan bukan probabilitas dari hipotesis nol diberikan hasil yang diamati. Sebuah alternatif untuk pendekatan ini ditawarkan oleh inferensi Bayesian , meskipun itu membutuhkan penetapan probabilitas sebelumnya . [54]

  • Menolak hipotesis nol tidak secara otomatis membuktikan hipotesis alternatif.

  • Karena segala sesuatu dalam statistik inferensial bergantung pada ukuran sampel, dan oleh karena itu di bawah ekor berlemak nilai-p mungkin secara serius salah perhitungan. [ klarifikasi diperlukan ]

Contoh

Beberapa tes dan prosedur statistik yang terkenal adalah:


Analisis data eksplorasi ( EDA ) adalah pendekatan untuk menganalisis set data untuk merangkum karakteristik utama mereka, seringkali dengan metode visual. Sebuah model statistik dapat digunakan atau tidak, tapi terutama EDA adalah untuk melihat apa data dapat memberitahu kami di luar modeling atau hipotesis tugas pengujian formal.

Penyalahgunaan

Penyalahgunaan statistik dapat menghasilkan kesalahan yang halus, tetapi serius dalam deskripsi dan interpretasi — halus dalam arti bahwa bahkan para profesional berpengalaman pun membuat kesalahan seperti itu, dan serius dalam arti bahwa mereka dapat menyebabkan kesalahan keputusan yang menghancurkan. Misalnya, kebijakan sosial, praktik medis, dan keandalan struktur seperti jembatan semua bergantung pada penggunaan statistik yang tepat.

Bahkan ketika teknik statistik diterapkan dengan benar, hasilnya bisa sulit untuk ditafsirkan bagi mereka yang kurang ahli. The signifikansi statistik dari tren dalam data-yang mengukur sejauh mana tren dapat disebabkan oleh variasi acak dalam sampel-mungkin atau mungkin tidak setuju dengan rasa intuitif maknanya. Himpunan keterampilan statistik dasar (dan skeptisisme) yang diperlukan orang untuk menangani informasi dalam kehidupan sehari-hari mereka dengan benar disebut sebagai melek statistik .

Ada persepsi umum bahwa pengetahuan statistik terlalu sering disalahgunakan dengan sengaja dengan cara menemukan hanya menafsirkan data yang menguntungkan bagi presenter. [55] Ketidakpercayaan dan kesalahpahaman statistik dikaitkan dengan kutipan, " Ada tiga jenis kebohongan: kebohongan, kebohongan terkutuk, dan statistik ". Penyalahgunaan statistik bisa tidak disengaja dan disengaja, dan buku How to Lie with Statistics [55] menguraikan berbagai pertimbangan. Dalam upaya untuk menjelaskan penggunaan dan penyalahgunaan statistik, tinjauan teknik statistik yang digunakan dalam bidang tertentu dilakukan (misalnya Warne, Lazo, Ramos, dan Ritter (2012)). [56]

Cara untuk menghindari penyalahgunaan statistik termasuk menggunakan diagram yang tepat dan menghindari bias . [57] Penyalahgunaan dapat terjadi ketika kesimpulan digeneralisasikan secara berlebihan dan diklaim mewakili lebih dari yang sebenarnya, seringkali dengan sengaja atau tidak sadar mengabaikan bias pengambilan sampel. [58] Grafik batang bisa dibilang adalah diagram termudah untuk digunakan dan dipahami, dan grafik dapat dibuat dengan tangan atau dengan program komputer sederhana. [57] Sayangnya, kebanyakan orang tidak mencari bias atau kesalahan, sehingga mereka tidak diperhatikan. Dengan demikian, orang mungkin sering percaya bahwa sesuatu itu benar walaupun tidak diwakili dengan baik . [58]Untuk membuat data yang dikumpulkan dari statistik dapat dipercaya dan akurat, sampel yang diambil harus mewakili keseluruhan. [59] Menurut Huff, "Kebergantungan sampel dapat dihancurkan oleh [bias] ... biarkan diri Anda sedikit skeptis." [60]

Untuk membantu dalam memahami statistik, Huff mengajukan serangkaian pertanyaan untuk diajukan dalam setiap kasus: [61]

  • Siapa bilang begitu? (Apakah dia punya kapak untuk digiling?)

  • Bagaimana dia tahu? (Apakah dia memiliki sumber daya untuk mengetahui fakta?)

  • Apa yang hilang (Apakah dia memberi kita gambaran lengkap?)

  • Apakah seseorang mengubah topik pembicaraan? (Apakah dia menawarkan jawaban yang tepat untuk masalah yang salah?)

  • Apakah masuk akal? (Apakah kesimpulannya logis dan konsisten dengan apa yang sudah kita ketahui?)

The variabel pengganggumasalah: X dan Y mungkin berkorelasi, bukan karena ada hubungan kausal antara mereka, tetapi karena keduanya tergantung pada variabel ketiga Z . Z disebut faktor perancu.

Salah tafsir: korelasi

Konsep korelasi sangat penting untuk potensi kebingungan yang dapat ditimbulkannya. Analisis statistik dari kumpulan data sering mengungkapkan bahwa dua variabel (properti) dari populasi yang dipertimbangkan cenderung bervariasi bersama, seolah-olah mereka terhubung. Misalnya, sebuah studi tentang pendapatan tahunan yang juga terlihat pada usia kematian mungkin menemukan bahwa orang miskin cenderung memiliki kehidupan yang lebih pendek daripada orang kaya. Dua variabel tersebut dikatakan berkorelasi; Namun, mereka mungkin atau mungkin tidak menjadi penyebab satu sama lain. Fenomena korelasi dapat disebabkan oleh fenomena ketiga yang sebelumnya tidak dipertimbangkan, disebut variabel pengintai atau variabel perancu.. Untuk alasan ini, tidak ada cara untuk segera menyimpulkan adanya hubungan sebab akibat antara kedua variabel. (Lihat Korelasi tidak menyiratkan sebab-akibat .)

Aplikasi

Statistik terapan, statistik teoretis, dan statistik matematis

Statistik terapan terdiri dari statistik deskriptif dan penerapan statistik inferensial. [62] [63] Statistik teoritis menyangkut argumen logis yang mendasari justifikasi pendekatan inferensi statistik , serta mencakup statistik matematika . Statistik matematika tidak hanya mencakup manipulasi distribusi probabilitas yang diperlukan untuk memperoleh hasil yang terkait dengan metode estimasi dan inferensi, tetapi juga berbagai aspek statistik komputasi dan desain eksperimen .

Pembelajaran mesin dan penggalian data

Model pembelajaran mesin adalah model statistik dan probabilistik yang menangkap pola dalam data melalui penggunaan algoritma komputasi.

Statistik dalam masyarakat

Statistik berlaku untuk berbagai disiplin ilmu akademik , termasuk ilmu alam dan sosial , pemerintah, dan bisnis. Konsultan statistik dapat membantu organisasi dan perusahaan yang tidak memiliki keahlian internal yang relevan dengan pertanyaan khusus mereka.

Komputasi statistik

Peningkatan cepat dan berkelanjutan dalam daya komputasi mulai dari paruh kedua abad ke-20 telah berdampak besar pada praktik ilmu statistik. Model statistik awal hampir selalu dari kelas model linier , tetapi komputer yang kuat, ditambah dengan algoritma numerik yang sesuai , menyebabkan peningkatan minat pada model nonlinier (seperti jaringan saraf ) serta penciptaan tipe baru, seperti model linier umum dan model bertingkat .

Peningkatan daya komputasi juga telah menyebabkan semakin populernya metode intensif komputasi berdasarkan resampling , seperti tes permutasi dan bootstrap , sementara teknik seperti Gibbs sampling telah membuat penggunaan model Bayesian lebih layak. Revolusi komputer memiliki implikasi untuk masa depan statistik dengan penekanan baru pada statistik "eksperimental" dan "empiris". Sejumlah besar perangkat lunak statistik tujuan umum dan khusus sekarang tersedia. Contoh perangkat lunak yang tersedia yang mampu perhitungan statistik yang kompleks meliputi program-program seperti Mathematica , SAS , SPSS , dan R .

Statistik diterapkan pada matematika atau seni

Secara tradisional, statistik berkaitan dengan menggambar kesimpulan menggunakan metodologi semi-standar yang "diperlukan pembelajaran" di sebagian besar ilmu. [ rujukan? ] Tradisi ini telah berubah dengan menggunakan statistik dalam konteks non-inferensial. Apa yang pernah dianggap sebagai subjek kering, yang diambil di banyak bidang sebagai persyaratan gelar, sekarang dipandang dengan antusias. [ menurut siapa? ] Awalnya diejek oleh beberapa puritan matematika, sekarang dianggap metodologi penting di bidang tertentu.

  • Dalam teori bilangan , sebar plot data yang dihasilkan oleh fungsi distribusi dapat ditransformasikan dengan alat yang biasa digunakan dalam statistik untuk mengungkapkan pola yang mendasarinya, yang kemudian dapat mengarah pada hipotesis.

  • Metode statistik termasuk metode prediksi dalam peramalan dikombinasikan dengan teori chaos dan geometri fraktal untuk membuat karya video yang dianggap memiliki keindahan luar biasa. [ rujukan? ]

  • The art proses dari Jackson Pollock mengandalkan percobaan artistik dimana distribusi yang mendasari di alam yang artistik terungkap. [ Rujukan? ] Dengan munculnya komputer, metode statistik diterapkan untuk memformalkan proses alami yang didorong distribusi tersebut untuk membuat dan menganalisis seni video bergerak. [ rujukan? ]

  • Metode statistik dapat digunakan secara predikatif dalam seni pertunjukan , seperti dalam trik kartu berdasarkan pada proses Markov yang hanya berfungsi beberapa waktu, yang kesempatannya dapat diprediksi menggunakan metodologi statistik.

  • Statistik dapat digunakan untuk secara predikatif menciptakan seni, seperti dalam statistik atau musik stokastik yang diciptakan oleh Iannis Xenakis , di mana musiknya khusus untuk pertunjukan. Meskipun jenis seni ini tidak selalu keluar seperti yang diharapkan, itu berperilaku dengan cara yang dapat diprediksi dan merdu menggunakan statistik.

Disiplin khusus

Teknik statistik yang digunakan dalam berbagai jenis penelitian ilmiah dan sosial, termasuk: biostatistik , biologi komputasi , sosiologi komputasi , biologi jaringan , ilmu sosial ,sosiologi dan penelitian sosial . Beberapa bidang penyelidikan menggunakan statistik terapan sedemikian luas sehingga mereka memiliki terminologi khusus . Disiplin ini meliputi:

Selain itu, ada beberapa jenis analisis statistik tertentu yang juga mengembangkan terminologi dan metodologi khusus mereka sendiri:

Statistik membentuk alat dasar kunci dalam bisnis dan manufaktur juga. Ini digunakan untuk memahami variabilitas sistem pengukuran, proses kontrol (seperti dalam kontrol proses statistik atau SPC), untuk meringkas data, dan untuk membuat keputusan berdasarkan data. Dalam peran ini, ini adalah alat utama, dan mungkin satu-satunya alat yang dapat diandalkan.


Referensi

  1. ^ "Referensi Oxford" .

  2. ^ Romijn, Jan-Willem (2014). "Filsafat statistik" . Stanford Encyclopedia of Philosophy .

  3. ^ "Kamus Cambridge" .

  4. ^ Dodge, Y. (2006) Kamus Istilah Statistik Oxford, Oxford University Press. ISBN 0-19-920613-9

  5. ^ Lund Research Ltd. "Statistik Deskriptif dan Inferensial" . statistics.laerd.com . Diperoleh 2014-03-23 .

  6. ^ "Apa Perbedaan Antara Kesalahan Pengujian Tipe I dan Tipe II?" . About.com Pendidikan . Diperoleh 2015-11-27 .

  7. ^ Melompat ke:a b c Broemeling, Lyle D. (1 November 2011). "Akun Inferensi Statistik Awal dalam Kriptologi Arab". Ahli Statistik Amerika . 65 (4): 255–257. doi : 10.1198 / tas.2011.10191 .

  8. ^ Melompat ke:a b Singh, Simon (2000). Buku kode: ilmu kerahasiaan dari Mesir kuno ke kriptografi kuantum (1st Anchor Books ed.). New York: Anchor Books. ISBN 978-0-385-49532-5.

  9. ^ Lompat ke:a b Ibrahim A. Al-Kadi "Asal usul kriptologi: Kontribusi Arab", Cryptologia , 16 (2) (April 1992) hlm. 97–126.

  10. ^ "Cara Menghitung Statistik Deskriptif" . Jawaban Konsultasi. 2018-02-03.

  11. ^ Moses, Lincoln E. (1986) Berpikir dan Menjelaskan dengan Statistik , Addison-Wesley,ISBN 978-0-201-15619-5 . hlm. 1–3

  12. ^ Hays, William Lee, (1973) Statistik untuk Ilmu Sosial , Holt, Rinehart dan Winston, p.xii,ISBN 978-0-03-077945-9

  13. ^ Moore, David (1992). "Mengajar Statistik sebagai Subjek yang Dihormati". Dalam F. Gordon; S. Gordon (eds.). Statistik untuk Abad Dua Puluh Satu . Washington, DC: Asosiasi Matematika Amerika. hlm. 14–25. ISBN 978-0-88385-078-7.

  14. ^ Peluang, Beth L .; Rossman, Allan J. (2005). "Kata Pengantar" (PDF) . Investigasi Konsep Statistik, Aplikasi, dan Metode . Duxbury Press. ISBN 978-0-495-05064-3.

  15. ^ Lakshmikantham, ed. oleh D. Kannan, V. (2002). Buku pegangan analisis dan aplikasi stokastik . New York: M. Dekker. ISBN 0824706609.

  16. ^ Schervish, Mark J. (1995). Teori statistik (Kor. 2nd print. Ed.). New York: Springer. ISBN 0387945466.

  17. ^ Willcox, Walter (1938) "Pendiri Statistik". Tinjauan Institut Statistik Internasional 5 (4): 321–328. JSTOR 1400906

  18. ^ J. Franklin, The Science of Conjecture: Bukti dan Probability before Pascal, Johns Hopkins Univ Pr 2002

  19. ^ Helen Mary Walker (1975). Studi dalam sejarah metode statistik . Arno Tekan.

  20. ^ Galton, F (1877). "Hukum khas keturunan". Alam . 15 (388): 492–553. Bibcode : 1877Natur..15..492. . doi : 10.1038 / 015492a0 .

  21. ^ Stigler, SM (1989). "Akun Francis Galton tentang Penemuan Korelasi". Statistik Sains . 4(2): 73–79. doi : 10.1214 / ss / 1177012580 .

  22. ^ Pearson, K. (1900). "Pada Kriteria bahwa Sistem Penyimpangan yang diberikan dari Kemungkinan dalam Kasus Sistem Variabel yang Berkorelasi adalah sedemikian rupa sehingga dapat diduga muncul dari Random Sampling" . Majalah Filsafat . Seri 5. 50(302): 157–175. doi : 10.1080 / 14786440009463897 .

  23. ^ "Karl Pearson (1857–1936)" . Departemen Ilmu Statistik - University College London . Diarsipkan dari yang asli pada 2008-09-25.

  24. ^ Fisher | 1971 | loc = Bab II. Prinsip-prinsip Eksperimenasi, diilustrasikan oleh Eksperimen Psiko-fisik, Bagian 8. Hipotesis Null

  25. ^ Kutipan OED: 1935 RA Fisher, Desain Eksperimen ii. 19, "Kita dapat berbicara tentang hipotesis ini sebagai 'hipotesis nol', dan hipotesis nol tidak pernah terbukti atau ditetapkan, tetapi mungkin dibantah, dalam proses eksperimen."

  26. ^ Box, JF (Februari 1980). "RA Fisher dan Desain Eksperimen, 1922–1926". Ahli Statistik Amerika . 34 (1): 1-7. doi : 10.2307 / 2682986 . JSTOR 2682986 .

  27. ^ Yates, F (Juni 1964). "Sir Ronald Fisher dan Desain Eksperimen". Biometrik . 20 (2): 307–321. doi : 10.2307 / 2528399 . JSTOR 2528399 .

  28. ^ Stanley, Julian C. (1966). "Pengaruh Fisher" Desain Eksperimen "pada Penelitian Pendidikan Tiga Puluh Tahun Kemudian". Jurnal Penelitian Pendidikan Amerika . 3 (3): 223–229. doi : 10.3102 / 00028312003003223 . JSTOR 1161806 .

  29. ^ Agresti, Alan; David B. Hichcock (2005). "Bayesian Inference for Categorical Data Analysis" (PDF) . Metode & Aplikasi Statistik . 14 (3): 298. doi : 10.1007 / s10260-005-0121-y .

  30. ^ Melompat ke:a b Edwards, AWF (1998). "Seleksi Alam dan Rasio Jenis Kelamin: Sumber Fisher". Naturalis Amerika . 151 (6): 564–569. doi : 10.1086 / 286141 . PMID 18811377 .

  31. ^ Fisher, RA (1915) Evolusi preferensi seksual. Eugenics Review (7) 184: 192

  32. ^ Fisher, RA (1930) Teori Genetik Seleksi Alam . ISBN 0-19-850440-3

  33. ^ Edwards, AWF (2000) Perspektif: Anekdotal, Sejarah dan Komentar Kritis tentang Genetika. The Genetics Society of America (154) 1419: 1426

  34. ^ Andersson, Malte (1994). Seleksi Seksual . Princeton University Press. ISBN 0-691-00057-3.

  35. ^ Andersson, M. dan Simmons, LW (2006) Seleksi seksual dan pilihan jodoh. Tren, Ekologi, dan Evolusi (21) 296: 302

  36. ^ Gayon, J. (2010) Seleksi seksual: Proses Darwinian lainnya. Comptes Rendus Biologies (333) 134: 144

  37. ^ Neyman, J (1934). "Pada dua aspek yang berbeda dari metode representatif: Metode pengambilan sampel bertingkat dan metode pemilihan purposive". Jurnal Masyarakat Statistik Kerajaan . 97 (4): 557–625. doi : 10.2307 / 2342192 . JSTOR 2342192 .

  38. ^ "Sains di Dunia yang Kompleks - Big Data: Peluang atau Ancaman?" . Institut Santa Fe.

  39. ^ Wolfram, Stephen (2002). Jenis Ilmu Baru . Wolfram Media, Inc. hlm. 1082. ISBN 1-57955-008-8.

  40. ^ Freedman, DA (2005) Model Statistik: Teori dan Praktik , Cambridge University Press. ISBN 978-0-521-67105-7

  41. ^ McCarney R, Warner J, Iliffe S, van Haselen R, Griffin M, Fisher P (2007). "Efek Hawthorne: uji coba terkontrol secara acak" . BMC Med Res Methodol . 7 (1): 30. doi : 10.1186 / 1471-2288-7-30 . PMC 1936999 . PMID 17608932 .

  42. ^ Rothman, Kenneth J; Greenland, Sander; Lash, Timothy, eds. (2008). "7". Epidemiologi Modern (edisi ke-3). Lippincott Williams & Wilkins. hal. 100.

  43. ^ Mosteller, F., & Tukey, JW (1977). Analisis dan regresi data . Boston: Addison-Wesley.

  44. ^ Nelder, JA (1990). Pengetahuan yang diperlukan untuk mengomputerisasi analisis dan interpretasi informasi statistik. Dalam sistem Pakar dan kecerdasan buatan: kebutuhan akan informasi tentang data . Laporan Asosiasi Perpustakaan, London, 23-27 Maret.

  45. ^ Chrisman, Nicholas R (1998). "Memikirkan Kembali Tingkat Pengukuran untuk Kartografi". Kartografi dan Ilmu Informasi Geografis . 25 (4): 231–242. doi : 10.1559 / 152304098782383043 .

  46. ^ van den Berg, G. (1991). Memilih metode analisis . Leiden: DSWO Press

  47. ^ Hand, DJ (2004). Teori dan praktik pengukuran: Dunia melalui kuantifikasi. London: Arnold.

  48. ^ Mann, Prem S. (1995). Statistik Pengantar (2nd ed.). Wiley. ISBN 0-471-31009-3.

  49. ^ Upton, G., Cook, I. (2008) Oxford Dictionary of Statistics , OUP. ISBN 978-0-19-954145-4.

  50. ^ Lompat ke:a b Piazza Elio, Probabilità e Statistica, Esculapio 2007

  51. ^ Everitt, Brian (1998). Kamus Statistik Cambridge . Cambridge, UK New York: Cambridge University Press. ISBN 0521593468.

  52. ^ "Cohen (1994) Bumi Berbulu (p <.05)" . YourStatsGuru.com.

  53. ^ Rubin, Donald B .; Little, Roderick JA, Analisis statistik dengan data yang hilang, New York: Wiley 2002

  54. ^ Ioannidis, JPA (2005). "Mengapa Temuan Penelitian Terbanyak Salah" . Kedokteran PLoS . 2 (8): e124. doi : 10.1371 / jurnal.pmed.0020124 . PMC 1182327 . PMID 16060722 .

  55. ^ Langsung ke:a b Huff, Darrell (1954) Cara Lie dengan Statistik , WW Norton & Company, Inc New York.ISBN 0-393-31072-8

  56. ^ Warne, R. Lazo; Ramos, T .; Ritter, N. (2012). "Metode Statistik yang Digunakan dalam Jurnal Pendidikan Berbakat, 2006-2010". Triwulan Anak Berbakat . 56 (3): 134–149. doi : 10.1177 / 0016986212444122 .

  57. ^ Melompat ke:a b Drennan, Robert D. (2008). "Statistik dalam arkeologi". Di Pearsall, Deborah M. (ed.). Ensiklopedia Arkeologi . Elsevier Inc. hlm. 2093–2100. ISBN 978-0-12-373962-9.

  58. ^ Melompat ke:a b Cohen, Jerome B. (Desember 1938). "Penyalahgunaan Statistik". Jurnal Asosiasi Statistik Amerika . JSTOR. 33 (204): 657-674. doi : 10.1080 / 01621459.1938.10502344 .

  59. ^ Freund, JE (1988). "Statistik Dasar Modern". Referensi Kredo .

  60. ^ Huff, Darrell; Irving Geis (1954). Cara Berbohong dengan Statistik . New York: Norton. Ketergantungan pada sampel dapat dihancurkan oleh [bias] ... biarkan diri Anda skeptis.

  61. ^ Huff, Darrell; Irving Geis (1954). Cara Berbohong dengan Statistik . New York: Norton.

  62. ^ Nikoletseas, MM (2014) "Statistik: Konsep dan Contoh." ISBN 978-1500815684

  63. ^ Anderson, DR; Sweeney, DJ; Williams, TA (1994) Pengantar Statistik: Konsep dan Aplikasi , hal. 5-9. Grup Barat. ISBN 978-0-314-03309-3

Bacaan lebih lanjut