in

Berbohong dengan Statistik

Buku ini masih menjadi best sellers, sekalipun terbit kali pertama di tahun 1956 dan tebalnya hanya 144 halaman. Para ahli statistik dan data science memakainya sebagai panduan.

Buku ini masih menjadi best sellers, sekalipun terbit kali pertama di tahun 1956 dan tebalnya hanya 144 halaman. Para ahli statistik dan data science memakainya sebagai panduan.

Buku ini membahas sejarah panjang penipuan data, bagaimana orang memanipulasi data untuk menggambarkan realitas secara keliru, dalam periklanan, politik, dll., serta cara mempertahankan diri dari hal-hal tersebut.

“Rata-rata dan hubungan serta tren dan grafik tidak selalu seperti yang terlihat. Mungkin ada lebih banyak di dalamnya daripada yang terlihat, dan mungkin ada lebih sedikit. Bahasa rahasia statistik, yang begitu menarik dalam budaya yang berpikiran fakta, digunakan untuk membuat sensasi, mengembang, membingungkan, dan terlalu menyederhanakan.

Statistik dapat digunakan untuk menipu. Data dapat bias secara sadar atau tidak sadar – oleh ahli statistik atau sumbernya.

Sampel data yang buruk adalah salah satu kesalahan terbesar. Sampel data adalah sampel kecil yang mewakili populasi statistik yang lebih besar.

Huff menggunakan contoh satu tong kacang merah dan hijau. Daripada menghitung setiap biji untuk melihat berapa banyak biji merah yang ada, kamu mengambil segenggam dengan berpikir rasio merah/hijau di tangan kamu sama dengan yang ada di dalam tong. Sampel harus cukup besar dan dipilih dengan cukup hati-hati atau tidak akan cukup mewakili keseluruhan.

Bias Sampel Acak

Sampel yang bias menghasilkan kesimpulan yang tidak lebih baik dari dugaan, meskipun tetap dapat dilihat sebagai fakta .
Sumber berbohong: jajak pendapat dan survei datang dengan risiko bias tambahan dari sumbernya. Orang yang ditanyai pertanyaan dapat membesar-besarkan jawabannya agar terlihat lebih baik atau memberikan jawaban yang lebih menyenangkan – jawaban yang menurut mereka ingin didengar surveyor.

Untuk mencegah ini, pertanyakan, apakah terjadi bias dalam prngambilan sample acak.

  • “Apakah setiap nama atau benda di seluruh kelompok memiliki peluang yang sama untuk menjadi sampel?”
  • “Rata-rata” memiliki banyak arti yang dapat digunakan secara menipu. Ada mean (rata-rata), median (nilai tengah), atau modus (yang sering muncul).

Rata-rata Geometrik dan Aritmatika

Dalam investasi, ada rata-rata geometrik yang berbeda dengan rata-rata aritmatika. Diambil dari serangkaian angka, setiap “rata-rata” bisa berbeda-beda, sehingga dapat disalahgunakan berdasarkan kebutuhan.

Dalam distribusi normal seperti tinggi suatu populasi, kamu mendapatkan kurva lonceng, dengan mean, median, dan modus berdekatan. Distribusi yang miring, seperti pendapatan suatu populasi, condong ke kiri atau ke kanan, sehingga menghasilkan mean, median, dan modus yang jelas berbeda.

Ketika berhadapan dengan .asalah rata-rata, pertanyakan ini: “Rata-rata dari apa? Siapa yang termasuk?”

Ukuran sampel yang kecil mudah dimanipulasi dan sering kali tersembunyi di depan mata (alasan untuk membaca cetakan kecilnya).

Peluang – keberuntungan, keberuntungan kasar – dapat berdampak besar pada hasil dalam sampel yang terlalu kecil. Membalik koin harus menghasilkan kepala 50% dari waktu. Sekarang lempar koin sungguhan sepuluh kali: 80/20 sama mungkinnya dengan 50/50. Peluang akan berdampak lebih besar pada 10 lemparan daripada 1.000 lemparan. Jumlah lemparan berpeluang berbeda.a

Pembalikan untuk Probabilitas

Diperlukan “pembalikan” atau percobaan yang cukup besar agar probabilitasnya berguna.

“Jika sumber informasi kamu juga memberikan tingkat signifikansinya, kamu akan memiliki gagasan yang lebih baik tentang posisi kamu. Tingkat signifikansi ini paling sederhana dinyatakan sebagai probabilitas… Untuk sebagian besar tujuan, tidak ada yang lebih buruk dari tingkat signifikansi 5% ini yang cukup baik. Untuk beberapa, tingkat yang diminta adalah satu persen, yang berarti ada sembilan puluh sembilan kemungkinan dari seratus bahwa perbedaan yang nyata, atau yang lainnya, adalah nyata. Apa pun yang mungkin terjadi kadang-kadang digambarkan sebagai “praktis pasti.””

Standar deviasi — kisaran dari rata-rata — sering kali sengaja diabaikan untuk menyederhanakan rata -rata atau membuatnya tampak presisi. Dalam hal ini rata-rata tidak ada gunanya.

“Tidak mengetahui apa pun tentang suatu subjek sering kali lebih sehat daripada mengetahui apa yang tidak benar, dan sedikit mempelajarinya mungkin merupakan hal yang berbahaya.”

Kesalahan standar mengukur akurasi di mana sampel data mewakili populasi. Ini disajikan sebagai “± X”.

Kesalahan Standar dan Tipuan Grafik

Inti dari kesalahan standar adalah mulai menganggap hasil berada dalam kisaran, meskipun kesalahan standar tidak disebutkan. Kesalahan besar adalah mempercayai hasil yang tepat ketika itu benar-benar mewakili berbagai probabilitas.

Bagan dan grafik adalah cara mudah menggunakan data untuk membesar-besarkan, menipu, atau berbohong. Juga dikenal sebagai kejahatan grafik.

Abaikan semua diagram dan grafik tanpa angka atau ukuran pada sumbu X atau Y.

Perhatikan grafik garis yang mengubah proporsi antara sumbu X dan Y untuk mempertajam atau meratakan kemiringan garis/kurva.

Waspadai piktograf dan bagan batang yang mengubah lebar, tinggi, dan panjang tetapi mewakili satu faktor. Hal ini dapat memberikan kesan visual perbandingan yang berlebihan.

“Jika kamu tidak dapat membuktikan apa yang ingin kamu buktikan, tunjukkan sesuatu yang lain dan berpura-pura bahwa itu adalah hal yang sama. Dalam kebingungan yang mengikuti benturan statistik dengan pikiran manusia, hampir tidak ada orang yang menyadari perbedaannya. Sosok semi-terpasang adalah perangkat yang dijamin akan mendukung Anda. Selalu begitu.”

Figur semi-terikat menggunakan suatu hal sebagai cara untuk mengklaim bukti atas sesuatu yang lain, padahal tidak ada korelasi di antara keduanya. Misalnya, 32% dokter menganggap kendaraan Mercedes aman. Itu tidak ada artinya. “Satu-satunya jawaban terhadap angka yang sangat tidak relevan adalah “Jadi apa?””

“Jika kamu ingin berburu angka semi-terlampir, Anda dapat mencoba menelusuri laporan keuangan perusahaan. Perhatikan keuntungan yang mungkin terlihat terlalu besar sehingga disembunyikan dengan nama lain… Kenyataannya adalah, apa yang dilaporkan perusahaan sebagai keuntungan hanyalah setengah atau sepertiga dari keuntungan. Bagian yang tidak dilaporkan tersembunyi dalam penyusutan, dan penyusutan khusus, dan cadangan untuk kontinjensi… Seringkali ada banyak cara untuk menyatakan angka apapun. Misalnya, kamu dapat mengungkapkan fakta yang sama dengan menyebutnya sebagai laba atas penjualan sebesar satu persen, laba atas investasi sebesar lima belas persen, laba sepuluh juta dolar, peningkatan laba sebesar empat puluh persen (dibandingkan dengan tahun 1935). – rata-rata 39), atau penurunan enam puluh persen dari tahun lalu.

Kekeliruan Post-Hoc

Kekeliruan post hoc – “Jika B mengikuti A, maka A menyebabkan B.” Misalnya: jika data menunjukkan bahwa pelari mempunyai pendapatan rata-rata lebih tinggi, maka salah jika berasumsi bahwa lari akan meningkatkan pendapatan kamu. Namun, orang-orang sampai pada kesimpulan itu. Dalam setiap kasus, ada banyak kemungkinan penjelasan mengapa (seperti kebetulan) dan kamu tidak bisa hanya memilih satu yang sesuai dengan pendapat kamu.

“Dengan sampel yang kecil, kamu mungkin akan menemukan korelasi substansial antara sepasang karakteristik atau peristiwa apa pun yang dapat kamu pikirkan.”

Kesalahan lain dalam kesimpulan: membingungkan sebab dan akibat (korelasi dan sebab-akibat), dengan asumsi data melampaui batas yang diizinkan (lebih dari satu hal, sama dengan lebih dari yang lain),

Berhati-hatilah dengan kumpulan trik yang digunakan untuk sengaja (atau tidak sengaja) mendistorsi klaim statistik.

Titik desimal menambahkan kesimpulan presisi yang jarang ada. Persentasenya pun tidak berbeda. Ketika digabungkan (seperti di bidang keuangan yang mengambil persen hingga seperseratus terdekat) hal itu menjadi konyol.

Menambah Daftar Pantauan

Matematika yang buruk menggunakan persentase – menambah, mengurangi, mengalikan, membagi – harus ditambahkan ke daftar pantauan.

Misalnya, menggabungkan diskon penjualan 50% dan 20% bukanlah diskon 70% tetapi diskon 60%. Contoh lain: jika portofolio Anda mengalami kerugian 50% diikuti dengan keuntungan 50%, tidak berarti kamu sampai di titik impas, melainkan baru setengah jalan. Keuntungan 100% diperlukan untuk mencapai titik impas setelah kerugian 50%.

“Kadang-kadang merupakan layanan yang substansial hanya untuk menunjukkan bahwa subjek dalam kontroversi tidak seterbuka-dan-tertutup seperti yang terlihat.”

“Faktanya adalah, terlepas dari basis matematisnya, statistik adalah seni sekaligus sains. Banyak sekali manipulasi dan bahkan distorsi dimungkinkan dalam batas-batas kepatutan. Seringkali ahli statistik harus memilih di antara metode, proses subyektif, dan menemukan salah satu yang akan digunakannya untuk mewakili fakta. Dalam praktik komersial, kemungkinan besar dia akan memilih metode yang tidak menguntungkan sama seperti seorang copywriter yang menyebut produk sponsornya tipis dan murah, padahal dia juga bisa mengatakan ringan dan ekonomis.”

Intinya adalah untuk menghindari kepercayaan buta pada sepotong data. Jangan menulisnya begitu saja.

Ajukan 5 Pertanyaan untuk Membaca Data Palsu dan Tidak Berguna:

Bersikaplah skeptis untuk menyingkirkan data palsu dari data yang berguna.

1. Siapa Bilang Begitu? — mencari bias yang disadari dan tidak disadari.

  • Apa agendanya?
  • Apakah mereka mendapat manfaat dari penyajian data dengan cara tertentu?
  • Apakah cerita tersebut menceritakan keseluruhan cerita atau hanya sebagian cerita (hanya bagian baik atau buruknya)?
  • Apakah itu menyalahgunakan rata-rata?
  • Apakah mereka secara menipu bersembunyi di balik nama yang “otoritatif” untuk mendukung klaim tersebut?
  • Apakah sejumlah bias – yang bersifat terkini, terlalu percaya diri, konfirmasi, mementingkan diri sendiri, biaya yang ditanggung, melihat ke belakang, pemikiran kelompok, dll. – ikut berperan?

2. Bagaimana Mereka Tahu? – cari bias pengambilan sampel.

  • Dari mana data itu berasal?
  • Bagaimana mereka mendapatkannya?
  • Apakah itu sampel yang representatif dari populasi?
  • Bisakah itu bias dengan cara apa pun?
  • Apakah sampelnya cukup besar untuk membuat kesimpulan yang dapat dipercaya?

3. Apa yang Hilang? — mencari informasi yang hilang yang akan membuatnya lebih bermanfaat, sehingga dapat dipercaya.

  • Apakah ini mendefinisikan “rata-rata” yang digunakan?
  • Apakah kesalahan standar termasuk?
  • Apakah itu data mentah atau persentase atau keduanya?
  • Dari berapa banyak?
  • Apakah pembanding atau faktor penyebab diperlukan tetapi tidak ada?

4. Apakah Seseorang Mengubah Topik? — mencari perubahan subjek antara data mentah dan kesimpulan.

  • Apakah data menunjukkan peningkatan X atau justru lebih sering dibahas?
  • Apakah judul/artikel/makalah menyampaikan hasil atau penggunaannya bias?
  • Jika itu sensus atau survei, dapatkah itu didukung, dibantah, atau dibuat lebih terinformasi dengan data sekunder atau sedikit pemikiran tingkat kedua dan apakah itu?
  • Sekali lagi dalam survei, apakah mereka yang menjawab akan mendapat manfaat (dirugikan) dengan menjawab dengan cara tertentu?
  • Jika dibandingkan, apakah apel dengan apel atau apel dengan jeruk?
  • Apakah ini sebuah kekeliruan post hoc?

5. Apakah masuk akal? — hati-hati terhadap apa pun yang gagal dalam uji akal sehat .

  • Apakah suatu hal yang rumit dan rumit direduksi menjadi satu angka?
  • Apakah data disajikan dalam rentang atau angka yang tepat?
  • Berapa angka desimal? Apakah ini merupakan ekstrapolasi tren atau prediksi masa depan?

“Banyak statistik yang keliru. Itu bertahan hanya karena keajaiban angka menyebabkan penangguhan akal sehat.”

Orang bisa percaya begitu saja pada hasilnya.

“Ekstrapolasi berguna, khususnya dalam bentuk peramalan yang disebut tren perkiraan. Tetapi dalam melihat angka-angka atau bagan yang dibuat darinya, perlu diingat satu hal terus-menerus: Tren saat ini mungkin merupakan fakta, tetapi tren masa depan tidak lebih dari tebakan yang terpelajar. Yang tersirat di dalamnya adalah “segala sesuatunya dianggap sama” dan “tren yang ada saat ini terus berlanjut.” Dan entah bagaimana segala sesuatunya menolak untuk tetap sama, jika tidak maka hidup akan menjadi membosankan.”

Mark Twain tentang ekstrapolasi yang tidak masuk akal: “Dalam kurun waktu seratus tujuh puluh enam tahun, Mississippi Bawah telah mempersingkat dirinya menjadi dua ratus empat puluh dua mil. Itu adalah rata-rata sedikit lebih dari satu mil dan sepertiga per tahun. Oleh karena itu, setiap orang yang tenang, yang tidak buta atau bodoh, dapat melihat bahwa pada Zaman Silur Oolitik Tua, hanya satu juta tahun yang lalu pada bulan November mendatang, Sungai Mississippi Bawah mencapai panjang lebih dari satu juta tiga ratus ribu mil, dan menjorok ke atas. Teluk Meksiko seperti pancing. Dan dengan cara yang sama setiap orang dapat melihat bahwa tujuh ratus empat puluh dua tahun dari sekarang Mississippi Bawah hanya akan menjadi satu mil dan tiga perempat panjangnya, dan Kairo dan New Orleans akan menggabungkan jalan-jalan mereka bersama-sama, dan berjalan dengan susah payah sepanjang jalan. di bawah satu walikota dan dewan anggota dewan bersama. Ada sesuatu yang menarik tentang sains. Seseorang mendapat keuntungan besar dari dugaan hanya dengan investasi fakta yang sepele.” – dari Kehidupan di Mississippi

Disraeli: “Ada tiga jenis kebohongan: kebohongan, kebohongan, dan statistik.”

Artemus Ward: “Bukan hal-hal yang tidak kita ketahui yang membuat kita mendapat masalah. Hal-hal yang kita tahu tidak demikian.

Samuel Johnson: “Angka bulat selalu salah.” *[dm]*