Theo định nghĩa trong Wikipedia, "thống kê là nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích, giải thích, trình bày và tổ chức dữ liệu. Chúng ta áp dụng thống kê để nghiên cứu các lĩnh vực khoa học, công nghiệp hoặc các vấn đề xã hội. Thống kê rất cần thiết để bắt đầu nghiên cứu một tiến trình... Nó đề cập tới tất cả các khía cạnh của dữ liệu bao gồm việc lập kế hoạch, thu thập dữ liệu mẫu cho các cuộc khảo sát và thí nghiệm." Quả thực thông kê rất hữu ích trong nhiều lãnh vực nếu được sử dụng đúng đắn và khách quan. Tuy nhiên, càng ngày người ta càng có khuynh hướng lạm dụng thống kê để lừa dối đại chúng chứ không dùng thống kê để trình bày những điều cần biết hoặc để bác bỏ những ngụy biện vô căn cứ.
Những tài liệu Internet có đề cập đến vấn đề lạm dụng thống kê, nhưng chỉ nói sơ sài và không có thí dụ cụ thể, chẳng hạn như “There is a general perception that statistical knowledge is all-too-frequently intentionally misused by finding ways to interpret only the data that are favorable to the presenter. A mistrust and misunderstanding of statistics is associated with the quotation, "There are three kinds of lies: lies, damned lies, and statistics". Misuse of statistics can be both inadvertent and intentional, and the book How To Lie With Statistics outlines a range of considerations.” Tài liệu này đề cập đến cuốn sách How To Lie With Statistics của Darrel Huff thường được coi là kinh điển, xuất bản năm 1954 và đã tái bản hơn 30 lần, đến nay vẫn còn là kiến thức căn bản về những kỹ thuật lừa dối bằng thống kê. Đại cương sách này có 10 chương như sau:
1. The sample with a built-in bias (mẫu với một thiên kiến có sẵn).
Lấy mẫu thống kê thiếu trung thực, không phản ảnh toàn thể là sự lừa dối thường thấy nhất. Sách có thí dụ "a psychiatrist reported once that practically everybody is neurotic." Chuyên gia phân tâm này chỉ quan sát những bệnh nhân của ông ta và không hề khảo sát một người bình thường nào, vậy mà dám kết luận tất cả mọi người đều có vấn đề tâm thần.
2. The well-chosen average (số bình quân chọn đúng ý).
Trong thống kê có ba loại bình quân: mean (cộng tất cả và chia đều cho tổng số), median (số liệu ở giữa tất cả những số liệu khác) và mode (số liệu xuất hiện nhiều nhất). Có thể chọn một trong ba cách tính để trình bày theo ý mình. Thí dụ một công ty trả lương bất công, một thiểu số có lương rất cao nhưng đa số lương rất thấp, nếu muốn che đậy điều này thì lấy số mean của thu nhập bình quân nhìn cũng khá tốt. Còn muốn phơi bày thực trạng thì lấy số median hoặc mode thì sẽ thấy thu nhập trung bình của công nhân quá tệ.
3. The little figures that are not there (những con số nhỏ không đúng thực tế).
Một kết quả thống kê dựa vào khảo sát một nhóm nhỏ có thể có sai số rất lớn. Thí dụ như gieo một đồng tiền, xác suất Sấp hay Ngửa cùng là 50%, nhưng phải gieo hàng ngàn lần thì mới có kết quả gần đúng. Giả sử chỉ gieo có 10 lần thì có thể được đến 8 lần Ngửa và chỉ có 2 lần Sấp hoặc ngược lại. Trong thống kê nhiều người cố ý lừa dối bằng cách này để quảng cáo hoặc tạo tin tức giật gân. Chỉ khảo sát những nhóm nhỏ, nếu thấy kết quả không ưng ý thì vờ đi và chỉ trình bày dữ liệu khi kết quả bị sai lạc theo ý mình muốn.
4. Much ado about practically nothing (nhiều chuyện tùm lum về những cái không đâu).
Tác giả thí dụ sự phán xét dựa vào test IQ, nếu Linda có IQ là 101 thì được coi là thông minh còn Peter có IQ là 98 thì bị coi là thiếu thông minh. Trên thực tế test IQ có giá trị giới hạn vì không đo được khả năng lãnh đạo, óc sáng tạo, sự chuyên cần và năng khiếu nghệ thuật. Ngoài ra còn vấn đề sai số, cho nên chỉ nhìn vào số IQ mà khen ngợi Linda và lo lắng cho Peter là thiếu chính xác và không cần thiết.
5. The gee-whiz graph (đồ thị được phù phép để tạo ấn tượng).
Những biến động nhỏ trong một đồ thị được quan trọng hóa bằng cách cắt xén (chop off the chart) rồi thay đổi sự phân chia trục tung (change the proportion) điều này làm sự tăng giảm nhỏ nhìn giống như sự tăng giảm lớn. Đây là kỹ thuật làm những chuyện nhỏ trở nên quan trọng đối với độc giả.
6. The one-dimensional picture (hình ảnh một chiều).
Kỹ thuật dùng hình ảnh để tạo ấn tượng. Thí dụ 6$ nhiều gấp đôi 3$ nhưng không hơn bao nhiêu, muốn tạo ấn tượng thì vẽ hai túi tiền, túi tượng trưng cho 6$ vừa cao gấp đôi vừa to ngang gấp đôi túi 3$ (vẽ ăn gian biến gấp đôi thành gấp bốn) thì độc giả nhìn thấy 6$ lớn hơn 3$ nhiều.
7. The semi-attached figure (hỉnh ảnh một phần liên quan).
Nếu không chứng minh được điều mình muốn thì dẫn chứng một hình ảnh không thực sự liên quan nhưng có thể dẫn dụ độc giả tin theo ý mình. Thí dụ nếu không chứng minh được thuốc của mình chữa cảm lạnh tốt thì trình bày dữ kiện là 200 g thuốc của mình trong ống nghiệm có thể giết 31 ngàn vi trùng trong 11 giây, kèm theo hình ảnh của một bác sĩ mặc áo trắng, sau đó kết luận là thuốc của mình là loại tốt nhất để chữa cảm lạnh.
8. Post hoc rides again.
Chương này nói về những sai lầm vô tình hoặc cố ý về tương quan nhân quả. Tác giả cho nhiều thí dụ để chứng tỏ rất khó xác định cái nào là nhân cái nào là quả, có khi cả hai cùng là nguyên nhân hoặc cùng là hậu quả của một yếu tố thứ ba. Có những trường hợp không có liên quan nhân quả, chỉ là hai sự kiện tình cờ đến cùng lúc nhưng nhiều người vẫn tưởng có liên quan. Nói chung đây là khiếm khuyết căn bản của nhận thức con người, nhưng thống kê luôn luôn là một phương tiện hữu hiệu để lừa dối về tương quan nhân quả, biến những cái không có thành có thực.
9. How to statisticulate (làm sao lừa dối bằng thống kê).
Chữ statisticulate là viết tắt của statistic và manipulate. Sự bóp méo các số liệu thống kê không phải chỉ do người làm thống kê mà còn do các ký giả, thương gia, người quảng cáo, và các chuyên gia trong nhiều lãnh vực. Trong chương này tác giả không trình bày những kỹ thuật lừa dối mới nhưng cho thí dụ về những lừa dối phức tạp và tinh tế thường nằm ngoài khả năng hiểu biết của đại chúng.
10. How to talk back to a statistic (làm sao đối đáp với thống kê).
Muốn biết một số liệu thống kê có trung thực hay không cần phải đặt năm câu hỏi căn bản:
(1) Who says so? Xem ai trình bày số liệu thống kê để biết về những thiên kiến cố ý (conscious bias). Ngoài ra còn phải để ý đến những thiên kiến vô thức (unconscious bias) thường là nguy hiểm hơn những thiên kiến cố ý.
(2) How does he know? Có những sự thăm dò ý kiến mà chỉ có một số ít trả lời còn đa số không quan tâm, như vậy kết quả không thể chính xác. Cần để ý xem mẫu khảo sát có đủ rộng lớn để kết quả gần đúng với thực tế.
(3) What's missing? Cần có nhiều dữ kiện để so sánh chính xác, những so sánh chỉ dựa vào vài dữ kiện không đáng tin. Những số phần trăm (%) đưa ra mà không trình bày các số liệu liên quan thường là lừa dối.
(4) Did somebody change the subject? Nhiều dữ kiện thu thập với cách thức khác nhau nhưng vẫn được so sánh như là thực hiện giống nhau. Có khi dữ kiện chỉ căn cứ vào những gì người ta nói, nhưng lại trình bày như là những gì người ta làm.
(5) Does it make sense? Nếu chỉ quan tâm đến những con số mà không có "common sense", những kết luận thường sai lạc vì dựa vào những giả định vô căn cứ. Nhiều số liệu thống kê đưa ra số lẻ (thí dụ 40.13) để làm ra vẻ chính xác, bởi vì họ sợ nếu nói "about 40" thì có thể bị nghi ngờ tính đại khái. Những sự trình bày gian dối này thường đi đến những kết luận không hợp lý.
Tóm lại, cuốn How To Lie With Statistics trình bày khá đầy đủ những kỹ thuật lừa dối bằng thống kê và ý của tác giả là muốn giúp người đọc nhận thức được điều này để tránh bị lừa bịp. Nhiều thí dụ đã lỗi thời nhưng đa số kỹ thuật lừa dối trong sách hiện nay vẫn được áp dụng. Tuy nhiên, qua Thế Kỷ thứ 21 có nhiều cách mới để bịp bợm đại chúng mà tác giả cuốn sách này không nghĩ đến vì quá trắng trợn thô thiển nhưng lại thành công dễ dàng.
Thời đại hiện nay có sự bùng nổ thông tin, đa số người dùng Internet có thể tiếp cận hàng ngày một lượng thông tin lớn gấp hàng ngàn lần số lượng thông tin trong sách báo thời trước. Như vậy, có phải con người Thế Kỷ thứ 21 hiểu biết hơn con người Thế Kỷ thứ 20 và khó bị lừa dối hơn? Thực tế cho thấy quá nhiều thông tin không giúp con người hiểu biết hơn mà thường tạo nên tình trạng quá tải (information overload) làm tê liệt khả năng phán đoán. Vì khả năng tiếp thu của bộ óc con người vừa có hạn vừa có khuynh hướng vờ đi những cái không muốn chấp nhận, sự bùng nổ thông tin chỉ giúp ích cho một thiểu số có kiến thức căn bản vững chắc, có common sense, có đầu óc cởi mở và có khả năng phán đoán bén nhạy. Đối với đại chúng thì sự bùng nổ thông tin chỉ giúp họ củng cố những thành kiến, làm họ thêm hẹp hòi cố chấp và dễ bị hù dọa lừa gạt hơn.
Một thí dụ điển hình về sự lừa bịp hiện đại bằng thống kê mặc dù thô thiển nhưng vẫn rất thành công, đó là sự lừa bịp về cholesterol. Đây là một câu hỏi trong báo National Geographic, "Bạn có biết 80% những người bị bệnh tim mạch có lượng cholesterol trong máu cao?" Câu hỏi này có ngụ ý cholesterol là nguyên nhân chính của bệnh tim mạch. Người có ý thức về thống kê có thể nhận ra đây là câu hỏi bịp bợm - tất cả 100% người Việt bị ung thư đều ăn cơm hàng ngày, vậy thì cơm là nguyên nhân chính của ung thư hay sao? Muốn chứng minh giả thiết "cholesterol là nguyên nhân chính của bệnh tim mạch" thì phải tính ngược lại: Bao nhiêu phần trăm những người có cholesterol cao bị bệnh tim mạch, sau đó đối chiếu tỉ lệ này với tỉ lệ những người có cholesterol thấp bị bệnh tim mạch. Các số liệu thống kê phải thực hiện trung thực, mẫu khảo sát phải rộng lớn bao gồm hàng triệu người, các đối tượng thử nghiệm phải có nhiều tương đồng về sắc tộc, tuổi, giới tính, cách sinh hoạt, ... để loại bỏ bớt ảnh hưởng của những yếu tố không kiểm soát được. Nếu thấy có một sự khác biệt rõ ràng giữa hai tỉ lệ thì mới có thể kết luận nồng độ cholesterol trong máu là nguyên nhân chính của bệnh tim mạch.
Tuy nhiên, khi tham khảo statistics về cholesterol thì không thấy có thống kê chứng minh cái hại của cholesterol. Có một đồ thị về sự liên quan của cholesterol với tử suất (cholesterolemia and mortality), mới nhìn qua thì thấy tỉ lệ chết tăng vọt khi lượng cholesterol trong máu cao. Xem kỹ thì thấy tác giả áp dụng kỹ thuât lừa dối số 5 (the gee-whiz graph) cắt xén đồ thị để tạo ấn tượng. Cách thu thập số liệu cũng rất đáng ngờ - tác giả nói là tổng hợp 18 nguồn thông tin nhưng không nói rõ từ đâu. Trên trục tung thì không phải chỉ có tử suất vì bệnh tim mạch mà là tổng hợp 4 nguyên nhân: Neoplasm, Stroke, Accident, Suicide. Những người chết vì tai nạn và tự tử thì mắc mớ gì tới cholesterol mà lôi vào đồ thị? Sự lừa dối vô liêm sỉ này làm tôi bật cười, nhưng rồi thở dài khi nghĩ chắc đồ thị này vẫn có nhiều người tin.
Sự kết án cholesterol chỉ là lý luận ngụy biện dựa vào một dysfunction của Low-density Lipoprotein (LDL) - LDL bám quá nhiều vào động mạch vành của một số ít người - chứ không được kiểm chứng bằng thống kê. Thực ra LDL rất cần thiết, vừa vận chuyển cholesterol cho các tế bào vừa tạo một lớp bảo vệ thành mạch máu, nếu có chỗ nứt nhỏ thì LDL sẽ trám vào cho khỏi bể to. Con người càng lớn tuổi mạch máu càng dễ bể, rất cần lớp coating LDL bảo vệ. Cái công LDL phục vụ và bảo vệ toàn thể nhân loại rất lớn, còn cái dysfunction của LDL với một thiểu số là do nhiều nguyên nhân (tuổi già, di truyền, mập phì, thiếu vận động, ...) chứ không phải đơn giản là do nồng độ LDL trong máu cao. Một bác sĩ Mỹ chuyên khoa tim mạch nhận xét khoảng 50% bệnh tim mạch không có liên quan đến cholesterol, thí dụ có trường hợp mạch máu bị tắc nghẽn là do thành mạch máu bị sưng lên chứ không phải do LDL bám quá nhiều. Tuy nhiên, những nhà nghiên cứu thiển cận hoặc cố ý gian dối đã kết án LDL là "bad cholesterol" hoặc "the cardiac killer" và tuyên bố vô căn cứ rằng nộng độ cholesterol trong máu liên quan trực tiếp với bệnh tim mạch. Với thế lực của các công ty dược phẩm và sự tiếp tay của các ký giả, họ đã thành công trong việc làm đại chúng tưởng rằng LDL là "mỡ độc trong máu" cần giảm bớt càng nhiều càng tốt bằng cách uống statins. Thực ra cũng có trường hợp cần dùng statins, đó là những người có cholesterol quá cao mà cơ thể họ không tự điều chỉnh được mặc dù họ đã thay đổi cách sống lành mạnh hơn. Đây chỉ là một thiểu số rất nhỏ, và nếu đại chúng ý thức được điều này thì các công ty dược phẩm sẽ thất thu lợi nhuận bán statins hàng chục tỷ đô mỗi năm chứ không ít.
Vì không có số liệu thống kê đứng đắn về sự liên hệ giữa cholesterol và bệnh tim mạch và cũng chẳng có thống kê nào cho thấy có sự liên quan giữa cholesterol và tuổi thọ, những "chuyên gia hù dọa" phải đặt câu hỏi bịp và vẽ đồ thị gian dối như trên để lừa gạt đại chúng. Mức độ cholesterol trong máu chỉ được coi là "tốt" nếu dưới 200 mg/dL, từ 200-240 mg/dL bị coi là borderline high risk và trên 240 mg/dL là high risk. Sự phân chia này không có cơ sở khoa học mà chỉ có mục đích thương mại, cố ý làm đa số nhân loại bị liệt vào dạng high risk hoặc borderline high risk để cho nhiều người tưởng rằng họ cần dùng statins và cần đi xét nghiệm thường xuyên. Bài viết về cholesterol trong Wikipedia có nói "the majority of individuals who suffer heart attacks, strokes and peripheral arterial disease complications have ‘normal’ cholesterol values, i.e. values <200 mg/dL." Đây là một thông tin đứng đắn về cholesterol, nhưng bị tràn ngập và che lấp bởi vô số thông tin bịp bợm kết án cholesterol như là một điều hiển nhiên (self-evident) chứ không cần bằng chứng. Quả thực Internet đã trở thành công cụ tốt nhất để lừa gạt hoặc dẫn dụ đại chúng cho mục đích marketing. Và khi đại chúng đã tin tưởng vào bất cứ điều gì, đa số chuyên gia dù hiểu biết hay không cũng phải chiều theo thành kiến này để tránh phiền phức và dễ làm ăn.
Một website Mỹ kêu gọi giúp đỡ những người bị bắt cóc đưa ra số liệu người bị kidnapped hàng năm ở Mỹ là khoảng 800.000 người. Mới nhìn đã biết ngay nói láo - mặc dù nước Mỹ có tỷ lệ tội phạm cao nhưng không thể hỗn loạn như vậy. Khi tham khảo thì thấy số liệu do National Center for Missing and Exploited Children đưa ra là số báo cáo mất tung tích (reported missing) chứ không phải là số người bị bắt cóc và con số 800.000 là của một năm cao nhất chứ không phải là số bình quân. Sự báo cáo thất tung là do nhiều nguyên nhân: người lớn hoặc trẻ con bỏ nhà đi hoặc đi chơi không báo về gia đinh làm người thân phải gọi cảnh sát, con nít đưọc họ hàng bà con dắt đi chơi nhưng không liên lạc được, vợ hoặc chồng đã ly dị không có quyền giữ con nhưng vẫn đem con đi và người kia gọi điện thoại tố cáo, ... Còn số người thực sự bị bắt cóc hàng năm ở Mỹ chỉ khoảng 100 người. Chỉ có một trăm mà thản nhiên phóng đại thành tám trăm ngàn và vẫn có nhiều người tin, nếu Darrel Huff sống lại thời nay thì có lẽ phải lắc đầu hết ý kiến và vứt cuốn sách How To Lie With Statistics của ông vào sọt rác nếu ông nhận ra sự thực phũ phàng "thà làm đầy tớ người khôn chứ không thể làm thầy thằng dại".
Tóm lại, những lừa dối trắng trợn bằng thống kê thời nay thì nhiều vô số trên báo chí và nhất là trên Internet, dù viết một cuốn sách hàng ngàn trang cũng không kể hết được. Mê hồn trận thống kê (cùng với những dối trá bất chấp thống kê) khiến cho Thế Kỷ thứ 21 trở thành "THE AGE OF MISINFORMATION", thời đại của thông tin sai lạc để tạo ấn tượng và hù dọa đại chúng với mục đích chính trị hoặc thương mại. Xưa Tổng Thống Roosevelt hi vọng khi Đệ Nhị Thế Chiến kết thúc thế giới sẽ tốt đẹp hơn và dân chúng sẽ được "free from want and free from fear." Đã hơn 70 năm trôi qua, đời sống Âu Mỹ đã thực sự tốt đẹp hơn nhưng đa số dân chúng vẫn không có sự bình an tâm hồn vì ham muốn quá nhiều và bị lừa dối hù dọa quá nhiều - "Instead of being free from want and free from fear, now they want everything and fear everything." Nhưng bản chất con người là vậy, nên thông cảm và chấp nhận chứ không thể làm gì hơn.