DataStation

Build yourself as a well-rounded Data Analyst

5 sai lầm thường gặp khi phân tích dữ liệu do ảnh hưởng của thiên kiến (Bias in data analysis)

Bias in data analysis

Data Analyst là người tiếp xúc với rất nhiều nguồn dữ liệu mỗi ngày và luôn phải giữ “cái đầu lạnh” để phân tích một cách trung lập nhất. Tuy nhiên, những thiên kiến có thể ảnh hưởng đến quá trình phân tích dữ liệu và dẫn đến kết luận sai. Thiên kiến là việc chúng ta thiên vị cho một ý kiến, lập luận nào đó khiến kết quả phân tích không còn chính xác.

Bài viết này sẽ đi sâu vào 5 thiên kiến phổ biến có thể ảnh hưởng đến chất lượng insights của bài phân tích.

  1. Thiên kiến xác nhận
  2. Thiên kiến dữ liệu quá khứ
  3. Thiên kiến lựa chọn mẫu
  4. Thiên kiến người sống sót
  5. Thiên kiến dựa trên thông tin sẵn có

1. Thiên kiến xác nhận (Confirmation bias)

Thiên kiến xác nhận (hay còn được gọi là “Cherry-picking”) là khi chúng ta ưu tiên tập trung vào những data xác nhận điều mình tin là đúng từ trước mà bỏ qua những dữ liệu khác.

Chẳng hạn như chúng ta đều tin rằng đối tượng khách hàng chính của sản phẩm làm đẹp là Nữ và phần lớn là trước độ tuổi trung niên. Vì thế khi đọc dữ liệu bên dưới, ta có xu hướng đi tìm data để xác minh cho niềm tin của mình. Và không có gì ngạc nhiên, khách hàng Nữ <45 tuổi chiếm đến hơn 60%, tôi đã nghĩ đúng!

Tuy nhiên chúng ta đã bỏ qua các điểm data khác khá thú vị: nhóm khách hàng Nam 18-25 tuổi đang tăng đáng kể trong 2022 và có mức độ đóng góp cao thứ 3. Điều này cho thấy có thể họ ngày càng quan tâm đến việc làm đẹp hơn, hoặc họ là người mua cho người thân, bạn bè sử dụng. Thiên kiến xác nhận đã làm chúng ta suýt bỏ qua xu hướng tiềm năng này!

2. Thiên kiến dữ liệu trong quá khứ (Historical bias)

Loại thiên kiến này xảy ra khi chúng ta hoàn toàn dựa vào dữ liệu trong quá khứ để đưa ra nhận định và tiên đoán cho tương lai, mà không cân nhắc đến bất kì yếu tố nào có thể ảnh hưởng đến xu hướng hiện tại và sắp tới.

Chẳng hạn như khi một công ty muốn đánh giá khả năng thanh toán nợ của nhóm khách hàng tại TP.HCM để lên kế hoạch cho năm 2023. Lúc này, Model sẽ dựa vào các dữ liệu trong năm 2022 để phân tích và thấy rằng tỉ lệ thanh toán đúng hạn là rất cao, và đề xuất tăng hạn mức cho vay trong năm nay. Tuy nhiên, Model đã bỏ qua những yếu tố như tình hình kinh tế thay đổi, cơ cấu dân số TP.HCM có sự dịch chuyển,… dẫn đến sự sai lệch có thể xảy ra khi đưa ra quyết định.

3. Thiên kiến khi lựa chọn mẫu (Selection bias)

Nếu bạn phải tự thực hiện một cuộc khảo sát mà bản thân không có chuyên môn, hoặc sử dụng dữ liệu thống kê từ một nguồn không tin cậy thì thiên kiến lựa chọn rất có thể xảy ra.

Đây là lỗi khi các mẫu dân số không đại diện cho toàn bộ nhóm mục tiêu. Nói cách khác, dữ liệu được chọn một cách chủ quan chứ không khách quan – làm cho mẫu không ngẫu nhiên và cuối cùng, không phản ánh phân bố dữ liệu thực tế.

Chẳng hạn như khi nghiên cứu về xu hướng sử dụng thương mại điện tử ở Việt Nam, dữ liệu chỉ ra rằng 75% người có ít nhất một đơn hàng trên các nền tảng thương mại điện tử trong vòng một tháng qua. Tuy nhiên, đây có thể là kết quả khảo sát dựa trên mẫu người tiêu dùng ở 2 thành phố lớn HCM và Hà Nội, trong khi nếu mẫu được dàn trải ở các tỉnh thành khác bao gồm cả thành thị và nông thôn thì tỉ lệ này hoàn toàn có thể thấp hơn.

4. Thiên kiến “người sống sót” (Survival bias)

Đây là thiên kiến xảy ra khi bạn có xu hướng đánh giá các kết quả thành công và bỏ qua các kết quả thất bại. Nguồn gốc của thiên kiến này liên quan đến các máy bay trở về sau nhiệm vụ trong Thế chiến thứ hai. Khi quan sát các máy bay đã trở về, quân đội muốn đặt giáp ở các vị trí có nhiều lỗ đạn nhất để bảo vệ các điểm yếu. Tuy nhiên, Abraham Wald, một nhà toán học, đã nhận ra rằng thiên kiến “người sống sót” đang ảnh hưởng ở đây.

Tuy bị bắn rất nhiều ở những bộ phận đó, các máy bay này vẫn có thể sóng sót trở về. Do đó, tăng cường các vị trí này không phải là ưu tiên hàng đầu. Thay vào đó, việc suy luận dữ liệu bị thiếu về vị trí các máy bay KHÔNG TRỞ VỀ bị bắn ở đâu là rất quan trọng!

Đây là thiên kiến xảy ra khi bạn có xu hướng đánh giá các kết quả thành công và bỏ qua các kết quả thất bại. Nguồn gốc của thiên kiến này liên quan đến các máy bay trở về sau nhiệm vụ trong Thế chiến thứ hai. Khi quan sát các máy bay đã trở về, quân đội muốn đặt giáp ở các vị trí có nhiều lỗ đạn nhất để bảo vệ các điểm yếu. Tuy nhiên, Abraham Wald, một nhà toán học, đã nhận ra rằng thiên kiến “người sống sót” đang ảnh hưởng ở đây.

Tuy bị bắn rất nhiều ở những bộ phận đó, các máy bay này vẫn có thể sóng sót trở về. Do đó, tăng cường các vị trí này không phải là ưu tiên hàng đầu. Thay vào đó, việc suy luận dữ liệu bị thiếu về vị trí các máy bay KHÔNG TRỞ VỀ bị bắn ở đâu là rất quan trọng!

Thiên kiến “người sống sót” cũng là khi chúng ta để nhầm lẫn giữa mối quan hệ tương quan và mối quan hệ nhân quả. Bạn sẽ thấy những ví dụ thành công với các thuộc tính cụ thể (tương quan) và sai lầm cho rằng những thuộc tính đó là nguyên nhân thành công. Bạn không thấy các trường hợp khác có các đặc điểm tương tự nhưng không thực hiện tốt.

Chẳng hạn như khi tin tức luôn ca ngợi những người nổi tiếng bỏ học đại học như Mark Zuckerberg, Steve Jobs và Bill Gates nhưng lại trở nên thành công. Những ví dụ này có thể khiến bạn nghĩ rằng lý do họ thành công là bỏ học đại học để tập trung cho sự nghiệp, do đó bằng cấp đại học không có lợi ích. Tuy nhiên, bạn không xem xét đến hàng triệu những người bỏ học đại học khác không giàu có và nổi tiếng.

5. Thiên kiến dựa trên thông tin sẵn có (Availability bias)

Thiên kiến này xảy ra khi ta có xu hướng tin và đánh giá vấn đề nào đó dựa trên sự xuất hiện dày đặc của thông tin liên quan đến vấn đề đó. Chẳng hạn như có rất nhiều tin tức về ngành nghề Influencers hoặc Tiktokers kiếm được thu nhập cao trong thời gian ngắn, hoặc gần đây có nhiều vụ cá mập tấn công người,…

Điều này có ảnh hưởng lớn đến cách chúng ta nhìn nhận thế giới xung quanh khi có xu hướng đánh giá quá cao khả năng xảy ra của một điều gì đó so với thực tế. Chẳng hạn như không phải ai làm nghề Tiktoker cũng sẽ thành công nhanh chóng, hay không phải cứ đi biển là bạn sẽ bị cá mập cắn…

Kết luận

Thiên kiến là một điều khó tránh khỏi, nhưng là nhà phân tích dữ liệu, quan trọng nhất là bạn phải nhận thức và giảm thiểu tác động của nó.

Một số tips để giảm thiểu tác động của thiên kiến:

  • Tránh đưa ra quyết định nhất thời hay nhận xét dựa trên cảm tính.
  • Nhìn vấn đề từ nhiều chiều để đưa ra kết luận toàn diện hơn.
  • Luôn giữ tâm trí mở, sẵn sàng tiếp nhận những thông tin khác hoặc đi ngược với quan điểm ban đầu của bạn.
  • Thảo luận với những người có chuyên môn liên quan nếu có thể. Họ sẽ đưa ra góc nhìn khác cũng như giúp bạn thoát bẫy “cherry-picking” hoặc thiên kiến trên thông tin sẵn có.
  • Sử dụng data từ những nguồn có uy tín và chuyên môn, luôn hiểu rõ phạm vi nghiên cứu của data để đưa ra kết luận phù hợp.

Leave a Reply

Your email address will not be published. Required fields are marked *