DataStation

Build yourself as a well-rounded Data Analyst

Tìm hiểu về A/B Testing (P1)

ab-testing

Trong cuộc sống hàng ngày, dù xét về phương diện cá nhân hay công việc, chúng ta luôn phải đối mặt với rất nhiều sự lựa chọn. Có thể bạn nghĩ rằng mình đã đưa ra lựa chọn tốt nhất. Nhưng liệu điều đó có đúng?

Bài viết này có gì đặc biệt?

Đã có rất nhiều bài viết giải thích về A/B Testing trên Internet rồi, vậy tại sao bạn vẫn nên đọc tiếp bài viết này?

Thông thường mọi người đều có vẻ e ngại khi nghe về những thứ liên quan đến THỐNG KÊ, cho rằng chúng quá khó hiểu. NHƯNG! Bài viết này sẽ chỉ giải thích đơn giản về A/B Testing và cam đoan không có bất cứ từ khóa hay chữ cái Hy Lạp làm rối não bạn cả.

A/B Testing là gì?

A/B testing hiểu đơn giản là khi bạn đứng giữa 2 sự lựa chọn A và B và buộc phải tìm ra sự lựa chọn phù hợp nhất. Nghe thì có vẻ đơn giản nhưng đây lại là công cụ giúp các công ty cải thiện tỷ lệ chuyển đổi (conversion rate) hay trong lĩnh vực sức khoẻ, thì đây là cách để người ta tìm ra các phương thức điều trị phù hợp cho các loại bệnh.

Tóm lại, A/B Testing liên quan đến việc thử nghiệm tính năng mới hoặc chiến dịch và kiểm tra xem có tác động đến đối tượng mục tiêu như mong muốn không. Để kiểm soát quá trình thử nghiệm, chúng ta chọn ngẫu nhiên mẫu cho nhóm Kiểm soát (Control Group)Nhóm Điều trị (Target/Treatment Group) để loại bỏ sự thiên vị. Tất cả các yếu tố khác (gọi là các chỉ số rào chắn) đều được giữ nguyên để đảm bảo Mục tiêu Chỉ số của chúng ta không bị ảnh hưởng. Trước hết chúng ta sẽ tìm hiểu một số thuật ngữ cơ bản.

Hiểu các thuật ngữ:

Nhóm Kiểm soát (Control Group): là nhóm người dùng được bảo vệ khỏi thử nghiệm / biến thể (thường được biết đến như nhóm giả dược – placebo group). Hiểu đơn giản, đây là nhóm sẽ không chịu tác động của thử nghiệm. Tại sao chúng ta cần có nhóm này? Đây là nhóm đối tượng sẽ được sử dụng làm tiêu chuẩn để đo lường thành công của thử nghiệm và loại bỏ sự thiên vị trong quá trình đưa ra quyết định.

Nhóm Điều trị: là nhóm người dùng bị/chịu tác động của thử nghiệm / biến thể mới.

Phương sai: là đơn vị đo lường sự khác biệt giữa các giá trị trong tập dữ liệu với giá trị trung bình của chính tập dữ liệu này. Để làm khái niệm này dễ hiểu hơn, hãy cùng tìm hiểu ví dụ dưới đây nhé:

Đây là kết quả ghi bàn của 2 người chơi 1 và 2:

Ván đấu12345678910Tổng kếtSố điểm trung bình
Người chơi 13258407055426045503849049
Người chơi 266128242048678092149049

Cả 2 đều có tổng số điểm là 490. Vậy chúng ta có nên kết luận cả 2 người chơi này đều có phong độ như nhau?

Để ý kĩ nhé! Điểm khác biệt của 2 người chơi này là gì?

Bingo!!! Đó là Sự nhất quán!!

2 người chơi của chúng ta trung bình đều ghi được 49 điểm trong 10 trận đấu. Tuy nhiên, có thể thấy sự khác biệt giữa số điểm ghi được mỗi trận đấu và số điểm trung bình (Độ lệch chuẩn) của người chơi 2 cao hơn rất nhiều, cho thấy phong độ của anh ta không ổn định và không thể lường trước được.

Trong khi đó, người chơi 1 đều đặn ghi được ít nhất 30 điểm trong tất cả các trận đấu. Có thể bạn vẫn cho rằng Người chơi 2 chơi tốt hơn vì anh ta ghi được những kết quả rất ấn tượng trong một số trận đấu mà Người chơi 1 không thể đạt được. Tuy nhiên, nếu xét về biên độ dao động, chúng ta đều phải đồng ý với nhau rằng Người chơi 1 đáng tin cậy hơn nhiều.

Độ tin cậy và Kích thước mẫu:

Câu chuyện bắt đầu thú vị hơn rồi :). Chúng ta sẽ thêm vào đây kết quả 2 trận đấu của người chơi thứ 3 với các điểm số lần lượt là 10, 120. Liệu chúng ta có thể đặt Người chơi 3 lên bàn cân so sánh với 2 Người chơi trước đó không? Chúng ta không biết Người chơi 3 sẽ thi đấu thế nào trong các trận sắp tới. Với ví dụ như đã cho ở trên, chúng ta cần ít nhất kết quả của 10 trận đấu (kích thước mẫu) để so sánh và đưa ra kết luận.

Giả dụ chúng ta chỉ xét điểm từ 2 trận đầu tiên của Người chơi 2, điểm trung bình mà anh ta ghi được là 39 (cách tính là (66 + 12) / 2) thấp hơn một chút so với trung bình được tính bằng điểm số từ 10 trận đấu (49). Nếu xét thêm điểm số trận đấu thứ ba (82), trung bình tăng lên 53. Có thể thấy rằng với thêm nhiều quan sát về các trận đấu, sự dao động trong số điểm trung bình ghi được của người chơi có xu hướng ổn định, giúp ta tin cậy hơn vào kết quả thử nghiệm cuối cùng.

Nào, giờ là câu hỏi cho bạn đây! Trong một giải bóng đá, có Đội A đã thắng 2 trong 2 trận đấu và Đội B đã thắng 20 trong 20 trận đấu. Trong số hai đội này, đội nào ấn tượng hơn? Hy vọng bạn đã nghĩ đó là Đội B 😆

Tóm lại điều quan trọng mà chúng ta rút ra ở đây là:

“Với kích thước mẫu nhỏ, sự biến động càng nhiều và độ tin cậy càng ít. Ngược lại, với kích thước mẫu lớn hơn, sự biến động ít đi và độ tin cậy sẽ lớn hơn”

Hiểu Chỉ số Mục tiêu của bạn:

Chỉ số Mục tiêu (Metrics) hiểu đơn giản là những thay đổi mà bạn mong muốn chứng kiến khi thực hiện thử nghiệm. Nó có thể là tỷ lệ nhấp chuột của 1 chương trình email marketing hay doanh thu tạo ra trên một trang web thương mại điện tử, v.v. Nói chung, chỉ số mục tiêu của bạn có thể là liên tục hoặc rời rạc. Ví dụ:

Khi bạn muốn thử một mẫu email mới hoặc muốn thay đổi chủ đề cho chiến dịch marketing này. Để định lượng tác động của sự thay đổi này, chúng ta chỉ cần quan sát số lần nhấp chuột và không nhấp chuột. CHẤM HẾT!

Kết quả Có/Không này được gọi là kết quả Rời rạc hoặc Boolean

Một ví dụ khác, giả sử bạn muốn kiểm tra xem việc cải thiện giao diện người dùng cho trang web mua sắm có giúp làm tăng doanh thu không. Trong tình huống này, doanh thu có thể là bất kỳ con số nào.

Tại sao chúng ta nên để ý sự khác biệt này?

Vì nó quyết định loại kiểm tra thống kê nào nên được thực hiện để kiểm tra và định lượng sự ảnh hưởng của nó.

Ngoài ra bạn cũng có thể tự đưa ra kỳ vọng của bạn cho thử nghiệm để thực hiện đánh giá cuối cùng.

Hi vọng sau bài viết này bạn đã hiểu hơn về A/B testing. Trong bài viết tới, chúng ta sẽ tìm hiểu chi tiết hơn về cách thức triển khai A/B Testing trong thực tế nhé.

Nguồn bài viết: Medium

Nếu có bất cứ thắc mắc hay câu hỏi nào, liên hệ ngay với DataStation nhé!

Leave a Reply

Your email address will not be published. Required fields are marked *