DataStation

Build yourself as a well-rounded Data Analyst

Dữ liệu ở đây? Insight ở đâu?

data-analysis-insight

“Tôi đã có dữ liệu. Bây giờ tôi cần insight. Tôi nên bắt đầu từ đâu?”

Đây là câu hỏi rất thường gặp đến từ những người mới bắt đầu làm việc với dữ liệu và cả với những nhà quản lý khi mới tiếp xúc với ngành khoa học này.

Các doanh nghiệp, các nhà lãnh đạo cũng bị áp lực khi phải chứng minh ROI (Return on Investment) đến từ việc đầu tư hệ thống để thu thập, lưu trữ và tổ chức dữ liệu, đó là còn chưa tính đến chi phí phải bỏ ra để thuê những nhà phân tích dữ liệu, khoa học dữ liệu.

Đôi khi họ gặp may – được yêu cầu giải quyết một vấn đề đã rõ ràng và đã được dày công nghiên cứu(ví dụ: dự đoán khả năng khách hàng hủy hoặc ngưng sử dụng dịch vụ). Với bài toán này, có nhiều cách để giải quyết và cũng là thiên đường của khoa học dữ liệu.

Nhưng thường thì bạn sẽ chỉ nhận được một yêu cầu chung chung như “nghiên cứu dữ liệu này đi và cho tôi biết có insight gì thú vị”.

Vậy bắt đầu từ đâu đây?

Đây là câu hỏi khó và không có một đáp án hoàn hảo nào cả. Với các chuyên gia đã có kinh nghiệm, có lẽ họ đã đúc kết và phát triển được nhiều cách để tìm ra insight khi tiếp xúc với những dữ liệu mới.

Dưới đây là 2 ý tưởng cơ bản mà DataStation nghĩ là hữu ích, giúp bạn trong quá trình này:

  1. Ta có thể xem doanh nghiệp như một hệ thống phức tạp và mỗi bộ phận là một bánh răng của hệ thống này. Không ai có thể hiểu hệ thống này (công ty) 100%. Ngay cả với một nhân viên lâu năm vày dày dặn kinh nghiệm, thì vẫn tồn tại một khoảng cách nhất định giữa sự hiểu biết của họ về doanh nghiệp và cách thức nó thực sự hoạt động. Và vì doanh nghiệp thì luôn luôn thay đổi, khoảng cách này cũng dần lớn lên
  2. Bất kỳ dữ liệu nào ta có về doanh nghiệp cũng cho ta thấy một khía cạnh/hành vi nào đó của hệ thống phức tạp này

Chính vì lẽ đó, bạn có thể coi việc tìm kiếm “insight” như việc tìm ra bất cứ điều gì giúp tăng sự hiểu biết của bạn về cách hệ thống hoạt động. Nó kết nối khoảng cách giữa cách bạn nghĩ hệ thống hoạt động và cách nó hoạt động thực sự.

Hoặc, để mượn một phép so sánh từ High Output Management của Andy Grove, các hệ thống phức tạp giống như những hộp đen và insight giống như một cửa sổ cắt vào bên cạnh hộp đen để “chiếu sáng” vào những gì đang xảy ra bên trong.

Việc tìm kiếm insight có thể được coi là nỗ lực để hiểu một thứ phức tạp hoạt động như thế nào bằng cách phân tích dữ liệu của nó.

Đây cũng là cách mà các nhà khoa học làm đấy! Thế giới vô cùng phức tạp và các nhà khoa học luôn tìm kiếm và thử nghiệm để dần nâng cao hiểu biết về thế giới này.

Nói một cách đơn giản:

Các nhà khoa học sử dụng sự hiểu biết hiện tại của họ về cách hệ thống hoạt động (“lý thuyết”) và từ đó họ đưa ra một số dự đoán.

Sau đó, họ kiểm tra dữ liệu (đôi khi thiết lập các thí nghiệm phức tạp để tạo ra dữ liệu) để xem liệu nó có khớp với dự đoán của họ không.

Nếu không, họ sẽ đi sâu để tìm hiểu điều gì đang xảy ra và cập nhật sự hiểu biết của mình (“sửa đổi lý thuyết”).

Họ đưa ra dự đoán mới. Lặp lại chu trình.

Các nhà khoa học dữ liệu và các nhà phân tích có thể làm điều tương tự.

Trước khi bạn khám phá dữ liệu, hãy viết ra một danh sách ngắn về những gì bạn mong đợi sẽ thấy khi “đào” dữ liệu: phân phối của các biến (thông tin/chiều thông tin) chủ chốt, mối quan hệ giữa các cặp biến (cặp thông tin) quan trọng…. Đây chính là những dự đoán dựa trên sự hiểu biết hiện tại của bạn về doanh nghiệp.

Bây giờ hãy phân tích dữ liệu sâu hơn. Vẽ biểu đồ, tóm tắt, bất cứ điều gì cần thiết để xem liệu nó có khớp với dự đoán hoặc mong đợi của bạn không.

Có điều gì không khớp không? Có điều gì khiến bạn nghĩ “Điều đó kỳ lạ” hoặc “Điều đó không có ý nghĩa gì”.?

“Zoom” vào và cố gắng hiểu rõ điều gì đang làm cho “thứ kỳ lạ” đó xuất hiện trong dữ liệu. Đây là bước quan trọng.

Và rồi bạn đã tìm ra một góc nhìn khác về doanh nghiệp và tăng sự hiểu biết của mình.* (Hoặc bạn có thể phát hiện ra rằng mình mắc lỗi trong việc thu thập/truy vấn hoặc tính toán dữ liệu của bạn :))))

Cùng tìm hiểu một ví dụ thực tế để hiểu hơn nhé. Chúng ta sẽ cùng xem xét dữ liệu giao dịch từ một nhà bán lẻ (B2C) lớn. Một trong những trường (thông tin) trong tập dữ liệu này là ‘số tiền giao dịch’.

Chúng ta mong đợi thấy điều gì? Giả dụ bạn cũng như DataStation, đều cho rằng hầu hết giá trị giao dịch sẽ ở xung quanh giá trị trung bình, có vài giao dịch có giá trị nhỏ hơn và một số giao dịch lại có giá trị lớn hơn. Với giả định này, ta sẽ có biểu đồ phân phối số tiền giao dịch như sau:

Tuy nhiên, khi kiểm tra dữ liệu, ta lại thấy:

Giờ thì cùng điều tra cái điểm kì lạ ‘hmm’ này nhé.

Đào sâu hơn về profile của khách hàng, ta thấy có vẻ như những giao dịch này không phải đến từ các vị khách thông thường – những bà mẹ trẻ mua sắm đồ cho con. Những giao dịch này đến từ các khách nước ngoài, tới cửa hàng vài lần trong năm, mua nhiều sản phẩm, và mang trở về nước để bán lại. Họ là những người bán lại (reseller) không có mối quan hệ đặc biệt gì với nhà bán lẻ trong ví dụ của chúng ta cả.

Nhà bán lẻ trong ví dụ này không có cửa hàng ở các nước khác và cũng không hỗ trợ vận chuyển ra nước ngoài khi đặt hàng qua trang thương mại điện tử. Tuy nhiên, có một lượng cầu nhất định ngoài biên giới đủ để mọc lên các DN bán lại tại địa phương đáp ứng nhu cầu này.

Khám phá “nhỏ bé” này đã đặt ra một chuỗi các câu hỏi thú vị khác. Ví dụ như các nhà reseller này thường mua loại sản phẩm nào, hay chiến dịch khuyến mãi nào có thể phù hợp với họ và thậm chí với thông tin này, ta có thể cân nhắc cho một kế hoạch mở rộng toàn cầu.

Tất cả những insights trên đều chỉ đến từ một biểu đồ về phân phối đơn giản.

Lưu ý rằng việc xử lý dữ liệu từ “nguyên nhân gốc rễ” trong doanh nghiệp cần có thời gian, công sức và sự kiên nhẫn. Nếu bạn có nhiều mối quan hệ tốt trong doanh nghiệp, những người có thể trả lời câu hỏi của bạn thì việc này lại càng hiệu quả. Điều mà bạn cho là kỳ lạ thì có thể lại hiển nhiên với họ (vì hiểu biết của họ về doanh nghiệp có thể tốt hơn bạn), do vậy, hỏi họ để hiểu hơn về DN sẽ giúp bạn tiết kiệm được nhiều thời gian.

Nói chung, bạn càng hiểu rõ các khía cạnh của hoạt động kinh doanh thì những dự đoán của bạn sẽ càng chính xác và cuối cùng bạn sẽ tìm thấy những insight giá trị. Chính vì vậy, hãy làm mọi thứ có thể để tìm hiểu rõ hơn về doanh nghiệp. Hãy tìm kiếm những đồng nghiệp hiểu rõ công việc kinh doanh, và học hỏi từ họ.

Kiến thức về khoa học dữ liệu rõ ràng là một điều tốt cần có, nhưng kiến thức về doanh nghiệp sẽ có tác động lớn hơn nhiều đến chất lượng công việc của bạn.

Ngoài công việc về khoa học dữ liệu, DataStation cho rằng phương pháp tư duy “dự đoán và kiểm tra” này rất hữu ích khi xem xét bất kỳ bài phân tích nào.

Trước khi bắt đầu xem một bài phân tích, hãy tạm dừng vài giây để đoán trước về nội dung. Điều này sẽ làm tăng độ tương phản và bạn có thể phát hiện được nhiều điều thú vị trong “biển cả” số liệu hơn.

Nguồn bài viết: https://towardsdatascience.com/i-have-data-i-need-insights-where-do-i-start-7ddc935ab365

Lược dịch bởi DataStation

Leave a Reply

Your email address will not be published. Required fields are marked *