Học phân tích dữ liệu đang dần trở nên phổ biến đối với rất nhiều người nhằm phục vụ cho công việc cũng như tìm kiếm việc làm. Tuy nhiên không ít người đang gặp trở ngại khi không có dữ liệu thực tế để thực hành cũng như chưa biết phân tích dữ liệu như thế nào. Trong bài này mình sẽ cùng nhau tìm hiểu một bộ dữ liệu mẫu về tài chính và thực hành một số phân tích cơ bản.

Nếu bạn chưa biết phân tích dữ liệu là gì thì đọc bài viết trước của mình về nghề Data Analyst và mini project về phân tích.

Toàn bộ bài viết này mình sẽ chia ra làm 2 phần bao gồm:

  • Phần 1: giới thiệu về bộ dữ liệu và các câu hỏi gợi ý cho việc phân tích
  • Phần 2: hướng dẫn cụ thể cách trả lời những câu hỏi trên bằng Tableau và tổng hợp những ý kiến của mọi người

Cho các bạn mới

Học phân tích nhiều loại dữ liệu khác nhau
Phân tích dữ liệu với nhiều nguồn dữ liệu khác nhau

Trước khi các bạn kéo xuống và tải bộ dữ liệu về mình có vài lưu ý với các bạn mới.

Nếu các bạn định hướng làm về phân tích dữ liệu thì gần như các bạn sẽ phải học cách làm việc với mọi bộ dữ liệu khác nhau. Các bạn sẽ không biết doanh nghiệp sắp tới bạn đi làm thuộc lĩnh vực gì, họ sử dụng phần mềm nào và đối tác cũng như khách hàng của họ là ai. Thậm chí là mô hình kinh doanh cũng tạo nên sự khác biệt khá lớn.

Dù các bạn có làm trong cùng một lĩnh vực đi nữa thì dữ liệu cũng sẽ không hề giống nhau giữa các công ty.

Vậy nên từ khi bắt đầu các bạn nên học cách làm việc với càng nhiều bộ dữ liệu khác nhau càng tốt. Điều này sẽ giúp các bạn kỹ năng thích ứng với môi trường mới một cách nhanh nhất. Tư duy phân tích là một kỹ năng cực kỳ quan trọng.

Khi các bạn đi xin việc, thông thường các bạn sẽ có khoảng 3 tháng cho thử việc. Đây là khoảng thời gian để các bạn học thích ứng với dữ liệu của công ty cũng như học thêm kiến thức về lĩnh vực bạn làm. Nếu chỉ có thể phân tích trên một số loại dữ liệu nhất định, bạn sẽ rất dễ mất điểm với sếp.

Ví dụ sơ sơ cho các bạn xem các loại dữ liệu mà các bạn có thể sẽ phải đụng đến: Các hóa đơn bán hàng; dữ liệu về kho bãi/vận chuyển; chăm sóc khách hàng; marketing; hệ thống chăm sóc khách hàng (CRM); các loại dữ liệu cộng động; tài chính; các chương trình khuyến mãi;  …

Nên thực hành phân tích dữ liệu với càng nhiều loại dữ liệu khác nhau càng tốt chứ đừng chỉ nên dừng lại ở những dữ liệu Sales cơ bản.

Dữ liệu tài chính mẫu

Dữ liệu Tài Chính mẫu
Dữ liệu Tài Chính mẫu – Data-fun.com

Đầu tiên các bạn có thể tải tập dữ liệu tài chính Banking mẫu tại . Tuy bộ dữ liệu này không lớn (~1400 row), nhưng mình nghĩ nó vẫn đủ để các bạn có thể làm nhiều loại phân tích khác nhau.

Nhiệm vụ đầu tiên của các bạn là đọc hiểu các trường dữ liệu của nó.

  • Mỗi trường dữ liệu (cột) có ý nghĩa như thế nào?
  • Kiểu dữ liệu là gì?
  • Có cần phải xử lý gì trước khi phân tích không?
  • Có điều gì đặc biệt trong những trường này không? (Bạn nào học Finance giải thích giúp mình 3 cột cuối nhé :D)

Điều này cực kỳ quan trọng và cực kỳ cần thiết trước khi các bạn bắt đầu việc phân tích. Đừng bao giờ bỏ qua bước này trước khi phân tích bất kỳ loại dữ liệu nào. Các bạn có thể sẽ bỏ sót rất nhiều thông tin quan trọng.

=> Tìm hiểu kỹ bộ dữ liệu trước khi phân tích

Thực hành phân tích dữ liệu

Sau khi đã tìm hiểu kỹ bộ dữ liệu, bước tiếp theo là sẽ thực hiện các loại phân tích khác nhau. Tùy vào mục đích mà các câu hỏi cũng khác nhau rất nhiều và từ đó chúng ta có thể có nhiều dashboard hoặc report khác nhau.

Trước khi tiếp tục đọc, mình muốn các bạn dừng lại tại đây và thử tự đặt cho mình những câu hỏi mà bạn nghĩ sẽ phù hợp với bộ dữ liệu trên.

Tự đặt câu hỏi

Tự suy nghĩ các câu hỏi phân tích
Kỹ năng tự đặt câu hỏi cho Data Analyst

Để thực hiện việc này, bạn thử tưởng tượng nếu bạn:

  • là một người giữ vị trí cao trong công ty và muốn biết tình hình tổng quát về các số liệu, bạn sẽ cần những thông tin gì?
  • là một quản lý và muốn biết chi tiết tình hình để tìm kiếm nguyên nhân và giải pháp, bạn sẽ muốn có những con số gì?
  • muốn có một bản báo cáo phân tích sự thay đổi theo từng năm/quý/tháng thì bạn cần làm gì?
  • cần so sánh giữa các hạng mục, khu vực hoặc trạng thái của sự kiện?
  • các bạn cứ tự suy nghĩ thêm nhé.

Luyện tập kỹ năng tự đặt câu hỏi này cũng khá quan trọng nhé các bạn vì khi đi làm không phải lúc nào câu hỏi cũng rõ ràng cho mình cả.

Không ít trường hợp, người khác chỉ gởi đến yêu cầu khá chung chung và mình cần tự tìm kiếm câu hỏi sao cho phù hợp. Và vì mình hiểu rõ dữ liệu hơn nên mình sẽ biết được một số thông tin hữu ích mà người dùng không ngờ tới.

Mình cũng cần biết được một số câu hỏi sẽ không phù hợp dù nghe qua thì khá đơn giản và dễ làm. Từ đó mình có thể cung cấp thông tin bổ ích hơn cho người hỏi.

Ví dụ sau là câu hỏi thực tế mà mình gặp.

Một nhân viên sales liên hệ và muốn biết số lượng “hóa đơn” (mình đổi lại vậy cho dễ hình dung) mỗi ngày từ đầu năm đến nay và so sánh sự khác nhau với cùng ngày năm ngoái (VD 24/02/20 và 24/02/19). Nhìn qua thì câu hỏi khá đơn giản và cũng “bình thường”. Nhưng thực chất thì phần lớn hóa đơn của doanh nghiệp mình là nằm trong các ngày trong tuần, cuối tuần rất thấp.

Thực tế này dẫn đến câu hỏi trên không còn phù hợp vì lúc này chúng ta có thể so sánh kết quả của 2 nhóm khác nhau. VD ngày 24/02/2020 rơi vào Thứ 2 còn 24/02/2019 lại rơi vào Chủ Nhật. Vậy nên kết quả so sánh không còn ý nghĩa nữa mà sẽ dễ dẫn đến những kết luận sai.

Sau đó mình đề nghị đổi yêu cầu thành so sánh theo tuần hoặc tháng, lúc này mọi thứ trở nên rõ ràng hơn. Phân tích dữ liệu không chỉ làm theo những gì người khác yêu cầu mà chúng ta còn cần cung cấp thêm insight sao cho phù hợp.

Gợi ý câu hỏi cụ thể

Hy vọng các bạn đã có sẵn cho mình một loạt các câu hỏi khác nhau dựa trên những gợi ý phía trên. Tiếp đây mình sẽ liệt kê một vài câu hỏi cụ thể để các bạn có thể thực hành phân tích dữ liệu.

Những câu hỏi phân tích dưới đây cũng khá cơ bản và thường gặp. Các bạn có thể chọn một vài trong đó để phân tích hoặc toàn bộ cũng được.

  • Trong 5 năm gần đây nhất (2009-2014) khu vực nào có tỷ lệ tăng/giảm nhiều nhất về số lượng Events / tổng giá trị Net Revenue
  • Trong vòng 3 năm gần đây nhất, so sánh tổng giá trị Net Revenue/ số lượng event của từng tháng với cùng tháng năm trước đó (YoY comparison)
  • So sánh tỷ lệ Approved/Reject theo từng loại Category; Sub-Category và Region
  • Có tháng nào đặc biệt có số lượng event cao hơn/thấp hơn hẳn so với các tháng còn lại trong năm không?
  • Top 10 events có Net Revenue cao nhất under review
  • Tổng Net Revenue/số event thay đổi theo từng tháng
  • Mình dừng ở đây nhé. Bạn nào nghĩ ra được câu hỏi hay hay thì comment phía dưới mình add thêm lên đây

Phân tích dữ liệu và đăng kết quả

Thiết kế dashboard report bằng Tableau
Thiết kế dashboard phù hợp

Các bạn có thể sử dụng bất kỳ cách nào mà bạn thích hoặc thấy phù hợp, kể cả làm trên Excel. Đối với các bạn mới thì mình khuyến khích các bạn sử dụng BI Tool cho những công việc như thế này vì nó sẽ dễ dàng hơn và đỡ tốn thời gian. Nếu các bạn thích sử dụng R/Python thì tùy thích.

Mục tiêu cuối cùng là thiết kế một cái dashboard cho những câu hỏi ở trên. Các bạn có thể tạo nhiều Dashboard tùy ý, nhưng lưu ý là nên gôm những câu hỏi có tính tương đồng vào một.

Sau khi thực hành xong thì quăng lên mạng và comment phía dưới để mọi người cùng học hỏi nhé. Ai có câu hỏi gì thì cũng comment bên dưới để mình và mọi người cùng giải đáp.

Nguồn: data-fun.com

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *