Data Analysis: Visualization and Dashboard Design - Nguyễn Mạnh Hùng(K23 - 16025012)
Những điều nhận được sau khóa học
- Dữ liệu trong thực tế có thể tồn tại và được lưu trữ ở rất nhiều dạng khác nhau, tuy nhiên để sử dụng chúng một cách hiệu quả cần đưa về 1 dạng chuẩn duy nhất
- Việc phân tích và thống kê dữ liệu không phải là việc đơn giản, việc mô tả dữ liệu làm sao để mọi người có thể hiểu một cách trực quan nhất cũng rất khó khăn, tuy vậy nếu bạn không phải là một chuyên gia trong lĩnh vực này thì việc tìm hiểu và sử dụng một công cụ rất mạnh là Excel có thể là một lựa chọn không tồi
- Excel là một công cụ rất mạnh để phân tích dữ liệu, rất nhiều bài toán đã được Excel giải quyết, do đó khi bạn là một người phát triển cho hệ thống của mình thì việc sử dụng lại những gì Excel có thể làm được sẽ có ích rất nhiều, và tiết kiệm được thời gian hiệu quả.
- Chúng ta có thể dựa vào Excel để xây dựng lên những công cụ tương tự vì Excel là một công cụ mạnh nhưng không phải ai cũng thích dùng nó.
- Tuy Excel đã rất mạnh nhưng chưa phải là tối ưu nhất, cho nên lĩnh vực phân tích dữ liệu và mô hình hóa dữ liệu vẫn còn đang rộng mở và chúng ta hoàn toàn có thể tham gia, tìm hiểu và học hỏi cũng như phát triển trong tương lai.
Mục tiêu của khóa học
- Mô tả dữ liệu một cách trực quan hơn bằng đường, đồ thị...
- Tạo trang điều khiển tổng quan trong Excel
- Sử dụng, kết nối dữ liệu từ các nguồn khác nhau
- Dùng các công cụ hữu ích như PivotTables và một vài công cụ phân tích dữ liệu mới (PivotChart, Solver)
Trong thực tế, chúng ta sẽ phải làm việc với rất nhiều dữ liệu ở nhiều dạng khác nhau, đặc biệt là trong kinh doanh, số liệu sẽ được tổng hợp tính toán từ nhiều nơi và được thể hiện ở nhiều dạng khác nhau. Do đó để có thể hiểu nhanh và rõ được những con số trong kinh doanh chúng ta sẽ phải sử dụng rất nhiều các công cụ phân tích và thống kê, tuy vậy có một công cụ rất mạnh có thể giúp những người không giỏi về phân tích, thống kê, hay sử dụng các ngôn ngữ lập trình cũng như các công cụ phân tích dữ liệu. Đó chính là Excel, do đó việc chúng ta cần là đưa dữ liệu được về dạng Excel sau đó sử dụng các công cụ phân tích dữ liệu rất mạnh của Excel để có được kết quả mong muốn. Một ví dụ như sau:
Bài toán thực tế
Yêu cầu bài toán
Trong thực tế, việc kinh doanh sẽ cần xử lý rất nhiều số liệu, vậy làm cách nào có thể phân tích, hiểu nhanh và đặc biệt có thể dự đoán và đưa ra các quyết định cho tương lai. Do đó chúng ta sẽ đi giải quyết bài toán sau: Biến đổi nhu cầu kinh doanh thành báo cáo thời gian thực
Các bước giải quyết
Bước 1: Thu thập dữ liệu (Data Source)
Bước 2: Tổng hợp dữ liệu thành dữ liệu thô (dữ liệu chưa được xử lý) (Raw Data)
Bước 3: Xử lý dữ liệu thô thành dữ liệu đầu vào cho chương trình (Data)
Bước 4: Phân tích dữ liệu (View)
Bước 5: Mô tả dữ liệu thành dạng bảng, đồ thị… (Graph)
Bước 6: Thiết kế bảng điều khiển (Dashboard)
Import Data – Nhập dữ liệu
Dữ liệu có nhiều dạng khác nhau, tuy nhiên để xử lý bài toán chúng ta cần đưa dữ liệu về dạng Excel. Trong thực tế file .csv rất hay được sử dụng để lưu trữ dữ liệu và gửi qua mạng vì kích thước của nó nhỏ hơn rất nhiều so với file Excel. File .csv - comma-separated values là một dạng file text, dữ liệu được ngăn cách nhau bằng dấu ‘,’, đặc biệt file .csv có thể mở được bằng Excel do đó rất tiện trong việc lưu trữ và sử dụng
Cách chuyển nhiều file .csv thành 1 file .csv
Bước 1: Mở cmd trong Window
Bước 2: Truy cập tới thư mục chứa các file .csv bằng câu lệnh: cd đường_dẫn_tới_thư_mục_file_csv
Bước 3: Gõ: copy *.csv file_name.csv (file_name: tên file .csv sau khi gộp dữ liệu - tên tự đặt)
Ví dụ:
Cách chuyển nhiều file Excel thành nhiều file CSV
- Bước 1: Tạo 1 file .vbs với đoạn lệnh như sau:
Bước 2: Copy file .vbs vào thư mục chứa các file Excel
Bước 3: Chạy file .vbs bằng cách click chuột trái vào file .vbs (giống thao tác mở file bình thường)
Cách chuyển nhiều file Excel thành 1 file Excel
Bước 1: Chuyển nhiều file Excel thành nhiều file CSV (sử dụng mục b)
Bước 2: Chuyển nhiều file CSV thành 1 file CSV (sử dụng mục a)
Bước 3: Mở file CSV bằng Excel
Data Wrangling – Xử lý dữ liệu
Sau khi sử dụng mục 3, chúng ta có thể cần định dạng lại dữ liệu. Ví dụ ngày tháng hay kiểu số, kiểu tiền tệ, kiểu chữ…Ở bước này chúng ta sẽ sử dụng chức năng format dữ liệu cơ bản trong Excel
Analysis – Phân tích dữ liệu
Sử dụng các chức năng rất mạnh của Excel như Pivot Table, Slover, Goal Seek… để thực hiện tính toán, phân tích dữ liệu. Ví dụ: tính doanh thu của tất cả chi nhánh khác nhau của tất cả các sản phầm. Ví dụ:
Dữ liệu chúng ta có ở 1 file Excel như sau: Tương tự đối với chi nhánh Rotterdam và New York, các sản phầm bao gồm: Adidas, Asics, Nike
Bước 1: Chọn toàn bộ dữ liệu trong file Excel
Bước 2: Chọn mục INSERT trên menu của Excel, sau đó chọn mục Pivot Table rồi nhấn OK
Giao diện sau khi tạo xong Pivot Table sẽ như sau:
- Bước 3: Thực hiện chọn các tiêu chí ở 1 sau đó kéo xuống tương ứng tiêu chí ở 2 như sau ta sẽ được kết quả:
Kết quả chúng ta thu được là tổng doanh thu của các sản phẩm theo từng chi nhánh khác nhau.
Visualization – Mô hình hóa dữ liệu
Sử dụng công cụ mô hình hóa dữ liệu có sẵn trong Excel như Pivot Chart. Ví dụ: sử dụng kết quả ở phần 5, chúng ta chọn ANALYZE, Pivot Chart rồi nhấn OK
Kết quả thu được như sau:
Hay một cách mô hình dữ liệu khác như sau:
Ở chức năng này chúng ta có thể thấy nhanh được doanh thu cao nhất ở tuần nào và thấy được xu hướng cho từng sản phẩm từ đó đưa ra các quyết định kinh doanh trong tương lai
Đặc biệt chức năng Pivot Chart này còn cung cấp một đường (line) gọi là đường xu thế, giúp đưa ra dự đoán tương lai thay chúng ta về sản phẩm chúng ta mong muốn
Design – Thiết kế bảng điều khiển
Tất cả những gì chúng ta cần phải làm thì đã hoàn thành ở bước này, giờ chúng ta chỉ cần tổng hợp lại những gì đã làm ở các bước phân tích, tạo biểu đồ để có được một cái nhìn tổng quát nhất về dữ liệu của chúng ta mong muốn. Công việc còn lại sẽ vô cùng đơn giản, và thành quả chúng ta có thể đạt được như sau:
Như vậy chúng ta đã có một bảng điều khiển mô tả vô cùng trực quan những con số kinh doanh mà chúng ta có được. Chúng ta sẽ có cái nhìn tổng quan nhất về việc kinh doanh hiện tại, như doanh số, lợi nhuận, số lượng của từng sản phẩm bán được..., và từ đó có thể đưa ra các quyết định kinh doanh cho tương lai nhanh chóng và dễ dàng hơn.