4 Dữ liệu và Phân tích Dữ liệu

Mục tiêu chương

Kết thúc chương này, người học sẽ có khả năng:

Nhận thức vai trò nền tảng của dữ liệu cho AI và các thách thức trong quản lý dữ liệu.
Phân biệt được các loại dữ liệu và xác định các nguồn thu thập dữ liệu cho AI.
Hiểu khái niệm Dữ liệu lớn, các đặc tính, vai trò và thách thức liên quan.
Nắm vững tầm quan trọng của chất lượng dữ liệu và các bước cơ bản trong tiền xử lý dữ liệu.
Làm quen với khái niệm và tầm quan trọng của Trực quan hóa Dữ liệu.
Thực hành các thao tác cơ bản về dữ liệu và trực quan hóa bằng Orange Data Mining.

4.1 Giới thiệu

Trong các chương trước, chúng ta đã tìm hiểu về Trí tuệ Nhân tạo (AI) và những ứng dụng tiềm năng của nó. Tuy nhiên, để AI có thể “thông minh” và mang lại giá trị thực sự thì yếu tố nền tảng không thể thiếu, thường được ví như “mạch máu” hay “nhiên liệu” của mọi hệ thống AI hiện đại: đó chính là dữ liệu (data).

4.1.1 Vai trò của dữ liệu cho AI

Hầu hết các mô hình AI hiện nay, đặc biệt là Học máy (Machine Learning) và Học sâu (Deep Learning), đều dựa trên nguyên tắc học từ dữ liệu. Các mô hình AI không được lập trình tường minh để thực hiện mọi tác vụ một cách cụ thể; thay vào đó, chúng được “huấn luyện” trên những tập dữ liệu lớn, từ đó tự động nhận diện các mẫu (patterns), các mối quan hệ (relationships), và các đặc trưng (features) ẩn chứa bên trong dữ liệu. Chất lượng và số lượng của dữ liệu huấn luyện sẽ quyết định trực tiếp đến hiệu suất, độ chính xác, và khả năng tổng quát hóa của mô hình AI.

Dữ liệu là nguồn cung cấp tri thức: AI học từ những gì có trong dữ liệu. Nếu dữ liệu phản ánh đúng thực tế và chứa đựng những thông tin giá trị, AI có thể rút ra những hiểu biết sâu sắc, đưa ra dự đoán chính xác, và hỗ trợ việc ra quyết định hiệu quả.
Dữ liệu định hình hành vi của AI: Các thiên kiến (bias), sai sót, hoặc tính cục bộ của dữ liệu huấn luyện có thể dẫn đến việc AI học và tái tạo lại những hành vi không mong muốn, thậm chí là gây hại.
Dữ liệu cho phép AI cá nhân hóa: Trong nhiều ứng dụng, như hệ thống gợi ý hay marketing cá nhân hóa, dữ liệu về hành vi và sở thích của từng người dùng là yếu tố then chốt để AI có thể cung cấp những trải nghiệm “may đo” riêng biệt.
Dữ liệu thúc đẩy sự cải tiến liên tục: Khi có thêm dữ liệu mới, các mô hình AI có thể được huấn luyện lại và cập nhật, giúp chúng ngày càng trở nên thông minh và thích ứng tốt hơn với sự thay đổi của môi trường.

Tóm lại, không có dữ liệu (hoặc không có đủ dữ liệu chất lượng), các mô hình AI, dù tinh vi đến đâu, cũng chỉ là những công thức toán học trống rỗng, không có khả năng mang lại giá trị thực tiễn.

4.1.2 Những thách thức khi làm việc với dữ liệu

Mặc dù vai trò của dữ liệu là vô cùng quan trọng, việc thu thập, quản lý và khai thác dữ liệu hiệu quả lại là một hành trình đầy thách thức đối với nhiều tổ chức. Dưới đây là một số thách thức thường gặp:

Thu thập dữ liệu (Data Collection):
- Đa dạng nguồn: Dữ liệu có thể đến từ nhiều nguồn khác nhau (hệ thống nội bộ, web, mạng xã hội, thiết bị IoT, đối tác) với các định dạng và cấu trúc khác nhau, gây khó khăn trong việc tổng hợp.
- Chi phí: Việc thu thập dữ liệu, đặc biệt là dữ liệu chất lượng cao hoặc dữ liệu chuyên biệt, có thể tốn kém về mặt tài chính và thời gian.
- Tính kịp thời: Trong nhiều trường hợp, dữ liệu cần được thu thập và cập nhật theo thời gian thực hoặc gần thời gian thực, đặt ra yêu cầu cao về mặt công nghệ.
Lưu trữ dữ liệu (Data Storage):
- Khối lượng lớn: Với sự bùng nổ của Dữ liệu lớn (Big Data), việc lưu trữ một lượng dữ liệu khổng lồ đòi hỏi hạ tầng mạnh mẽ và chi phí đáng kể.
- An toàn và Bảo mật: Dữ liệu, đặc biệt là dữ liệu nhạy cảm của khách hàng hoặc doanh nghiệp, cần được lưu trữ một cách an toàn, bảo vệ khỏi truy cập trái phép, mất mát hoặc hư hỏng.
Chất lượng dữ liệu (Data Quality):
- Dữ liệu không đầy đủ (Missing Data): Nhiều tập dữ liệu có các giá trị bị thiếu, gây khó khăn cho việc phân tích.
- Dữ liệu nhiễu (Noisy Data) / Sai sót (Erroneous Data): Dữ liệu có thể chứa lỗi, giá trị không chính xác, hoặc các điểm ngoại lai (outliers) do lỗi nhập liệu, lỗi cảm biến, hoặc các yếu tố khác.
- Dữ liệu không nhất quán (Inconsistent Data): Cùng một thông tin có thể được biểu diễn theo nhiều cách khác nhau trong các hệ thống hoặc thời điểm khác nhau.
- Dữ liệu thiên vị (Biased Data): Dữ liệu có thể không đại diện đầy đủ cho toàn bộ quần thể hoặc phản ánh các định kiến xã hội, dẫn đến các mô hình AI không công bằng.
Bảo mật và Quyền riêng tư Dữ liệu (Data Security and Privacy):
- Việc thu thập và sử dụng dữ liệu cá nhân đặt ra những yêu cầu nghiêm ngặt về bảo vệ quyền riêng tư và tuân thủ các quy định pháp lý (ví dụ: GDPR của Châu Âu, Luật An ninh mạng của Việt Nam).
- Nguy cơ rò rỉ dữ liệu, tấn công mạng là những mối đe dọa thường trực.
Chi phí (Cost):
- Toàn bộ vòng đời của dữ liệu, từ thu thập, lưu trữ, xử lý, phân tích đến bảo trì, đều liên quan đến chi phí về công nghệ, nhân lực và thời gian.
Quản trị Dữ liệu (Data Governance):
- Thiếu các chính sách, quy trình và vai trò trách nhiệm rõ ràng trong việc quản lý và sử dụng dữ liệu có thể dẫn đến tình trạng hỗn loạn, lãng phí tài nguyên và rủi ro pháp lý.
Thiếu hụt Kỹ năng và Văn hóa Dữ liệu:
- Nhiều tổ chức thiếu nhân lực có kỹ năng phân tích dữ liệu và văn hóa ra quyết định dựa trên dữ liệu.

Việc nhận diện và giải quyết những thách thức này là bước đi quan trọng để doanh nghiệp có thể khai thác tối đa tiềm năng của dữ liệu và xây dựng các ứng dụng AI thành công. Các phần tiếp theo của chương này sẽ đi sâu hơn vào các khía cạnh cụ thể của dữ liệu và cách chúng ta có thể làm việc hiệu quả với nó.

4.2 Phân loại Dữ liệu

Trong môi trường kinh doanh, dữ liệu được tạo ra và thu thập dưới nhiều hình thức và cấu trúc khác nhau. Hiểu rõ về các loại dữ liệu này là điều cần thiết để có thể lựa chọn phương pháp lưu trữ, xử lý, phân tích và ứng dụng AI phù hợp. Ba loại dữ liệu chính thường được nhắc đến là: dữ liệu có cấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc.

4.2.1 Dữ liệu có cấu trúc

Định nghĩa: Dữ liệu có cấu trúc (Structured Data) là loại dữ liệu được tổ chức theo một định dạng cố định, thường là dạng bảng với các hàng (records) và cột (fields/attributes) rõ ràng. Mỗi cột có một kiểu dữ liệu xác định (ví dụ: số nguyên, số thực, chuỗi ký tự, ngày tháng) và mỗi hàng biểu diễn một thực thể hoặc một sự kiện cụ thể.

Đặc điểm:

Có tổ chức cao: Dễ dàng lưu trữ, truy vấn, và quản lý trong các cơ sở dữ liệu quan hệ (Relational Databases - RDBMS) như MySQL, PostgreSQL, SQL Server, Oracle.
Dễ dàng phân tích: Các công cụ phân tích dữ liệu truyền thống và các thuật toán học máy thường làm việc rất hiệu quả với dữ liệu có cấu trúc.
Ít linh hoạt: Cấu trúc cố định có thể gây khó khăn khi muốn thêm các loại thông tin mới không nằm trong định dạng ban đầu.
Thường là dữ liệu định lượng: Chủ yếu chứa các con số, mã định danh, ngày tháng, và các giá trị phân loại rõ ràng.

Ví dụ:

Dữ liệu bán hàng: Thông tin về mỗi đơn hàng (mã đơn hàng, mã khách hàng, ngày mua, sản phẩm mua, số lượng, giá tiền).
Dữ liệu khách hàng trong CRM (Customer Relationship Management): Thông tin cá nhân của khách hàng (tên, tuổi, địa chỉ, email, lịch sử mua hàng, điểm thành viên).
Dữ liệu nhân sự: Thông tin về nhân viên (mã nhân viên, tên, phòng ban, chức vụ, mức lương, ngày vào làm).
Dữ liệu kế toán: Các bút toán, sổ sách kế toán, báo cáo tài chính.
Dữ liệu từ cảm biến trong nhà máy: Các thông số kỹ thuật được ghi lại theo thời gian (nhiệt độ, áp suất, tốc độ vòng quay).

[ĐỀ XUẤT HÌNH ẢNH: Một ví dụ về bảng dữ liệu có cấu trúc, ví dụ bảng thông tin khách hàng với các cột: ID, Tên, Email, Số điện thoại, Ngày mua cuối.]

Dữ liệu có cấu trúc chiếm khoảng 20% tổng lượng dữ liệu toàn cầu nhưng lại là nguồn thông tin quan trọng cho nhiều quyết định kinh doanh và ứng dụng AI truyền thống.

4.2.2 Dữ liệu phi cấu trúc

Định nghĩa: Dữ liệu phi cấu trúc (Unstructured Data) là loại dữ liệu không có một cấu trúc nội tại rõ ràng hoặc một mô hình dữ liệu được xác định trước. Nó không tuân theo định dạng bảng hàng-cột truyền thống và thường tồn tại ở dạng tự do.

Đặc điểm:

Không có một tổ chức nhất định: Khó khăn hơn trong việc lưu trữ, tìm kiếm và phân tích bằng các công cụ truyền thống.
Tính linh hoạt cao: Có thể chứa đựng nhiều loại thông tin phong phú và đa dạng.
Thường là dữ liệu định tính: Văn bản, hình ảnh, âm thanh, video, các bài đăng trên mạng xã hội, email.
Chiếm phần lớn dữ liệu: Ước tính khoảng 80% dữ liệu trên thế giới là dữ liệu phi cấu trúc và đang tăng trưởng với tốc độ rất nhanh.
Đòi hỏi các kỹ thuật AI chuyên biệt: Việc khai thác dữ liệu phi cấu trúc thường cần đến các kỹ thuật AI tiên tiến như Xử lý Ngôn ngữ Tự nhiên (NLP) cho văn bản, Thị giác Máy tính (Computer Vision) cho hình ảnh và video, Xử lý Âm thanh (Audio Processing).

Ví dụ:

Nội dung Email: Các thư từ trao đổi với khách hàng, đối tác, nội bộ.
Bài đăng trên Mạng xã hội: Các bình luận, đánh giá, chia sẻ của khách hàng về thương hiệu, sản phẩm trên Facebook, Twitter, Instagram, TikTok.
Hình ảnh và Video sản phẩm: Hình ảnh quảng cáo, video giới thiệu sản phẩm, video hướng dẫn sử dụng.
Bản ghi âm cuộc gọi Hỗ trợ Khách hàng: Các cuộc gọi đến tổng đài được ghi âm lại.
Tài liệu Văn bản: Các hợp đồng, báo cáo, tài liệu pháp lý, bản tin nội bộ, các bài báo khoa học.
Dữ liệu từ Camera giám sát: Video ghi lại hoạt động tại cửa hàng, nhà xưởng.

[ĐỀ XUẤT HÌNH ẢNH: Một collage gồm các biểu tượng đại diện cho dữ liệu phi cấu trúc: một đoạn văn bản, một bức ảnh, một biểu tượng sóng âm, một biểu tượng video.]

Việc khai thác hiệu quả dữ liệu phi cấu trúc đang trở thành một lợi thế cạnh tranh quan trọng, giúp doanh nghiệp hiểu sâu hơn về cảm xúc, ý định của khách hàng và các xu hướng thị trường mà dữ liệu có cấu trúc có thể bỏ lỡ.

4.2.3 Dữ liệu bán cấu trúc

Định nghĩa: Dữ liệu bán cấu trúc (Semi-structured Data) là loại dữ liệu nằm giữa dữ liệu có cấu trúc và phi cấu trúc. Nó không tuân theo cấu trúc bảng nghiêm ngặt của cơ sở dữ liệu quan hệ, nhưng lại chứa các thẻ (tags) hoặc các dấu hiệu (markers) để tách biệt các yếu tố ngữ nghĩa và tạo ra một hệ thống phân cấp các bản ghi và trường trong dữ liệu.

Đặc điểm:

Có một mức độ tổ chức nhất định: Sử dụng các thẻ để định danh và phân cấp dữ liệu, giúp máy tính dễ dàng xử lý hơn so với dữ liệu phi cấu trúc hoàn toàn.
Tính linh hoạt cao hơn dữ liệu có cấu trúc: Cho phép các thuộc tính hoặc trường khác nhau cho cùng một loại thực thể.
Thường được sử dụng để trao đổi dữ liệu: Rất phổ biến trong các ứng dụng web, API, và lưu trữ dữ liệu NoSQL.
Không phù hợp với các công cụ RDBMS truyền thống: Thường được lưu trữ trong các cơ sở dữ liệu NoSQL (ví dụ: MongoDB, Couchbase) hoặc dưới dạng tệp văn bản.

Ví dụ và các định dạng phổ biến:

JSON (JavaScript Object Notation):
- Một định dạng văn bản nhẹ, dễ đọc cho cả người và máy, dựa trên cú pháp của đối tượng JavaScript.
- Sử dụng các cặp “khóa”:“giá trị” (key-value pairs) và các mảng (arrays).
- Rất phổ biến trong các API web và ứng dụng di động.
- Ví dụ một đối tượng JSON mô tả một sản phẩm:
```
{
  "tenSanPham": "Laptop XYZ",
  "maSanPham": "LT123",
  "gia": 25000000,
  "thongSo": {
    "CPU": "Intel Core i7",
    "RAM": "16GB",
    "o_cung": "512GB SSD"
  },
  "mauSac": ["Bạc", "Đen"]
}
```
XML (eXtensible Markup Language):
- Một ngôn ngữ đánh dấu được thiết kế để mang dữ liệu, không phải để hiển thị dữ liệu (khác với HTML).
- Sử dụng các thẻ do người dùng tự định nghĩa để mô tả cấu trúc và ý nghĩa của dữ liệu.
- Thường được sử dụng trong các tệp cấu hình, dịch vụ web (SOAP), và trao đổi tài liệu.
- Ví dụ một tài liệu XML mô tả thông tin tương tự như trên:
```
<sanPham>
  <tenSanPham>Laptop XYZ</tenSanPham>
  <maSanPham>LT123</maSanPham>
  <gia>25000000</gia>
  <thongSo>
    <CPU>Intel Core i7</CPU>
    <RAM>16GB</RAM>
    <o_cung>512GB SSD</o_cung>
  </thongSo>
  <mauSac>Bạc</mauSac>
  <mauSac>Đen</mauSac>
</sanPham>
```
Email: Tiêu đề email (From, To, Subject, Date) có cấu trúc, trong khi nội dung email (body) thường là phi cấu trúc. Do đó, email có thể được xem là một dạng dữ liệu bán cấu trúc.
Log files: Các tệp nhật ký từ máy chủ web hoặc ứng dụng thường có một định dạng nhất định cho mỗi dòng log, nhưng nội dung thông báo có thể thay đổi.

[ĐỀ XUẤT HÌNH ẢNH: Hai khung nhỏ đặt cạnh nhau, một khung hiển thị ví dụ mã JSON, khung còn lại hiển thị ví dụ mã XML tương ứng.]

Trong thực tế, một doanh nghiệp thường làm việc với cả ba loại dữ liệu này. Khả năng tích hợp và phân tích dữ liệu từ nhiều nguồn và nhiều định dạng khác nhau là một yếu tố quan trọng để có được cái nhìn toàn diện và đưa ra các quyết định dựa trên dữ liệu hiệu quả. Các công cụ và kỹ thuật AI hiện đại ngày càng trở nên mạnh mẽ hơn trong việc xử lý cả ba loại dữ liệu này.

4.3 Nguồn và Cách thức Thu thập Dữ liệu cho AI

Để xây dựng các ứng dụng Trí tuệ Nhân tạo hiệu quả, việc xác định và tiếp cận các nguồn dữ liệu phù hợp là bước khởi đầu vô cùng quan trọng. Dữ liệu có thể đến từ nhiều nguồn khác nhau, cả bên trong lẫn bên ngoài doanh nghiệp. Việc lựa chọn phương thức thu thập dữ liệu cũng phụ thuộc vào loại dữ liệu, mục tiêu ứng dụng AI, và các yếu tố về chi phí, thời gian, cũng như các quy định pháp lý.

4.3.1 Dữ liệu nội bộ

Dữ liệu nội bộ (Internal Data Sources) là một trong những nguồn dữ liệu được tạo ra và lưu trữ bên trong tổ chức như một phần của hoạt động kinh doanh hàng ngày. Dữ liệu nội bộ thường có giá trị cao vì nó phản ánh trực tiếp các hoạt động và hiệu suất của chính doanh nghiệp.

Các nguồn dữ liệu nội bộ phổ biến:

Hệ thống Quản trị Quan hệ Khách hàng (CRM - Customer Relationship Management):
- Chứa thông tin chi tiết về khách hàng: thông tin liên hệ, lịch sử tương tác (email, cuộc gọi, gặp mặt), lịch sử mua hàng, phản hồi, khiếu nại, sở thích, điểm khách hàng thân thiết.
- Ứng dụng AI: Phân khúc khách hàng, dự đoán hành vi mua hàng, cá nhân hóa marketing, dự đoán khả năng rời bỏ (churn prediction).
Hệ thống Hoạch định Nguồn lực Doanh nghiệp (ERP - Enterprise Resource Planning):
- Tích hợp và quản lý dữ liệu từ nhiều bộ phận khác nhau như kế toán, tài chính, sản xuất, chuỗi cung ứng, nhân sự, bán hàng.
- Chứa dữ liệu về giao dịch tài chính, đơn đặt hàng, quản lý kho, lịch trình sản xuất, thông tin nhân viên.
- Ứng dụng AI: Dự báo tài chính, tối ưu hóa chuỗi cung ứng, quản lý rủi ro, phân tích hiệu suất hoạt động.
Dữ liệu Giao dịch (Transactional Data):
- Thông tin chi tiết về từng giao dịch mua bán sản phẩm/dịch vụ: thời gian, địa điểm, sản phẩm, số lượng, giá trị, phương thức thanh toán.
- Thường được lưu trữ trong các cơ sở dữ liệu bán hàng (Point of Sale - POS) hoặc hệ thống thương mại điện tử.
- Ứng dụng AI: Phát hiện gian lận, phân tích giỏ hàng (market basket analysis), hệ thống gợi ý.
Dữ liệu Website và Ứng dụng Di động (Web and Mobile App Analytics):
- Thông tin về hành vi người dùng trên website hoặc ứng dụng: số lượt truy cập, thời gian trên trang, các trang đã xem, tỷ lệ thoát, tỷ lệ chuyển đổi, nguồn truy cập, thiết bị sử dụng.
- Thu thập qua các công cụ như Google Analytics, Adobe Analytics, hoặc các hệ thống log nội bộ.
- Ứng dụng AI: Tối ưu hóa trải nghiệm người dùng (UX), cá nhân hóa nội dung, A/B testing, dự đoán hành vi người dùng.
Dữ liệu từ Mạng xã hội của Doanh nghiệp (Owned Social Media Data):
- Dữ liệu từ các trang mạng xã hội do doanh nghiệp quản lý: số lượng người theo dõi, lượt tương tác (like, share, comment) với các bài đăng, tin nhắn của khách hàng.
- Ứng dụng AI: Phân tích cảm xúc của khách hàng, đo lường hiệu quả chiến dịch truyền thông, xác định người có ảnh hưởng.
Dữ liệu từ Cảm biến và Thiết bị IoT (Sensor and IoT Data):
- Trong các ngành như sản xuất, logistics, năng lượng, nông nghiệp, các cảm biến và thiết bị IoT tạo ra lượng lớn dữ liệu về nhiệt độ, độ ẩm, vị trí, tình trạng máy móc, mức tiêu thụ năng lượng.
- Ứng dụng AI: Bảo trì dự đoán, giám sát chất lượng, tối ưu hóa quy trình, quản lý tài sản thông minh.
Hồ sơ Nhân sự và Dữ liệu Hiệu suất (HR Records and Performance Data):
- Thông tin về nhân viên, kỹ năng, kinh nghiệm, lịch sử làm việc, đánh giá hiệu suất, dữ liệu đào tạo.
- Ứng dụng AI: Tuyển dụng thông minh, phân tích hiệu suất nhân viên, cá nhân hóa lộ trình phát triển.
Email và Tài liệu Nội bộ:
- Các email trao đổi, tài liệu quy trình, báo cáo nội bộ, cơ sở tri thức của công ty.
- Ứng dụng AI: Phân loại email, tìm kiếm thông tin thông minh, tóm tắt tài liệu, quản lý tri thức.

Ưu điểm của dữ liệu nội bộ: Thường có tính liên quan cao, đáng tin cậy (nếu được quản lý tốt), và doanh nghiệp có toàn quyền kiểm soát. Thách thức: Dữ liệu có thể nằm phân tán ở nhiều hệ thống khác nhau (silos), không nhất quán về định dạng, hoặc chất lượng không đảm bảo.

4.3.2 Dữ liệu bên ngoài

Dữ liệu bên ngoài (External Data Sources), ngoài nguồn dữ liệu nội bộ, doanh nghiệp có thể thu thập hoặc mua dữ liệu từ các nguồn bên ngoài để bổ sung, làm phong phú thêm hiểu biết của mình hoặc để phân tích các yếu tố vĩ mô.

Các nguồn dữ liệu bên ngoài phổ biến:

Dữ liệu từ Đối tác Kinh doanh (Partner Data):
- Các nhà cung cấp, nhà phân phối, đối tác bán lẻ có thể chia sẻ dữ liệu (có sự đồng ý) về bán hàng, tồn kho, hoặc hành vi khách hàng chung.
- Ví dụ: Một nhà sản xuất hàng tiêu dùng có thể nhận dữ liệu bán hàng từ các chuỗi siêu thị.
Dữ liệu từ Nhà cung cấp Dữ liệu Thương mại (Commercial Data Providers / Data Brokers):
- Nhiều công ty chuyên thu thập, tổng hợp và bán các bộ dữ liệu về nhân khẩu học, hành vi tiêu dùng, sở thích, dữ liệu tài chính, dữ liệu thị trường.
- Ví dụ: Nielsen, IRI (dữ liệu bán lẻ và tiêu dùng), Experian, Equifax (dữ liệu tín dụng), Bloomberg, Refinitiv (dữ liệu tài chính).
- Lưu ý: Cần cẩn trọng về chi phí, chất lượng, và các vấn đề pháp lý, đạo đức khi mua dữ liệu.
Dữ liệu từ Mạng xã hội Công cộng (Public Social Media Data):
- Phân tích các bài đăng, bình luận, xu hướng công khai trên các nền tảng mạng xã hội lớn (Facebook, Twitter, Instagram, LinkedIn, TikTok) để hiểu về dư luận, cảm xúc của công chúng đối với thương hiệu, sản phẩm, hoặc các chủ đề liên quan.
- Thường được thu thập qua API của các nền tảng hoặc các công cụ lắng nghe xã hội (social listening tools).
Dữ liệu từ Website Công cộng (Public Websites / Web Scraping):
- Thu thập thông tin từ các website công khai như trang tin tức, diễn đàn, blog, website của đối thủ cạnh tranh (ví dụ: thông tin sản phẩm, giá cả, đánh giá của khách hàng).
- Kỹ thuật thường được sử dụng là “web scraping” (cào dữ liệu web).
- Lưu ý: Cần tuân thủ điều khoản sử dụng của website và các quy định pháp lý về việc thu thập dữ liệu tự động.
Dữ liệu Khảo sát (Survey Data):
- Thực hiện các cuộc khảo sát thị trường, khảo sát ý kiến khách hàng để thu thập thông tin cụ thể về một vấn đề nào đó.
- Có thể tự thực hiện hoặc thuê các công ty nghiên cứu thị trường.
Dữ liệu Kinh tế - Xã hội từ Chính phủ và Tổ chức Quốc tế:
- Các cơ quan thống kê quốc gia (ví dụ: Tổng cục Thống kê Việt Nam), ngân hàng trung ương, các tổ chức quốc tế (Ngân hàng Thế giới, Quỹ Tiền tệ Quốc tế, Liên Hợp Quốc) công bố nhiều bộ dữ liệu về kinh tế vĩ mô, dân số, lao động, thương mại.

Ưu điểm của dữ liệu bên ngoài: Cung cấp cái nhìn rộng hơn về thị trường, đối thủ, và các yếu tố vĩ mô. Thách thức: Chi phí, chất lượng không đồng đều, tính cập nhật, vấn đề pháp lý và quyền riêng tư.

4.3.3 Dữ liệu mở và API

a. Dữ liệu mở (Open Data):

Định nghĩa: Dữ liệu mở là dữ liệu được cung cấp công khai, miễn phí cho mọi người sử dụng, tái sử dụng và phân phối lại mà không có hoặc có rất ít hạn chế về bản quyền, bằng sáng chế hoặc các cơ chế kiểm soát khác.

Đặc điểm:

Tính sẵn có và dễ tiếp cận: Thường được công bố trên các cổng thông tin dữ liệu mở của chính phủ, tổ chức nghiên cứu, hoặc các tổ chức phi lợi nhuận.
Định dạng máy đọc được (Machine-readable): Thường ở các định dạng như CSV, JSON, XML để dễ dàng xử lý bằng máy tính.
Thúc đẩy sự minh bạch và đổi mới: Dữ liệu mở của chính phủ giúp tăng cường tính minh bạch và trách nhiệm giải trình. Việc tiếp cận tự do dữ liệu cũng thúc đẩy sự đổi mới trong nghiên cứu và phát triển ứng dụng.

Ví dụ về nguồn dữ liệu mở:

Cổng dữ liệu quốc gia: Nhiều quốc gia có cổng dữ liệu mở riêng (ví dụ: data.gov của Mỹ, data.gov.uk của Anh, data.gov.vn của Việt Nam).
Dữ liệu từ các thành phố: Một số thành phố lớn công bố dữ liệu về giao thông, môi trường, quy hoạch đô thị.
Dữ liệu khoa học: Các dự án nghiên cứu lớn thường chia sẻ dữ liệu của họ (ví dụ: dữ liệu từ Kính viễn vọng Không gian Hubble, Dự án Bản đồ Gen người).
Dữ liệu từ các tổ chức phi chính phủ: Ví dụ, dữ liệu về viện trợ phát triển, nhân quyền.

Ứng dụng trong kinh doanh: Doanh nghiệp có thể sử dụng dữ liệu mở để phân tích thị trường, xác định cơ hội mới, phát triển sản phẩm/dịch vụ (ví dụ: ứng dụng dựa trên dữ liệu giao thông công cộng), hoặc làm giàu thêm bộ dữ liệu nội bộ của mình.

b. Giao diện Lập trình Ứng dụng (API - Application Programming Interface):

Định nghĩa: API là một tập hợp các quy tắc và giao thức cho phép các ứng dụng phần mềm khác nhau giao tiếp và trao đổi dữ liệu với nhau một cách tự động. Thay vì phải “cào” dữ liệu từ website, API cung cấp một cách thức chuẩn hóa và có cấu trúc để truy cập dữ liệu.

Cách thức hoạt động: Một ứng dụng (client) gửi một yêu cầu (request) đến API của một máy chủ (server) chứa dữ liệu. Máy chủ xử lý yêu cầu và trả về dữ liệu (response), thường ở định dạng JSON hoặc XML.

Sức mạnh của API trong thu thập dữ liệu:

Truy cập dữ liệu có cấu trúc và cập nhật: Nhiều tổ chức (mạng xã hội, nhà cung cấp dịch vụ đám mây, nền tảng thương mại điện tử, cơ quan chính phủ) cung cấp API cho phép các nhà phát triển truy cập vào dữ liệu của họ một cách có kiểm soát.
Tự động hóa việc thu thập dữ liệu: Cho phép xây dựng các kịch bản tự động để lấy dữ liệu mới một cách thường xuyên.
Tích hợp dữ liệu từ nhiều nguồn: Dễ dàng kết hợp dữ liệu từ nhiều API khác nhau để tạo ra các ứng dụng hoặc phân tích phức tạp hơn.
Kiểm soát truy cập và giới hạn (Rate Limiting): Các nhà cung cấp API thường có các cơ chế để kiểm soát số lượng yêu cầu và loại dữ liệu được truy cập, đảm bảo tính ổn định và bảo mật của hệ thống.

Ví dụ về API cung cấp dữ liệu:

API của Mạng xã hội: Twitter API, Facebook Graph API cho phép truy cập dữ liệu bài đăng, người dùng (với sự cho phép).
API Dịch vụ Tài chính: Các API cho phép lấy giá cổ phiếu, tỷ giá hối đoái, thông tin giao dịch (Open Banking).
API Dịch vụ Bản đồ và Thời tiết: Google Maps API, OpenWeatherMap API.
API Thương mại Điện tử: Amazon Product Advertising API, Shopify API.

[ĐỀ XUẤT HÌNH ẢNH: Một sơ đồ đơn giản minh họa cách một ứng dụng client gửi request đến một API server và nhận lại response chứa dữ liệu JSON/XML.]

Việc lựa chọn nguồn và phương thức thu thập dữ liệu phụ thuộc vào bài toán AI cụ thể, ngân sách, yêu cầu về chất lượng và tính cập nhật của dữ liệu, cũng như các yếu tố pháp lý và đạo đức. Thông thường, một chiến lược dữ liệu hiệu quả sẽ kết hợp việc khai thác tối đa dữ liệu nội bộ với việc bổ sung một cách thông minh dữ liệu từ các nguồn bên ngoài và dữ liệu mở thông qua các API.

4.4 Dữ liệu lớn

Trong kỷ nguyên số, thuật ngữ “Dữ liệu lớn” (Big Data) đã trở nên vô cùng phổ biến, phản ánh một thực tế là lượng dữ liệu được tạo ra và thu thập trên toàn cầu đang tăng trưởng với tốc độ chưa từng có. Big Data không chỉ là một khái niệm về quy mô mà còn bao hàm những đặc tính và thách thức riêng, đồng thời mở ra những cơ hội to lớn cho việc ứng dụng Trí tuệ Nhân tạo.

4.4.1 Khái niệm và các đặc tính cốt lõi

Định nghĩa: Big Data là thuật ngữ dùng để chỉ những tập hợp dữ liệu cực kỳ lớn và phức tạp, đến mức các công cụ xử lý dữ liệu truyền thống không còn đủ khả năng để thu thập, lưu trữ, quản lý và phân tích chúng một cách hiệu quả trong một khoảng thời gian chấp nhận được.

Thay vì chỉ tập trung vào “kích thước” (lớn như thế nào là Big Data?), khái niệm Big Data thường được mô tả thông qua các đặc tính cốt lõi, ban đầu là 3Vs (do Doug Laney của Gartner đề xuất vào năm 2001), sau đó được mở rộng thành 5Vs hoặc thậm chí nhiều hơn. Dưới đây là 5Vs phổ biến nhất:

Volume (Khối lượng):
- Đây là đặc tính rõ ràng nhất của Big Data, đề cập đến quy mô khổng lồ của dữ liệu. Khối lượng dữ liệu có thể từ hàng Terabytes (TB), Petabytes (PB) đến Exabytes (EB) hoặc thậm chí Zettabytes (ZB).
- Ví dụ: Dữ liệu từ các giao dịch thương mại điện tử của một tập đoàn lớn, dữ liệu từ hàng tỷ cảm biến IoT, nội dung video trên YouTube, dữ liệu từ các thí nghiệm khoa học quy mô lớn (như máy gia tốc hạt).
Velocity (Tốc độ):
- Đặc tính này đề cập đến tốc độ dữ liệu được tạo ra, truyền đi và cần được xử lý. Dữ liệu có thể được tạo ra theo thời gian thực hoặc gần thời gian thực, đòi hỏi các hệ thống có khả năng xử lý nhanh chóng để đưa ra quyết định kịp thời.
- Ví dụ: Dữ liệu từ các luồng (streams) trên mạng xã hội, dữ liệu giao dịch chứng khoán, dữ liệu từ camera giám sát, dữ liệu vị trí từ thiết bị di động.
Variety (Đa dạng):
- Big Data không chỉ giới hạn ở dữ liệu có cấu trúc truyền thống. Nó bao gồm nhiều loại hình và định dạng dữ liệu khác nhau:
  - Dữ liệu có cấu trúc: Dữ liệu từ cơ sở dữ liệu quan hệ.
  - Dữ liệu phi cấu trúc: Văn bản, hình ảnh, âm thanh, video, bài đăng mạng xã hội.
  - Dữ liệu bán cấu trúc: Dữ liệu JSON, XML, log files.
- Sự đa dạng này đặt ra thách thức lớn cho việc tích hợp, lưu trữ và phân tích.
Veracity (Tính xác thực / Độ tin cậy):
- Đặc tính này đề cập đến chất lượng, độ chính xác và độ tin cậy của dữ liệu. Big Data có thể chứa đựng sự không chắc chắn, không nhất quán, dữ liệu nhiễu, thiên vị, hoặc thậm chí là thông tin sai lệch.
- Việc đảm bảo tính xác thực của Big Data là một thách thức lớn, nhưng lại vô cùng quan trọng vì các quyết định dựa trên dữ liệu không đáng tin cậy có thể dẫn đến hậu quả nghiêm trọng.
- Ví dụ: Dữ liệu từ mạng xã hội có thể chứa tin giả hoặc ý kiến chủ quan; dữ liệu từ cảm biến có thể bị lỗi.
Value (Giá trị):
- Đây là đặc tính quan trọng nhất. Dù dữ liệu có lớn đến đâu, nhanh đến đâu, hay đa dạng đến đâu, nó chỉ thực sự hữu ích nếu chúng ta có thể khai thác được giá trị từ nó. Giá trị này có thể là những hiểu biết sâu sắc (insights) mới, những dự đoán chính xác hơn, những quyết định kinh doanh tốt hơn, hoặc những sản phẩm/dịch vụ đổi mới.
- Việc biến Big Data thành giá trị đòi hỏi các công cụ phân tích tiên tiến, kỹ năng chuyên môn và một chiến lược dữ liệu rõ ràng.

[ĐỀ XUẤT HÌNH ẢNH: Một sơ đồ trực quan hóa 5Vs của Big Data, mỗi "V" có một biểu tượng và mô tả ngắn gọn.]

Ngoài 5Vs trên, một số tài liệu còn đề cập đến các “V” khác như Variability (Tính biến đổi – tốc độ dòng dữ liệu có thể không nhất quán), Validity (Tính hợp lệ – dữ liệu có phù hợp với mục đích sử dụng không), Volatility (Tính dễ bay hơi – thời gian dữ liệu còn hữu ích), và Visualization (Khả năng trực quan hóa để con người hiểu được).

4.4.2 Vai trò của Big Data đối với AI

Big Data và Trí tuệ Nhân tạo có mối quan hệ cộng sinh mạnh mẽ. Big Data cung cấp “nhiên liệu” cần thiết cho nhiều mô hình AI, đặc biệt là các mô hình Học máy và Học sâu, để chúng có thể học hỏi và đạt được hiệu suất cao. Ngược lại, AI cung cấp các công cụ và kỹ thuật để khai thác giá trị từ sự phức tạp của Big Data.

Dưới đây là một số cách Big Data thúc đẩy sự phát triển của AI:

Huấn luyện các Mô hình Học sâu (Deep Learning Models):
- Các mạng nơ-ron sâu với hàng triệu hoặc hàng tỷ tham số cần một lượng dữ liệu khổng lồ để học các biểu diễn phức tạp và tránh hiện tượng quá khớp (overfitting). Big Data, đặc biệt là dữ liệu phi cấu trúc như hình ảnh, video, và văn bản, là yếu tố then chốt cho những thành công gần đây của Học sâu trong các lĩnh vực như nhận diện hình ảnh, xử lý ngôn ngữ tự nhiên, và nhận dạng giọng nói.
Cải thiện Độ chính xác của các Mô hình Dự đoán:
- Với nhiều dữ liệu hơn, các mô hình Học máy có thể học được các mẫu tinh vi hơn và đưa ra dự đoán chính xác hơn. Ví dụ, trong dự báo nhu cầu, việc phân tích Big Data từ nhiều nguồn (lịch sử bán hàng, thời tiết, sự kiện, xu hướng mạng xã hội) có thể cải thiện đáng kể độ chính xác.
Phát hiện Gian lận và Bất thường ở Quy mô lớn:
- Các hệ thống AI có thể phân tích hàng tỷ giao dịch hoặc sự kiện trong thời gian thực để phát hiện các mẫu hành vi bất thường hoặc gian lận mà con người khó có thể nhận ra. Big Data cung cấp đủ trường hợp để AI học và phân biệt giữa hành vi bình thường và bất thường.
Cá nhân hóa Trải nghiệm ở Quy mô lớn (Hyper-personalization):
- Big Data về hành vi, sở thích, và ngữ cảnh của hàng triệu người dùng cho phép AI xây dựng các hệ thống gợi ý, quảng cáo nhắm mục tiêu, và nội dung được cá nhân hóa ở mức độ chi tiết chưa từng có.
Phân tích Dữ liệu Phi cấu trúc:
- Phần lớn Big Data là dữ liệu phi cấu trúc. Các kỹ thuật AI như NLP và Thị giác Máy tính được thúc đẩy bởi Big Data để hiểu và trích xuất thông tin giá trị từ văn bản, hình ảnh, video (ví dụ: phân tích cảm xúc từ mạng xã hội, nhận diện đối tượng trong video giám sát).
Hỗ trợ Nghiên cứu Khoa học và Khám phá:
- Trong các lĩnh vực như y sinh, thiên văn học, vật lý, Big Data từ các thí nghiệm và quan sát cho phép AI giúp các nhà khoa học phát hiện ra các quy luật mới, khám phá thuốc mới, hoặc hiểu rõ hơn về vũ trụ.

Tuy nhiên, cần lưu ý rằng không phải mọi ứng dụng AI đều yêu cầu Big Data. Nhiều bài toán kinh doanh cụ thể có thể được giải quyết hiệu quả bằng các mô hình AI được huấn luyện trên các tập dữ liệu nhỏ hơn, miễn là dữ liệu đó chất lượng và phù hợp. Việc xác định xem liệu có cần đến các giải pháp Big Data hay không phụ thuộc vào bản chất của vấn đề, loại dữ liệu có sẵn, và mục tiêu của ứng dụng AI.

4.4.3 Thách thức và hạn chế khi làm việc với Big Data

Mặc dù mang lại tiềm năng to lớn, việc làm việc với Big Data cũng đi kèm với nhiều thách thức và hạn chế đáng kể mà các tổ chức cần phải đối mặt:

Chi phí đáng kể cho Cơ sở Hạ tầng Lưu trữ và Xử lý:
- Việc lưu trữ và xử lý khối lượng dữ liệu khổng lồ đòi hỏi đầu tư lớn vào phần cứng (máy chủ, ổ cứng, mạng), phần mềm (hệ thống quản lý cơ sở dữ liệu phân tán như Hadoop, Spark, NoSQL databases), và các dịch vụ điện toán đám mây chuyên dụng.
Đảm bảo An ninh, Bảo mật và Tuân thủ Quyền riêng tư ở Quy mô lớn:
- Bảo vệ Big Data khỏi các mối đe dọa an ninh mạng và truy cập trái phép là một nhiệm vụ phức tạp.
- Việc tuân thủ các quy định về quyền riêng tư dữ liệu (như GDPR) trở nên khó khăn hơn khi phải quản lý lượng lớn dữ liệu cá nhân từ nhiều nguồn khác nhau. Việc ẩn danh hóa hoặc mã hóa dữ liệu cần được thực hiện cẩn thận.
Khó khăn trong việc Duy trì Chất lượng và Tính nhất quán của Dữ liệu (Veracity):
- Với khối lượng và tốc độ lớn, việc kiểm soát chất lượng, làm sạch dữ liệu nhiễu, xử lý dữ liệu thiếu, và đảm bảo tính nhất quán của Big Data trở thành một thách thức liên tục.
- Dữ liệu từ nhiều nguồn khác nhau có thể có định dạng và ý nghĩa không đồng nhất.
Yêu cầu các Công cụ và Kỹ năng Chuyên biệt để Phân tích và Khai thác Giá trị (Value):
- Các công cụ phân tích dữ liệu truyền thống thường không đủ mạnh để xử lý Big Data. Cần đến các nền tảng phân tích Big Data và các thuật toán AI tiên tiến.
- Đòi hỏi đội ngũ nhân lực có kỹ năng chuyên sâu về khoa học dữ liệu, kỹ thuật dữ liệu, và các công nghệ Big Data.
Thiếu hụt Nhân lực có Khả năng làm việc hiệu quả với Big Data:
- Nhu cầu về các chuyên gia Big Data và khoa học dữ liệu đang vượt xa nguồn cung trên thị trường lao động, gây khó khăn cho việc tuyển dụng và giữ chân nhân tài.
Tích hợp Dữ liệu từ Nhiều Nguồn Phân tán:
- Big Data thường đến từ nhiều hệ thống và nguồn khác nhau (silos). Việc tích hợp các nguồn dữ liệu này để có một cái nhìn thống nhất là một công việc phức tạp và tốn thời gian.
Độ trễ trong Phân tích (Latency):
- Mặc dù mục tiêu là xử lý theo thời gian thực, nhưng với khối lượng dữ liệu quá lớn, việc phân tích và đưa ra kết quả vẫn có thể có độ trễ nhất định, ảnh hưởng đến khả năng ra quyết định kịp thời trong một số trường hợp.
Quản trị Dữ liệu Phức tạp (Data Governance):
- Việc thiết lập và thực thi các chính sách quản trị dữ liệu hiệu quả cho Big Data (bao gồm quyền sở hữu, quyền truy cập, vòng đời dữ liệu, tiêu chuẩn chất lượng) là một thách thức lớn.
Khó khăn trong việc Trực quan hóa và Diễn giải Kết quả:
- Việc trình bày và diễn giải những hiểu biết rút ra từ Big Data một cách dễ hiểu cho những người không có chuyên môn kỹ thuật cũng là một thách thức.

Vượt qua những thách thức này đòi hỏi một chiến lược Big Data toàn diện, sự đầu tư đúng đắn vào công nghệ và con người, cùng với một văn hóa doanh nghiệp sẵn sàng thay đổi và chấp nhận rủi ro.

4.5 Đảm bảo Chất lượng Dữ liệu và Các bước Tiền xử lý

Như đã nhiều lần nhấn mạnh, chất lượng của dữ liệu đầu vào có ảnh hưởng quyết định đến hiệu quả và độ tin cậy của bất kỳ mô hình Trí tuệ Nhân tạo nào. Một mô hình AI, dù phức tạp và tinh vi đến đâu, cũng không thể mang lại kết quả tốt nếu được huấn luyện trên dữ liệu kém chất lượng. Do đó, việc đảm bảo chất lượng dữ liệu và thực hiện các bước tiền xử lý cần thiết là một giai đoạn cực kỳ quan trọng trong mọi dự án AI.

4.5.1 Tầm quan trọng của Dữ liệu Chất lượng

Nguyên tắc “Garbage In, Garbage Out” (GIGO), tạm dịch là “Rác vào, Rác ra”, là một câu nói kinh điển trong lĩnh vực khoa học máy tính và phân tích dữ liệu. Nó nhấn mạnh một sự thật đơn giản nhưng vô cùng quan trọng: nếu bạn đưa dữ liệu đầu vào không chính xác, không đầy đủ, hoặc không liên quan (tức là “rác”) vào một hệ thống xử lý (bao gồm cả các mô hình AI), thì kết quả đầu ra mà bạn nhận được cũng sẽ không chính xác, không đáng tin cậy, hoặc vô giá trị (cũng là “rác”).

Tầm quan trọng của dữ liệu chất lượng cho AI:

Độ chính xác của mô hình: Dữ liệu sạch, chính xác và đại diện giúp mô hình AI học được các mẫu thực sự và đưa ra dự đoán hoặc quyết định chính xác hơn.
Độ tin cậy và Khả năng tổng quát hóa: Mô hình được huấn luyện trên dữ liệu chất lượng cao sẽ đáng tin cậy hơn và có khả năng hoạt động tốt hơn trên dữ liệu mới, chưa từng thấy (khả năng tổng quát hóa).
Giảm thiểu Thiên vị (Bias): Dữ liệu không thiên vị hoặc đã được xử lý để giảm thiểu thiên vị giúp xây dựng các mô hình AI công bằng hơn, tránh đưa ra các quyết định phân biệt đối xử.
Tiết kiệm Thời gian và Chi phí: Việc đầu tư vào chất lượng dữ liệu ngay từ đầu có thể giúp tiết kiệm đáng kể thời gian và chi phí cho việc sửa lỗi, huấn luyện lại mô hình, hoặc giải quyết các hậu quả do quyết định sai lầm dựa trên AI kém chất lượng.
Tăng cường Sự tin tưởng của Người dùng: Khi người dùng tin tưởng vào chất lượng dữ liệu đầu vào, họ cũng sẽ tin tưởng hơn vào kết quả và khuyến nghị từ hệ thống AI.

Các đặc điểm của dữ liệu chất lượng bao gồm:

Tính chính xác (Accuracy): Dữ liệu phản ánh đúng sự thật hoặc giá trị thực tế.
Tính đầy đủ (Completeness): Không có các giá trị quan trọng bị thiếu.
Tính nhất quán (Consistency): Dữ liệu không chứa các mâu thuẫn hoặc sự khác biệt không giải thích được giữa các nguồn hoặc thời điểm khác nhau.
Tính kịp thời (Timeliness/Currency): Dữ liệu được cập nhật và phản ánh tình trạng mới nhất khi cần thiết.
Tính liên quan (Relevance): Dữ liệu phù hợp với mục tiêu của bài toán AI đang giải quyết.
Tính tin cậy (Reliability): Dữ liệu đến từ các nguồn đáng tin cậy và được thu thập bằng các phương pháp đáng tin cậy.
Khả năng hiểu được (Understandability/Interpretability): Dữ liệu và ý nghĩa của nó có thể được hiểu rõ ràng.

4.5.2 Quy trình tiền xử lý dữ liệu

Tiền xử lý dữ liệu (Data Preprocessing) là tập hợp các kỹ thuật được sử dụng để làm sạch, chuyển đổi và chuẩn bị dữ liệu thô trước khi đưa vào huấn luyện mô hình AI. Đây là một bước không thể bỏ qua và thường chiếm phần lớn thời gian và công sức trong một dự án khoa học dữ liệu. Mục tiêu của tiền xử lý là cải thiện chất lượng dữ liệu, làm cho nó phù hợp hơn với yêu cầu của các thuật toán học máy.

Quy trình tiền xử lý dữ liệu thường bao gồm các bước chính sau:

a. Làm sạch dữ liệu (Data Cleaning):

Mục tiêu của bước này là xử lý các vấn đề liên quan đến dữ liệu không chính xác, không đầy đủ hoặc không nhất quán.

Xử lý Giá trị Thiếu (Handling Missing Values):
- Xóa bỏ: Xóa các hàng (bản ghi) hoặc cột (thuộc tính) có quá nhiều giá trị thiếu. Tuy nhiên, cần cẩn thận vì có thể làm mất thông tin quan trọng.
- Điền giá trị (Imputation): Thay thế các giá trị thiếu bằng một giá trị ước lượng, ví dụ:
  - Giá trị trung bình (mean), trung vị (median) cho các thuộc tính số.
  - Giá trị xuất hiện nhiều nhất (mode) cho các thuộc tính phân loại.
  - Sử dụng các thuật toán học máy để dự đoán giá trị thiếu (ví dụ: hồi quy, k-NN imputation).
  - Điền một giá trị cố định (ví dụ: “Unknown”, 0) nếu phù hợp.
Xử lý Dữ liệu Nhiễu và dữ liệu ngoại lai (Handling Noisy Data and Outliers):
- Dữ liệu nhiễu: Dữ liệu chứa lỗi ngẫu nhiên hoặc không chính xác. Có thể phát hiện bằng cách kiểm tra các ràng buộc, sử dụng các thuật toán gom cụm, hoặc kiểm tra thủ công.
- Dữ liệu ngoại lai (Outliers): Các giá trị khác biệt đáng kể so với phần lớn các giá trị khác trong tập dữ liệu. Chúng có thể là lỗi hoặc là những trường hợp đặc biệt thực sự.
- Các kỹ thuật xử lý:
  - Binning: Làm mịn dữ liệu bằng cách nhóm các giá trị gần nhau vào các “bin” (khoảng) và thay thế bằng giá trị trung bình hoặc trung vị của bin.
  - Hồi quy (Regression): Sử dụng hồi quy để làm mịn dữ liệu.
  - Phân cụm (Clustering): Các điểm ngoại lai thường không thuộc về bất kỳ cụm nào hoặc tạo thành các cụm nhỏ riêng biệt.
  - Xóa bỏ hoặc Điều chỉnh: Cẩn thận xem xét việc xóa bỏ điểm ngoại lai hoặc điều chỉnh giá trị của chúng.
Xử lý Dữ liệu Không nhất quán (Handling Inconsistent Data):
- Kiểm tra và sửa các lỗi do nhập liệu sai, sử dụng các đơn vị đo lường khác nhau, hoặc các định dạng không đồng nhất (ví dụ: “TP. HCM”, “HCM City”, “Hồ Chí Minh”).
- Sử dụng các từ điển dữ liệu (data dictionaries) và các quy tắc chuẩn hóa.

b. Tích hợp dữ liệu (Data Integration):

Khi dữ liệu đến từ nhiều nguồn khác nhau, cần phải tích hợp chúng lại thành một tập dữ liệu thống nhất.

Kết hợp các tập dữ liệu: Ghép nối (joining) các bảng dữ liệu từ các nguồn khác nhau dựa trên các khóa chung (common keys).
Xử lý sự dư thừa dữ liệu (Data Redundancy): Các thuộc tính giống nhau có thể có tên khác nhau trong các nguồn khác nhau. Cần xác định và loại bỏ sự dư thừa.
Giải quyết xung đột giá trị (Value Conflict Resolution): Cùng một thực thể có thể có các giá trị thuộc tính khác nhau trong các nguồn khác nhau. Cần có quy tắc để giải quyết xung đột (ví dụ: chọn giá trị từ nguồn đáng tin cậy hơn, tính giá trị trung bình).

c. Biến đổi dữ liệu (Data Transformation):

Chuyển đổi dữ liệu sang một định dạng hoặc cấu trúc phù hợp hơn cho việc phân tích và huấn luyện mô hình.

Chuẩn hóa (Normalization) / Quy mô hóa (Scaling):
- Đưa các giá trị của các thuộc tính số về cùng một thang đo (scale) để tránh các thuộc tính có giá trị lớn hơn lấn át các thuộc tính có giá trị nhỏ hơn trong một số thuật toán (ví dụ: các thuật toán dựa trên khoảng cách như k-NN, SVM).
- Min-Max Scaling: Chuyển đổi giá trị về khoảng [0, 1] hoặc [-1, 1]. Công thức: \[X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}\]
- Z-score Standardization (StandardScaler): Chuyển đổi dữ liệu sao cho có giá trị trung bình là 0 và độ lệch chuẩn là 1. Công thức: \[X_{stand} = \frac{X - \mu}{\sigma}\] Trong đó \(\mu\) là trung bình, \(\sigma\) là độ lệch chuẩn.
Rời rạc hóa (Discretization):
- Chuyển đổi các thuộc tính số liên tục thành các thuộc tính phân loại (rời rạc) bằng cách chia thành các khoảng (bins).
- Hữu ích cho một số thuật toán chỉ làm việc với dữ liệu phân loại hoặc để giảm nhiễu.
Tạo thuộc tính mới (Feature Engineering / Attribute Construction):
- Tạo ra các thuộc tính mới từ các thuộc tính hiện có để làm nổi bật các thông tin quan trọng hơn cho mô hình.
- Ví dụ: Từ ngày sinh có thể tạo ra thuộc tính “Tuổi”; từ chiều dài và chiều rộng có thể tạo ra “Diện tích”.
Tổng hợp (Aggregation):
- Tạo ra các tóm tắt dữ liệu ở mức độ cao hơn. Ví dụ, tính tổng doanh thu theo tháng từ dữ liệu giao dịch hàng ngày.

d. Giảm chiều dữ liệu (Data Reduction / Dimensionality Reduction) – Giới thiệu khái niệm:

Mục tiêu là giảm số lượng thuộc tính (chiều) của tập dữ liệu mà vẫn giữ được tối đa thông tin quan trọng. Điều này giúp:

Giảm độ phức tạp tính toán và thời gian huấn luyện mô hình.
Tránh “lời nguyền của số chiều” (curse of dimensionality), một hiện tượng mà hiệu suất của một số thuật toán giảm khi số chiều tăng cao.
Dễ dàng trực quan hóa dữ liệu hơn.
Các kỹ thuật phổ biến (sẽ được tìm hiểu kỹ hơn ở các chương sau):
- Lựa chọn Đặc trưng (Feature Selection): Chọn ra một tập con các thuộc tính quan trọng nhất từ tập thuộc tính ban đầu.
- Trích xuất Đặc trưng (Feature Extraction): Tạo ra các thuộc tính mới (ít hơn) bằng cách kết hợp hoặc biến đổi các thuộc tính ban đầu (ví dụ: Phân tích Thành phần Chính - Principal Component Analysis - PCA).

[ĐỀ XUẤT HÌNH ẢNH: Một sơ đồ quy trình tiền xử lý dữ liệu với các bước chính: Data Cleaning -> Data Integration -> Data Transformation -> Data Reduction, mỗi bước có một vài kỹ thuật con được liệt kê.]

Quy trình tiền xử lý dữ liệu không phải lúc nào cũng tuần tự một chiều; thường có sự lặp lại và điều chỉnh giữa các bước. Sự lựa chọn các kỹ thuật tiền xử lý cụ thể phụ thuộc vào loại dữ liệu, bài toán AI, và thuật toán sẽ được sử dụng.

4.6 Trực quan hóa Dữ liệu

Sau khi dữ liệu đã được thu thập và tiền xử lý, một bước quan trọng tiếp theo, thường đi song song với quá trình khám phá dữ liệu (Exploratory Data Analysis - EDA), là Trực quan hóa Dữ liệu (Data Visualization). Đây là quá trình biểu diễn dữ liệu và thông tin dưới dạng đồ họa, chẳng hạn như biểu đồ, đồ thị, bản đồ, và các dashboard tương tác.

Tầm quan trọng của Trực quan hóa Dữ liệu:

Bộ não con người có khả năng xử lý thông tin hình ảnh nhanh hơn và hiệu quả hơn nhiều so với việc đọc các bảng số liệu hoặc văn bản dài. Trực quan hóa dữ liệu tận dụng khả năng này để mang lại nhiều lợi ích:

Hiểu Dữ liệu Nhanh chóng và Dễ dàng hơn:
- Trực quan hóa giúp nhanh chóng nắm bắt được các xu hướng (trends), các mẫu (patterns), các điểm ngoại lai (outliers), và các mối quan hệ (relationships) trong dữ liệu mà có thể khó phát hiện khi chỉ nhìn vào các con số thô.
- Ví dụ, một biểu đồ đường có thể dễ dàng cho thấy xu hướng tăng trưởng doanh thu theo thời gian, trong khi một biểu đồ phân tán (scatter plot) có thể tiết lộ mối tương quan giữa hai biến số.
Hỗ trợ Khám phá Dữ liệu (Exploratory Data Analysis - EDA):
- Trong giai đoạn EDA, trực quan hóa là một công cụ không thể thiếu để các nhà phân tích “nói chuyện” với dữ liệu, đặt ra các câu hỏi, hình thành các giả thuyết, và khám phá những hiểu biết ban đầu.
Truyền đạt Thông tin và Kết quả Phân tích một cách Hiệu quả:
- Một hình ảnh trực quan tốt có thể truyền tải một thông điệp phức tạp một cách rõ ràng, súc tích và hấp dẫn hơn nhiều so với một báo cáo toàn chữ.
- Điều này rất quan trọng khi cần trình bày kết quả phân tích cho các bên liên quan không có chuyên môn kỹ thuật (ví dụ: ban lãnh đạo, các phòng ban khác).
Hỗ trợ Ra quyết định Dựa trên Dữ liệu:
- Bằng cách làm cho dữ liệu trở nên dễ hiểu và dễ tiếp cận hơn, trực quan hóa giúp các nhà quản lý đưa ra quyết định nhanh chóng và sáng suốt hơn dựa trên bằng chứng từ dữ liệu.
Kể chuyện bằng Dữ liệu (Data Storytelling):
- Trực quan hóa có thể được sử dụng để xây dựng một câu chuyện mạch lạc từ dữ liệu, dẫn dắt người xem qua các phát hiện quan trọng và đi đến kết luận.
Phát hiện Lỗi và Vấn đề trong Dữ liệu:
- Đôi khi, việc trực quan hóa có thể giúp phát hiện ra các lỗi, sự không nhất quán, hoặc các điểm bất thường trong dữ liệu mà các phương pháp kiểm tra khác có thể bỏ qua.

Các loại biểu đồ phổ biến và trường hợp sử dụng:

Có rất nhiều loại biểu đồ khác nhau, mỗi loại phù hợp với việc biểu diễn một khía cạnh cụ thể của dữ liệu. Dưới đây là một số loại phổ biến:

Biểu đồ Đường (Line Chart):
- Mô tả: Hiển thị dữ liệu dưới dạng các điểm được nối với nhau bằng các đoạn thẳng.
- Sử dụng: Thường dùng để theo dõi sự thay đổi của một biến số liên tục theo thời gian (ví dụ: doanh thu theo tháng, giá cổ phiếu theo ngày, nhiệt độ theo giờ).
Biểu đồ Cột (Bar Chart / Column Chart):
- Mô tả: Sử dụng các cột hình chữ nhật (dọc hoặc ngang) có chiều dài hoặc chiều cao tỷ lệ với giá trị mà chúng biểu diễn.
- Sử dụng: So sánh giá trị giữa các danh mục khác nhau (ví dụ: doanh số bán hàng của các sản phẩm khác nhau, số lượng nhân viên của các phòng ban, kết quả khảo sát cho các lựa chọn khác nhau).
Biểu đồ Tròn (Pie Chart):
- Mô tả: Chia một hình tròn thành các “lát bánh”, mỗi lát biểu diễn tỷ lệ phần trăm của một danh mục trong tổng thể.
- Sử dụng: Hiển thị tỷ trọng của các phần trong một tổng thể. Tuy nhiên, nên cẩn thận khi có quá nhiều danh mục vì có thể khó so sánh.
Biểu đồ Phân tán (Scatter Plot):
- Mô tả: Sử dụng các điểm để biểu diễn giá trị của hai biến số. Vị trí của mỗi điểm trên trục hoành và trục tung tương ứng với giá trị của hai biến đó cho một bản ghi.
- Sử dụng: Khám phá mối quan hệ hoặc tương quan giữa hai biến số liên tục (ví dụ: mối quan hệ giữa chi tiêu quảng cáo và doanh thu, chiều cao và cân nặng). Có thể thêm một biến thứ ba thông qua màu sắc hoặc kích thước của điểm.
Biểu đồ Hộp (Box Plot / Box-and-Whisker Plot):
- Mô tả: Hiển thị sự phân bố của dữ liệu số thông qua các giá trị tứ phân vị (quartiles), trung vị (median), và các điểm ngoại lai.
- Sử dụng: So sánh sự phân bố của một biến số giữa các nhóm khác nhau, phát hiện điểm ngoại lai.
Biểu đồ Tần suất (Histogram):
- Mô tả: Tương tự biểu đồ cột, nhưng được sử dụng để hiển thị sự phân bố tần suất của một biến số liên tục bằng cách chia dữ liệu thành các khoảng (bins) liên tiếp và đếm số lượng quan sát rơi vào mỗi khoảng.
- Sử dụng: Hiểu hình dạng phân phối của dữ liệu (ví dụ: phân phối chuẩn, lệch trái, lệch phải).
Bản đồ Nhiệt (Heatmap):
- Mô tả: Biểu diễn giá trị trong một ma trận bằng màu sắc. Các giá trị cao hơn thường được biểu thị bằng màu nóng hơn (ví dụ: đỏ, cam) và các giá trị thấp hơn bằng màu lạnh hơn (ví dụ: xanh dương, xanh lá).
- Sử dụng: Phát hiện các mẫu hoặc cụm trong dữ liệu dạng bảng lớn, ví dụ như ma trận tương quan, ma trận hành vi người dùng.
Bản đồ Địa lý (Geographic Map):
- Mô tả: Hiển thị dữ liệu trên một bản đồ địa lý, sử dụng màu sắc, kích thước điểm, hoặc các biểu tượng khác để biểu diễn giá trị tại các vị trí khác nhau.
- Sử dụng: Phân tích dữ liệu không gian, ví dụ như mật độ dân số, tỷ lệ tội phạm theo khu vực, vị trí khách hàng.

[ĐỀ XUẤT HÌNH ẢNH: Một collage gồm các ví dụ nhỏ về các loại biểu đồ phổ biến đã nêu: Line Chart, Bar Chart, Pie Chart, Scatter Plot, Box Plot, Histogram, Heatmap.]

Việc lựa chọn loại biểu đồ phù hợp phụ thuộc vào loại dữ liệu bạn có, câu chuyện bạn muốn kể, và đối tượng người xem của bạn. Các công cụ như Orange Data Mining, Microsoft Excel, Tableau, Power BI, và các thư viện Python (Matplotlib, Seaborn, Plotly) cung cấp nhiều khả năng để tạo ra các trực quan hóa dữ liệu hiệu quả. Trong phần thực hành của chương này, chúng ta sẽ làm quen với một số công cụ trực quan hóa cơ bản trong Orange.

4.7 Thực hành với Orange Data Mining

Phần này sẽ hướng dẫn các bước thực hành cơ bản với công cụ Orange Data Mining, tập trung vào các thao tác liên quan đến dữ liệu đã được học trong chương: Tải dữ liệu, khám phá dữ liệu ban đầu, thực hiện một số kỹ thuật tiền xử lý đơn giản và trực quan hóa dữ liệu.

4.7.1 Hướng dẫn Cài đặt và Làm với Orange Data Mining

Như đã giới thiệu ở Chương 1, Orange Data Mining là một công cụ phân tích dữ liệu và học máy trực quan, mã nguồn mở. Nếu bạn chưa cài đặt, hãy thực hiện các bước sau:

Tải xuống: Truy cập trang web chính thức https://orangedatamining.com/download/. Chọn phiên bản phù hợp với hệ điều hành của bạn (Windows, macOS, hoặc Linux) và tải về bộ cài đặt.
Cài đặt: Chạy tệp cài đặt và làm theo các hướng dẫn trên màn hình. Quá trình cài đặt thường khá đơn giản.
Khởi động Orange: Sau khi cài đặt hoàn tất, khởi động Orange. Bạn sẽ thấy giao diện chính.

Giao diện chính của Orange bao gồm các thành phần chính:

Canvas (Vùng làm việc): Đây là không gian chính nơi bạn sẽ xây dựng các quy trình làm việc (workflows) bằng cách kéo thả và kết nối các widget.
Widgets Toolbox (Hộp công cụ Widgets): Nằm ở phía bên trái, chứa danh sách các widget được sắp xếp theo danh mục (Data, Visualize, Model, Evaluate, Unsupervised, Add-ons). Mỗi widget thực hiện một chức năng cụ thể.
Thanh Menu (Menu Bar): Nằm ở phía trên cùng, chứa các menu như File (để mở, lưu workflow), Edit, View, Options, Help.
Khu vực Báo cáo (Report Area - tùy chọn): Có thể được kích hoạt để tạo báo cáo tự động từ workflow.

[ĐỀ XUẤT HÌNH ẢNH: Ảnh chụp màn hình giao diện chính của Orange, với các khu vực Canvas, Widgets Toolbox được đánh dấu rõ ràng.]

4.7.2 Bài tập tải dữ liệu

Mục tiêu: Làm quen với việc tải các định dạng tệp dữ liệu phổ biến vào Orange và sử dụng các widget để xem thông tin tổng quan về tập dữ liệu.

Bước 1: Chuẩn bị tệp dữ liệu mẫu

Bạn có thể sử dụng các tệp dữ liệu mẫu đi kèm với Orange hoặc tải một tệp CSV/Excel đơn giản từ Internet. Ví dụ, tìm kiếm “iris dataset csv” hoặc “titanic dataset csv”.
Giả sử chúng ta có một tệp iris.csv.

Bước 2: Tải dữ liệu bằng Widget “File”

Trong Widgets Toolbox, tìm đến danh mục Data.
Kéo widget File thả vào Canvas.
Nháy đúp chuột vào widget File vừa kéo ra. Một hộp thoại sẽ xuất hiện.
Nhấn vào biểu tượng thư mục (Folder icon) hoặc nút “Browse” để tìm đến vị trí lưu tệp iris.csv trên máy tính của bạn và chọn nó.
Orange sẽ cố gắng tự động nhận diện các cột và kiểu dữ liệu. Bạn có thể xem trước dữ liệu và thông tin về các cột (tên, kiểu - numeric, categorical, string, datetime; vai trò - feature, target, meta, skip).
- Feature (Đặc trưng): Các biến độc lập được sử dụng để dự đoán.
- Target (Mục tiêu): Biến phụ thuộc mà chúng ta muốn dự đoán.
- Meta (Siêu dữ liệu): Các thông tin bổ sung, không dùng trực tiếp trong mô hình hóa.
- Skip (Bỏ qua): Cột không được sử dụng.
Đảm bảo các cột được nhận diện đúng vai trò. Ví dụ, trong bộ Iris, các cột sepal length, sepal width, petal length, petal width là features, còn cột iris (loài hoa) là target.
Nhấn “Apply” hoặc “OK”. Widget File bây giờ đã chứa dữ liệu.

[ĐỀ XUẤT HÌNH ẢNH: Ảnh chụp màn hình widget File sau khi đã tải tệp iris.csv, hiển thị thông tin về các cột và vai trò của chúng.]

Bước 3: Khám phá dữ liệu bằng Widget “Data Table” và “Data Info”

Kéo widget Data Table từ danh mục Data vào Canvas.
Nối đầu ra (output) của widget File với đầu vào (input) của widget Data Table bằng cách nháy chuột vào cổng ra của File rồi kéo một đường nối đến cổng vào của Data Table.
Double click vào widget Data Table. Bạn sẽ thấy toàn bộ dữ liệu được hiển thị dưới dạng bảng.
Kéo widget Data Info từ danh mục Data vào Canvas.
Nối đầu ra của widget File với đầu vào của widget Data Info.
Nháy đúp chuột vào widget Data Info. Widget này sẽ hiển thị thông tin tóm tắt về tập dữ liệu:
- Tên tập dữ liệu (Dataset name)
- Số hàng (Number of instances / rows)
- Số cột (Number of features / columns)
- Số lượng các đặc trưng (features), biến mục tiêu (target), siêu dữ liệu (meta).
- Thông tin về các giá trị thiếu (Missing values).

[ĐỀ XUẤT HÌNH ẢNH: Ảnh chụp màn hình Canvas với widget File nối với Data Table và Data Info. Bên cạnh là cửa sổ của Data Table và Data Info hiển thị thông tin của bộ Iris.]

4.7.3 Bài tập thực hành tiền xử lý dữ liệu đơn giản

Mục tiêu: Làm quen với một số widget tiền xử lý cơ bản trong Orange.

Bước 1: Tạo dữ liệu có giá trị thiếu (nếu cần)

Nếu tập dữ liệu của bạn không có giá trị thiếu, bạn có thể thử xóa một vài giá trị trong tệp CSV/Excel gốc để thực hành. Hoặc, Orange có widget Create Class (trong mục Data) cho phép bạn tạo ra dữ liệu thiếu một cách nhân tạo cho mục đích thử nghiệm, nhưng điều này có thể hơi phức tạp cho người mới. Cách đơn giản là chuẩn bị một file có sẵn giá trị thiếu.
Giả sử chúng ta có một tệp data_with_missing.csv.

Bước 2: Xử lý giá trị thiếu bằng Widget “Impute”

Tải tệp data_with_missing.csv bằng widget File.
Kéo widget Impute từ danh mục Transform vào Canvas.
Nối widget File với widget Impute.
Nháy đúp chuột vào widget Impute. Bạn sẽ thấy các tùy chọn để xử lý giá trị thiếu:
- Default method: Phương pháp mặc định cho tất cả các cột.
- Bạn có thể chọn các phương pháp khác nhau cho từng cột cụ thể:
  - Do not impute: Giữ nguyên giá trị thiếu.
  - Average/Most frequent: Điền bằng giá trị trung bình (cho số) hoặc giá trị xuất hiện nhiều nhất (cho phân loại).
  - As a distinct value: Coi giá trị thiếu là một giá trị riêng biệt.
  - Remove instances with missing values: Xóa các hàng có giá trị thiếu.
  - Model-based imputer: Sử dụng mô hình để dự đoán giá trị thiếu.
Thử chọn “Average/Most frequent” làm phương pháp mặc định.
Nối widget Impute với một widget Data Table mới để xem kết quả. So sánh với dữ liệu gốc (nối widget File trực tiếp với một Data Table khác).

[ĐỀ XUẤT HÌNH ẢNH: Ảnh chụp màn hình widget Impute với các tùy chọn và một workflow minh họa File -> Impute -> Data Table.]

Bước 3: Lọc dữ liệu bằng Widget “Select Rows”

Sử dụng lại tập dữ liệu iris.csv đã tải ở phần trước (hoặc bất kỳ tập dữ liệu nào bạn có).
Kéo widget Select Rows từ danh mục Data vào Canvas.
Nối widget File với widget Select Rows.
Nháy đúp chuột vào widget Select Rows. Widget này cho phép bạn định nghĩa các điều kiện để lọc các hàng.
Trong mục “Conditions”, bạn có thể thêm các điều kiện. Ví dụ, để chọn các bông hoa Iris có sepal length > 5.0 VÀ petal width < 1.0:
- Chọn cột sepal length, toán tử >, nhập giá trị 5.0.
- Nhấn nút “Add” để thêm điều kiện thứ hai.
- Chọn cột petal width, toán tử <, nhập giá trị 1.0.
- Đảm bảo toán tử logic giữa hai điều kiện là “And”.
Nối đầu ra “Matching Data” của widget Select Rows với một widget Data Table để xem các hàng thỏa mãn điều kiện. Bạn cũng có thể nối đầu ra “Unmatched Data” để xem các hàng không thỏa mãn.

[ĐỀ XUẤT HÌNH ẢNH: Ảnh chụp màn hình widget Select Rows với ví dụ điều kiện lọc và một workflow minh họa File -> Select Rows -> Data Table (Matching Data).]

4.7.4 Bài tập thực hành trực quan hóa dữ liệu

Mục tiêu: Làm quen với việc sử dụng các widget trực quan hóa trong Orange để khám phá dữ liệu.

Bước 1: Sử dụng tập dữ liệu iris.csv

Đảm bảo widget File đã tải tệp iris.csv.

Bước 2: Sử dụng Widget “Distributions” (Phân phối)

Kéo widget Distributions từ danh mục Visualize vào Canvas.
Nối widget File với widget Distributions.
Nháy đúp chuột vào widget Distributions. Widget này sẽ hiển thị biểu đồ tần suất (histogram) cho các thuộc tính số (features) và biểu đồ cột cho các thuộc tính phân loại (categorical features), bao gồm cả biến mục tiêu (target).
Bạn có thể chọn các thuộc tính khác nhau từ danh sách bên trái để xem phân phối của chúng.
Thử nghiệm với các tùy chọn như “Split by” (ví dụ: chia theo biến iris) để xem phân phối của một feature cho từng loài hoa.

[ĐỀ XUẤT HÌNH ẢNH: Ảnh chụp màn hình widget Distributions hiển thị phân phối của một vài thuộc tính trong bộ Iris, có thể có "Split by" iris.]

Bước 3: Sử dụng Widget “Scatter Plot” (Biểu đồ Phân tán)

Kéo widget Scatter Plot từ danh mục Visualize vào Canvas.
Nối widget File với widget Scatter Plot.
Nháy đúp chuột vào widget Scatter Plot.
Ở bên trái, bạn có thể chọn các thuộc tính cho trục X (X-axis) và trục Y (Y-axis). Ví dụ, chọn sepal length cho trục X và sepal width cho trục Y.
Bạn có thể thay đổi màu sắc của các điểm dựa trên một thuộc tính phân loại (ví dụ: chọn iris cho mục “Color”).
Thử nghiệm với các tùy chọn khác như “Shape” (Hình dạng điểm), “Size” (Kích thước điểm), hiển thị đường hồi quy (“Show regression line”).

[ĐỀ XUẤT HÌNH ẢNH: Ảnh chụp màn hình widget Scatter Plot hiển thị mối quan hệ giữa sepal length và sepal width, các điểm được tô màu theo loài hoa Iris.]

Bước 4: Sử dụng Widget “Box Plot” (Biểu đồ Hộp)

Kéo widget Box Plot từ danh mục Visualize vào Canvas.
Nối widget File với widget Box Plot.
Nháy đúp chuột vào widget Box Plot.
Chọn một hoặc nhiều thuộc tính số từ danh sách “Variables” để hiển thị dưới dạng biểu đồ hộp.
Sử dụng mục “Group by” để so sánh phân phối của các biến này giữa các nhóm khác nhau (ví dụ: nhóm theo biến iris).
Quan sát các giá trị tứ phân vị, trung vị và các điểm ngoại lai (nếu có).

[ĐỀ XUẤT HÌNH ẢNH: Ảnh chụp màn hình widget Box Plot hiển thị phân phối của petal length cho từng loài hoa Iris.]

Thử nghiệm thêm:

Khám phá các widget trực quan hóa khác như Line Plot, Bar Plot, Pie Chart (nếu phù hợp với dữ liệu của bạn).
Thử kết nối các widget tiền xử lý (ví dụ: Select Rows, Impute) với các widget trực quan hóa để xem dữ liệu thay đổi như thế nào sau khi xử lý.

Thông qua các bài tập thực hành này, bạn đã có những bước làm quen ban đầu với việc xử lý và khám phá dữ liệu bằng Orange Data Mining. Trong các chương tiếp theo, chúng ta sẽ tiếp tục sử dụng Orange để xây dựng và đánh giá các mô hình học máy.

4.8 Tóm tắt chương 3

Chương 3 đã tập trung vào vai trò trung tâm của dữ liệu trong lĩnh vực Trí tuệ Nhân tạo và các khía cạnh quan trọng liên quan đến việc quản lý, xử lý và phân tích dữ liệu trong môi trường kinh doanh.

Chương bắt đầu bằng việc tái khẳng định dữ liệu là nền tảng thiết yếu của AI, ví như “mạch máu” không thể thiếu, đồng thời chỉ ra những thách thức cố hữu trong toàn bộ vòng đời của dữ liệu, từ thu thập, lưu trữ, đảm bảo chất lượng đến các vấn đề bảo mật, quyền riêng tư và chi phí.

Tiếp theo, chương đã phân loại chi tiết các loại dữ liệu chính: dữ liệu có cấu trúc (bảng biểu, con số), dữ liệu phi cấu trúc (văn bản, hình ảnh, âm thanh, video), và dữ liệu bán cấu trúc (JSON, XML), cùng với các đặc điểm và ví dụ minh họa cụ thể trong doanh nghiệp. Việc hiểu rõ các loại dữ liệu này giúp lựa chọn phương pháp xử lý phù hợp.

Chương cũng khám phá các nguồn và cách thức thu thập dữ liệu cho AI, bao gồm việc khai thác dữ liệu nội bộ (từ CRM, ERP, website, IoT…), tiếp cận dữ liệu bên ngoài (từ đối tác, nhà cung cấp dữ liệu thương mại, mạng xã hội công cộng), và tận dụng sức mạnh của dữ liệu mở (Open Data) cũng như Giao diện Lập trình Ứng dụng (API) để truy cập dữ liệu một cách có cấu trúc và tự động.

Một khái niệm quan trọng được giới thiệu là Dữ liệu lớn (Big Data), với việc làm rõ định nghĩa và các đặc tính cốt lõi (5Vs): Volume, Velocity, Variety, Veracity, và Value. Vai trò của Big Data trong việc thúc đẩy một số loại hình AI tiên tiến, đặc biệt là Học sâu, đã được nhấn mạnh, cùng với những thách thức và hạn chế khi làm việc với khối lượng dữ liệu khổng lồ này.

Tầm quan trọng của chất lượng dữ liệu và nguyên tắc “Garbage In, Garbage Out” (GIGO) đã được khẳng định. Chương đã trình bày chi tiết các bước cơ bản trong quy trình tiền xử lý dữ liệu, bao gồm làm sạch dữ liệu (xử lý giá trị thiếu, dữ liệu nhiễu, điểm ngoại lai), tích hợp dữ liệu từ nhiều nguồn, biến đổi dữ liệu (chuẩn hóa, rời rạc hóa, tạo thuộc tính mới), và giới thiệu khái niệm giảm chiều dữ liệu.

Cuối cùng, chương đã giới thiệu về Trực quan hóa Dữ liệu (Data Visualization) như một công cụ mạnh mẽ để hiểu dữ liệu, khám phá các mẫu ẩn, và truyền đạt kết quả phân tích một cách hiệu quả, cùng với việc điểm qua các loại biểu đồ phổ biến. Phần thực hành với Orange Data Mining đã cung cấp cho người học những trải nghiệm thực tế đầu tiên về việc tải dữ liệu, khám phá thông tin cơ bản, thực hiện các thao tác tiền xử lý đơn giản và sử dụng các widget trực quan hóa.

Nhìn chung, Chương 3 trang bị cho người học những kiến thức và kỹ năng nền tảng vững chắc về dữ liệu – yếu tố then chốt để có thể tiếp cận và ứng dụng thành công Trí tuệ Nhân tạo trong các chương tiếp theo của giáo trình.

Tuyệt vời! Chúng ta sẽ tiếp tục với phần Case Study và Bài tập cho Chương 3. Tôi sẽ đảm bảo các tình huống và câu hỏi được thiết kế để củng cố kiến thức về dữ liệu, phân tích dữ liệu và các kỹ năng thực hành với Orange.

4.9 Case Study

Các tình huống nghiên cứu dưới đây tập trung vào các khía cạnh khác nhau của dữ liệu trong bối cảnh kinh doanh và ứng dụng AI, bao gồm các loại dữ liệu, nguồn thu thập, thách thức về chất lượng, và tầm quan trọng của tiền xử lý cũng như trực quan hóa.

Case Study 3.1: “RetailInsight” – Phân tích Dữ liệu Bán lẻ Tổng hợp

Bối cảnh: RetailInsight là một chuỗi siêu thị lớn với hàng trăm cửa hàng. Họ muốn hiểu rõ hơn về hành vi mua sắm của khách hàng, tối ưu hóa việc sắp xếp hàng hóa và các chương trình khuyến mãi.
Các loại dữ liệu và nguồn thu thập:
1. Dữ liệu Giao dịch (Có cấu trúc): Từ hệ thống POS tại mỗi cửa hàng, bao gồm: mã hóa đơn, thời gian giao dịch, mã sản phẩm, số lượng, giá bán, thông tin thẻ thành viên (nếu có).
2. Dữ liệu Khách hàng Thân thiết (Có cấu trúc): Từ hệ thống CRM, bao gồm: thông tin nhân khẩu học (tuổi, giới tính, địa chỉ - nếu khách hàng cung cấp), lịch sử mua hàng tổng hợp, điểm tích lũy.
3. Dữ liệu Tồn kho (Có cấu trúc): Từ hệ thống quản lý kho, bao gồm: số lượng tồn của mỗi sản phẩm tại từng cửa hàng, thông tin nhà cung cấp.
4. Dữ liệu từ Camera An ninh (Phi cấu trúc - Video): Ghi lại dòng người di chuyển trong cửa hàng, khu vực khách hàng dừng lại lâu nhất (có thể được phân tích bằng Thị giác Máy tính để trích xuất dữ liệu bán cấu trúc về mật độ).
5. Phản hồi Khách hàng (Phi cấu trúc - Văn bản): Từ các hòm thư góp ý, email, bình luận trên trang mạng xã hội của siêu thị.
6. Dữ liệu Thời tiết (Bên ngoài - Có thể là Bán cấu trúc qua API): Thu thập thông tin thời tiết hàng ngày tại các địa điểm có cửa hàng.
Mục tiêu Phân tích và Ứng dụng AI tiềm năng:
- Phân tích giỏ hàng (Market Basket Analysis): Tìm ra các sản phẩm thường được mua cùng nhau để tối ưu việc sắp xếp hàng hóa và tạo các combo khuyến mãi. (Sử dụng dữ liệu giao dịch)
- Phân khúc khách hàng: Nhóm các khách hàng có hành vi mua sắm tương tự để đưa ra các chiến dịch marketing cá nhân hóa. (Sử dụng dữ liệu CRM và giao dịch)
- Dự báo nhu cầu sản phẩm: Dự đoán lượng bán của từng sản phẩm để tối ưu hóa tồn kho, tránh hết hàng hoặc dư thừa. (Sử dụng dữ liệu giao dịch, tồn kho, thời tiết, sự kiện)
- Phân tích cảm xúc khách hàng: Đánh giá thái độ của khách hàng đối với sản phẩm, dịch vụ, các chương trình khuyến mãi. (Sử dụng dữ liệu phản hồi)
- Tối ưu hóa bố cục cửa hàng (Store Layout Optimization): Phân tích luồng di chuyển của khách hàng để sắp xếp các quầy kệ hợp lý hơn. (Sử dụng dữ liệu từ camera – sau khi được xử lý)
Thách thức về Dữ liệu:
- Tích hợp dữ liệu: Kết hợp dữ liệu từ nhiều hệ thống khác nhau (POS, CRM, kho).
- Chất lượng dữ liệu giao dịch: Có thể có lỗi nhập liệu, mã sản phẩm không nhất quán.
- Xử lý dữ liệu phi cấu trúc: Phân tích video từ camera và văn bản phản hồi đòi hỏi các kỹ thuật AI chuyên biệt (CV, NLP) và có thể tốn kém.
- Quyền riêng tư: Đảm bảo việc thu thập và sử dụng dữ liệu khách hàng tuân thủ các quy định về quyền riêng tư.
Câu hỏi thảo luận:
1. Đối với mục tiêu “Phân tích giỏ hàng”, loại dữ liệu nào là quan trọng nhất và tại sao? Những bước tiền xử lý nào có thể cần thiết cho loại dữ liệu đó trước khi phân tích?
2. RetailInsight muốn sử dụng dữ liệu từ camera an ninh để hiểu cách khách hàng di chuyển trong cửa hàng. Đây là dữ liệu phi cấu trúc. Làm thế nào họ có thể chuyển đổi dữ liệu này thành dạng có thể phân tích được (ví dụ: tạo ra “bản đồ nhiệt” về mật độ khách hàng)? Những thách thức về quyền riêng tư là gì?
3. Nếu RetailInsight muốn dự báo doanh số bán kem dựa trên dữ liệu thời tiết, họ sẽ cần những bước nào để thu thập và tích hợp dữ liệu thời tiết với dữ liệu bán hàng nội bộ?
4. Nêu một ví dụ về cách trực quan hóa dữ liệu có thể giúp RetailInsight hiểu rõ hơn về hiệu quả của một chương trình khuyến mãi cụ thể.

Case Study 3.2: “HealthTrack” – Ứng dụng Di động Theo dõi Sức khỏe Cá nhân

Bối cảnh: HealthTrack là một ứng dụng di động cho phép người dùng theo dõi các chỉ số sức khỏe cá nhân như số bước chân, giấc ngủ, nhịp tim (từ thiết bị đeo), lượng calo tiêu thụ (người dùng tự nhập), và tâm trạng. Mục tiêu của HealthTrack là cung cấp cho người dùng những hiểu biết về sức khỏe của họ và gợi ý các hành động cải thiện.
Các loại dữ liệu và nguồn thu thập:
1. Dữ liệu Hoạt động Thể chất (Có cấu trúc/Bán cấu trúc): Từ cảm biến trên điện thoại hoặc thiết bị đeo (smartwatch, fitness tracker) thông qua API: số bước chân, quãng đường, thời gian hoạt động, loại hình hoạt động (đi bộ, chạy, đạp xe).
2. Dữ liệu Giấc ngủ (Có cấu trúc/Bán cấu trúc): Từ thiết bị đeo: thời gian ngủ, các giai đoạn giấc ngủ (ngủ nông, ngủ sâu, REM), số lần thức giấc.
3. Dữ liệu Nhịp tim (Có cấu trúc - Chuỗi thời gian): Từ thiết bị đeo: nhịp tim lúc nghỉ, nhịp tim khi vận động.
4. Dữ liệu Dinh dưỡng (Phi cấu trúc -> Có cấu trúc): Người dùng tự nhập thông tin về các bữa ăn (tên món ăn, hình ảnh). Ứng dụng có thể sử dụng AI (Thị giác Máy tính, NLP) để phân tích và ước tính lượng calo, chất dinh dưỡng.
5. Dữ liệu Tâm trạng (Có cấu trúc - Thang đo hoặc Phi cấu trúc - Nhật ký): Người dùng tự đánh giá tâm trạng theo thang điểm hoặc viết nhật ký ngắn.
6. Thông tin Nhân khẩu học và Mục tiêu (Có cấu trúc): Tuổi, giới tính, cân nặng, chiều cao, mục tiêu sức khỏe (giảm cân, tăng cường thể lực) do người dùng cung cấp khi đăng ký.
Quy trình Tiền xử lý Dữ liệu:
- Làm sạch dữ liệu cảm biến: Loại bỏ các giá trị nhiễu hoặc không hợp lý (ví dụ: nhịp tim quá cao hoặc quá thấp đột ngột).
- Xử lý giá trị thiếu: Nếu người dùng quên nhập dữ liệu dinh dưỡng hoặc không đeo thiết bị liên tục.
- Chuẩn hóa đơn vị: Đảm bảo các đơn vị đo lường nhất quán (ví dụ: kg vs. lbs).
- Trích xuất đặc trưng từ dữ liệu phi cấu trúc:
  - Phân tích hình ảnh bữa ăn để nhận diện món ăn và ước tính calo.
  - Phân tích nhật ký tâm trạng bằng NLP để trích xuất các từ khóa cảm xúc.
- Tạo thuộc tính mới: Ví dụ, tính toán lượng calo thâm hụt/dư thừa hàng ngày, chỉ số BMI.
Trực quan hóa Dữ liệu cho Người dùng:
- Biểu đồ đường hiển thị xu hướng số bước chân, thời gian ngủ, nhịp tim theo ngày/tuần/tháng.
- Biểu đồ tròn hiển thị tỷ lệ các chất dinh dưỡng đa lượng (carb, protein, fat).
- Dashboard tổng hợp các chỉ số sức khỏe quan trọng.
Câu hỏi thảo luận:
1. Đối với dữ liệu dinh dưỡng do người dùng tự nhập dưới dạng văn bản mô tả bữa ăn, những thách thức nào trong việc chuyển đổi nó thành dữ liệu có cấu trúc (ví dụ: lượng calo, protein, carb, fat)? Những kỹ thuật AI nào có thể hỗ trợ?
2. Nêu một ví dụ về “dữ liệu nhiễu” có thể xuất hiện từ cảm biến trên thiết bị đeo và cách HealthTrack có thể xử lý nó.
3. HealthTrack muốn gửi thông báo cho người dùng nếu phát hiện họ có xu hướng ngủ ít hơn 6 tiếng/ngày trong một tuần liên tiếp. Để làm điều này, ứng dụng cần thực hiện những bước nào liên quan đến thu thập, tiền xử lý và phân tích dữ liệu giấc ngủ?
4. Nếu HealthTrack muốn sử dụng dữ liệu của nhiều người dùng (sau khi đã ẩn danh và có sự đồng ý) để tìm ra mối tương quan giữa thời lượng ngủ trung bình và mức độ căng thẳng (tự báo cáo), họ cần lưu ý những vấn đề gì về chất lượng và tính nhất quán của dữ liệu?

Case Study 3.3: “GlobalNews Corp” – Phân tích Xu hướng Tin tức từ Dữ liệu Mở và Mạng Xã hội

Bối cảnh: GlobalNews Corp là một tổ chức truyền thông lớn muốn nhanh chóng nắm bắt các sự kiện và chủ đề đang nổi lên trên toàn cầu để có những bài viết và phân tích kịp thời, thu hút độc giả.
Nguồn Dữ liệu:
1. API của các Hãng thông tấn lớn (Bên ngoài - Bán cấu trúc): Truy cập vào luồng tin tức (headlines, tóm tắt, toàn văn) từ Reuters, Associated Press, AFP.
2. Dữ liệu từ Twitter/X API (Bên ngoài - Bán cấu trúc/Phi cấu trúc): Theo dõi các hashtag (#) thịnh hành, các bài đăng từ các tài khoản có ảnh hưởng, và các từ khóa liên quan đến các sự kiện nóng.
3. Dữ liệu từ Google Trends (Bên ngoài - Có cấu trúc/Bán cấu trúc): Theo dõi xu hướng tìm kiếm cho các chủ đề cụ thể theo thời gian và địa điểm.
4. Dữ liệu từ các Cổng Dữ liệu Mở của Chính phủ và Tổ chức Quốc tế (Bên ngoài - Thường là Có cấu trúc): Ví dụ, dữ liệu về các cuộc bầu cử, xung đột, thảm họa thiên nhiên, các chỉ số kinh tế.
5. Dữ liệu từ các diễn đàn trực tuyến và blog (Bên ngoài - Phi cấu trúc): Cào dữ liệu (web scraping) từ các nguồn này để nắm bắt các cuộc thảo luận chuyên sâu hoặc các quan điểm đa chiều.
Thách thức về Dữ liệu và Tiền xử lý:
- Volume và Velocity: Lượng tin tức và bài đăng mạng xã hội được tạo ra mỗi giây là khổng lồ và tốc độ rất nhanh. Cần hệ thống thu thập và xử lý theo thời gian thực hoặc gần thời gian thực.
- Variety: Dữ liệu từ nhiều nguồn với các định dạng khác nhau (văn bản, hình ảnh, video ngắn), ngôn ngữ khác nhau.
- Veracity: Tin giả, tin đồn, thông tin sai lệch lan truyền rất nhanh trên mạng xã hội. Việc xác minh tính xác thực là một thách thức lớn.
- Làm sạch dữ liệu văn bản: Loại bỏ nhiễu (ký tự đặc biệt, URL), chuẩn hóa văn bản, xử lý tiếng lóng, từ viết tắt.
- Phát hiện Chủ đề (Topic Modeling) và Phân cụm Tin tức: Nhóm các tin bài và bài đăng liên quan đến cùng một sự kiện hoặc chủ đề.
- Phân tích Cảm xúc và Quan điểm: Xác định thái độ của công chúng đối với một sự kiện hoặc nhân vật.
Ứng dụng AI:
- Sử dụng NLP để phân tích nội dung văn bản, tóm tắt tin tức, dịch thuật.
- Sử dụng Học máy để phân loại tin tức theo chủ đề, phát hiện tin giả (ở một mức độ).
- Tạo ra các dashboard trực quan hóa các xu hướng đang nổi, các điểm nóng trên bản đồ thế giới.
Câu hỏi thảo luận:
1. Làm thế nào GlobalNews Corp có thể sử dụng API của Twitter để theo dõi một sự kiện cụ thể đang diễn ra, ví dụ như một hội nghị thượng đỉnh quốc tế? Họ cần xác định những từ khóa hoặc hashtag nào?
2. “Tính xác thực” (Veracity) là một thách thức lớn với dữ liệu từ mạng xã hội. GlobalNews Corp có thể áp dụng những biện pháp nào (cả thủ công và tự động bằng AI) để cố gắng kiểm chứng thông tin trước khi đưa tin?
3. Nếu GlobalNews Corp muốn phân tích cảm xúc của công chúng Việt Nam trên Facebook về một chính sách mới của chính phủ (giả sử họ có quyền truy cập dữ liệu một cách hợp pháp), họ sẽ cần những bước tiền xử lý nào cho dữ liệu văn bản tiếng Việt trước khi áp dụng các mô hình phân tích cảm xúc?
4. Hãy đề xuất một loại biểu đồ trực quan hóa mà GlobalNews Corp có thể sử dụng để hiển thị sự thay đổi về mức độ quan tâm (ví dụ: số lượng bài đăng, lượt tìm kiếm) đối với 3 chủ đề tin tức khác nhau trong một tuần qua.

Case Study 3.4: “FinSecure” – Xây dựng Mô hình Chấm điểm Tín dụng Khách hàng Cá nhân

Bối cảnh: FinSecure là một công ty Fintech muốn xây dựng một mô hình chấm điểm tín dụng (credit scoring) chính xác hơn và bao trùm hơn so với các phương pháp truyền thống, đặc biệt cho những người có ít lịch sử tín dụng (thin-file customers).
Các Nguồn Dữ liệu Tiềm năng:
1. Dữ liệu Giao dịch Ngân hàng (Nội bộ/Từ đối tác - Có cấu trúc): Lịch sử gửi tiền, rút tiền, thanh toán hóa đơn, các khoản vay hiện tại (nếu có).
2. Dữ liệu Lịch sử Tín dụng Truyền thống (Bên ngoài - Có cấu trúc): Từ các trung tâm thông tin tín dụng (ví dụ: CIC ở Việt Nam) về các khoản vay trước đây, tình trạng trả nợ.
3. Dữ liệu Nhân khẩu học (Nội bộ/Bên ngoài - Có cấu trúc): Tuổi, trình độ học vấn, tình trạng hôn nhân, nghề nghiệp, thu nhập (tự khai báo hoặc ước tính).
4. Dữ liệu từ Hành vi Sử dụng Viễn thông (Bên ngoài/Từ đối tác - Có cấu trúc/Bán cấu trúc): Lịch sử nạp tiền điện thoại trả trước, thời gian sử dụng dịch vụ, các gói cước đã đăng ký.
5. Dữ liệu từ Hành vi Trực tuyến (Bên ngoài - Cần sự đồng ý rõ ràng và cân nhắc đạo đức): Lịch sử duyệt web, hành vi mua sắm trực tuyến, hoạt động trên mạng xã hội (chỉ những dữ liệu công khai và liên quan).
6. Dữ liệu từ các Bài kiểm tra Tâm lý/Hành vi (Nội bộ - Có cấu trúc): Nếu FinSecure có các bài kiểm tra ngắn để đánh giá một số đặc điểm hành vi liên quan đến khả năng quản lý tài chính.
Thách thức về Chất lượng Dữ liệu và Tiền xử lý:
- Giá trị thiếu: Nhiều khách hàng có thể không có đầy đủ tất cả các loại dữ liệu trên (ví dụ: không có lịch sử tín dụng, không dùng dịch vụ viễn thông trả sau).
- Tính chính xác của dữ liệu tự khai báo: Thông tin về thu nhập hoặc nghề nghiệp có thể không hoàn toàn chính xác.
- Tính nhất quán: Dữ liệu từ nhiều nguồn cần được làm sạch và chuẩn hóa.
- Tạo đặc trưng (Feature Engineering): Tạo ra các biến số có ý nghĩa hơn từ dữ liệu thô, ví dụ: tỷ lệ tiết kiệm trên thu nhập, tần suất thanh toán hóa đơn đúng hạn, độ ổn định của công việc.
- Xử lý dữ liệu phân loại: Chuyển đổi các biến phân loại (ví dụ: nghề nghiệp, trình độ học vấn) thành dạng số mà mô hình học máy có thể hiểu được (ví dụ: one-hot encoding).
- Vấn đề Thiên vị (Bias): Đảm bảo mô hình không phân biệt đối xử dựa trên các yếu tố nhạy cảm như giới tính, chủng tộc, vùng miền nếu các yếu tố này không thực sự liên quan đến khả năng trả nợ.
Câu hỏi thảo luận:
1. Tại sao việc sử dụng nhiều nguồn dữ liệu khác nhau (cả truyền thống và phi truyền thống) có thể giúp FinSecure xây dựng mô hình chấm điểm tín dụng tốt hơn, đặc biệt cho nhóm “thin-file customers”?
2. Đối với dữ liệu “Hành vi Sử dụng Viễn thông”, FinSecure có thể tạo ra những đặc trưng (features) nào để đánh giá sự ổn định hoặc độ tin cậy của một khách hàng? (Ví dụ: thời gian trung bình giữa các lần nạp tiền, giá trị nạp tiền trung bình).
3. Giả sử FinSecure thu thập được dữ liệu về “Số năm kinh nghiệm làm việc” và “Mức lương hiện tại”. Hai biến này có thể có thang đo rất khác nhau. Kỹ thuật tiền xử lý nào (ví dụ: Normalization, Standardization) nên được áp dụng trước khi đưa vào mô hình học máy và tại sao?
4. Những rủi ro đạo đức và xã hội nào FinSecure cần đặc biệt quan tâm khi xây dựng và triển khai mô hình chấm điểm tín dụng dựa trên AI, đặc biệt nếu sử dụng dữ liệu hành vi trực tuyến?

Case Study 3.5: “CityOptimize” – Sử dụng Dữ liệu Mở để Cải thiện Dịch vụ Công của Thành phố

Bối cảnh: Chính quyền thành phố CityOptimize muốn sử dụng dữ liệu để đưa ra các quyết định tốt hơn nhằm cải thiện chất lượng dịch vụ công và đời sống của người dân. Họ quyết định tận dụng các nguồn dữ liệu mở.
Các Nguồn Dữ liệu Mở Tiềm năng:
1. Dữ liệu Giao thông Công cộng (Từ Sở GTVT - Bán cấu trúc qua API hoặc tệp CSV/GTFS): Lịch trình xe buýt, vị trí xe buýt theo thời gian thực, số lượng hành khách (nếu có).
2. Dữ liệu về Tình trạng Đường sá (Từ Sở GTVT/Cổng dữ liệu thành phố - Có cấu trúc/Bán cấu trúc): Thông tin về các vụ kẹt xe, các công trình đang thi công, các điểm tai nạn thường xuyên.
3. Dữ liệu về Chất lượng Không khí và Môi trường (Từ các trạm quan trắc/Cổng dữ liệu thành phố - Có cấu trúc/Bán cấu trúc): Chỉ số AQI, nồng độ các chất ô nhiễm.
4. Dữ liệu về Tội phạm (Từ Công an Thành phố/Cổng dữ liệu thành phố - Có cấu trúc): Số liệu về các loại tội phạm theo từng khu vực và thời gian (thường được ẩn danh và tổng hợp).
5. Dữ liệu về Cơ sở Hạ tầng Đô thị (Từ Sở Xây dựng/Quy hoạch - Có cấu trúc/Không gian): Vị trí trường học, bệnh viện, công viên, trạm cứu hỏa.
6. Dữ liệu Phản ánh của Người dân (Qua ứng dụng của thành phố hoặc cổng dữ liệu - Có thể là Phi cấu trúc): Các báo cáo về ổ gà, cây xanh gãy đổ, rác thải bừa bãi.
Ứng dụng Phân tích Dữ liệu và AI:
- Tối ưu hóa Lộ trình và Tần suất Xe buýt: Dựa trên dữ liệu hành khách và tình trạng giao thông.
- Dự đoán và Cảnh báo Kẹt xe: Giúp người dân lựa chọn lộ trình phù hợp.
- Xác định các “Điểm nóng” về Ô nhiễm Không khí hoặc Tội phạm: Để có biện pháp can thiệp kịp thời.
- Lập kế hoạch Phát triển Cơ sở Hạ tầng: Dựa trên nhu cầu thực tế và dự báo tăng trưởng dân số.
- Ưu tiên Xử lý các Phản ánh của Người dân: Phân loại và chuyển các phản ánh đến đúng đơn vị xử lý.
Thách thức:
- Tính sẵn có và Chất lượng của Dữ liệu Mở: Không phải tất cả các dữ liệu cần thiết đều được công bố công khai, hoặc chất lượng có thể không đảm bảo, không được cập nhật thường xuyên.
- Định dạng không đồng nhất: Dữ liệu từ các sở ban ngành khác nhau có thể có định dạng và cấu trúc khác nhau, gây khó khăn cho việc tích hợp.
- Thiếu siêu dữ liệu (Metadata): Thông tin mô tả về dữ liệu (ý nghĩa các cột, cách thu thập, đơn vị đo) có thể không đầy đủ.
- Nguồn lực và Kỹ năng: Chính quyền thành phố cần có đội ngũ hoặc đối tác có khả năng phân tích dữ liệu và xây dựng ứng dụng.
Câu hỏi thảo luận:
1. Nếu CityOptimize muốn xây dựng một ứng dụng di động cung cấp thông tin về chất lượng không khí tại các địa điểm khác nhau trong thành phố, họ cần thu thập dữ liệu gì từ các trạm quan trắc? Dữ liệu này nên được cập nhật với tần suất như thế nào (Velocity)?
2. Đối với “Dữ liệu Phản ánh của Người dân” (thường là văn bản hoặc hình ảnh), những kỹ thuật tiền xử lý nào cần được áp dụng trước khi có thể phân loại và phân tích chúng một cách tự động?
3. Làm thế nào API có thể giúp CityOptimize thu thập và tích hợp dữ liệu từ nhiều nguồn khác nhau (ví dụ: dữ liệu xe buýt thời gian thực, dữ liệu thời tiết) một cách hiệu quả?
4. Hãy tưởng tượng bạn là một nhà phân tích dữ liệu cho CityOptimize. Bạn được giao nhiệm vụ phân tích dữ liệu về các điểm thường xuyên xảy ra tai nạn giao thông để đề xuất giải pháp. Bạn sẽ cần những loại dữ liệu nào (cả mở và có thể là nội bộ của các sở) và bạn sẽ trực quan hóa kết quả phân tích của mình như thế nào để trình bày cho lãnh đạo thành phố?

4.10 Bài tập

(Lưu ý: Các bài tập dưới đây bao gồm cả lý thuyết, tư duy phản biện, và các bài tập thực hành với Orange Data Mining để củng cố kiến thức về dữ liệu và phân tích dữ liệu.)

Phần I: Câu hỏi Lý thuyết và Hiểu biết

Tại sao dữ liệu được coi là “mạch máu” của các hệ thống Trí tuệ Nhân tạo hiện đại?
Nêu ba thách thức chung khi làm việc với dữ liệu trong một tổ chức.
Phân biệt rõ ràng giữa dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc. Cho ví dụ cụ thể về mỗi loại trong ngành ngân hàng.
JSON và XML là hai định dạng phổ biến của loại dữ liệu nào? Nêu một ưu điểm của JSON so với XML.
Liệt kê ít nhất ba nguồn dữ liệu nội bộ và ba nguồn dữ liệu bên ngoài mà một công ty thương mại điện tử có thể sử dụng để phân tích hành vi khách hàng.
API (Application Programming Interface) đóng vai trò như thế nào trong việc thu thập dữ liệu tự động?
Giải thích ngắn gọn 5Vs của Big Data (Volume, Velocity, Variety, Veracity, Value).
Tại sao “Veracity” (Tính xác thực) lại là một đặc tính quan trọng và đầy thách thức của Big Data?
Nguyên tắc “Garbage In, Garbage Out” (GIGO) có ý nghĩa gì trong bối cảnh đảm bảo chất lượng dữ liệu cho AI?
Kể tên ba kỹ thuật phổ biến để xử lý giá trị thiếu (missing values) trong dữ liệu.
Mục đích của việc chuẩn hóa (Normalization) hoặc quy mô hóa (Scaling) dữ liệu là gì? Nêu tên một phương pháp chuẩn hóa.
Tại sao Trực quan hóa Dữ liệu lại quan trọng trong quá trình phân tích dữ liệu và ra quyết định?
Biểu đồ Phân tán (Scatter Plot) thường được sử dụng để khám phá điều gì trong dữ liệu?
Trong Orange Data Mining, widget “File” dùng để làm gì? Widget “Data Table” hiển thị thông tin gì?
Mục “Feature”, “Target”, và “Meta” trong việc định nghĩa vai trò của các cột dữ liệu trong Orange có ý nghĩa gì?

Phần II: Bài tập Tư duy Phản biện và Phân tích

Chất lượng dữ liệu cho AI Y tế: Một bệnh viện muốn xây dựng một mô hình AI để dự đoán nguy cơ tái phát bệnh tim ở bệnh nhân.
1. Họ có thể thu thập những loại dữ liệu nào (cả có cấu trúc và phi cấu trúc)?
2. Những vấn đề về chất lượng dữ liệu nào họ có thể gặp phải?
3. Tại sao việc đảm bảo “Veracity” và giảm thiểu “Bias” trong dữ liệu này lại cực kỳ quan trọng?
Dữ liệu Mở và Đổi mới: Hãy tìm một ví dụ cụ thể về một ứng dụng hoặc dịch vụ được xây dựng dựa trên Dữ liệu Mở (Open Data) và phân tích xem nó mang lại lợi ích gì cho cộng đồng hoặc doanh nghiệp.
Thách thức của Dữ liệu Phi cấu trúc: Một công ty muốn phân tích hàng ngàn email phản hồi của khách hàng để hiểu rõ hơn về các vấn đề họ gặp phải.
1. Đây là loại dữ liệu gì?
2. Những thách thức chính trong việc xử lý và phân tích loại dữ liệu này là gì?
3. Những kỹ thuật AI nào (ví dụ: NLP) có thể giúp ích?
Big Data trong Ngành Du lịch: Một công ty du lịch trực tuyến lớn (Online Travel Agency - OTA) thu thập lượng lớn dữ liệu về tìm kiếm, đặt phòng, đánh giá của khách hàng, cũng như thông tin về các điểm đến, khách sạn, chuyến bay.
1. Dữ liệu này có thể được coi là Big Data không? Tại sao? (Xem xét các yếu tố 5Vs).
2. Họ có thể sử dụng Big Data và AI để cải thiện trải nghiệm khách hàng và tối ưu hóa hoạt động kinh doanh như thế nào?
Chọn lựa Phương pháp Tiền xử lý: Giả sử bạn có một cột dữ liệu “Thu nhập hàng tháng” của khách hàng.
1. Nếu cột này có một vài giá trị bị thiếu, bạn sẽ chọn phương pháp nào để xử lý và tại sao?
2. Nếu cột này có một vài giá trị rất lớn (ví dụ: thu nhập của một tỷ phú) so với phần còn lại, đây có thể coi là điểm ngoại lai không? Bạn sẽ xử lý nó như thế nào và tại sao?
Đạo đức trong Thu thập Dữ liệu: Một ứng dụng mạng xã hội muốn thu thập dữ liệu vị trí của người dùng để cung cấp các gợi ý địa điểm phù hợp. Những vấn đề đạo đức và quyền riêng tư nào cần được xem xét? Họ nên làm gì để thu thập và sử dụng dữ liệu này một cách có trách nhiệm?
Trực quan hóa Sai lệch: Tìm hiểu về các cách mà trực quan hóa dữ liệu có thể bị sử dụng để gây hiểu lầm hoặc trình bày thông tin một cách sai lệch (ví dụ: cắt trục tung, sử dụng tỷ lệ không phù hợp, chọn loại biểu đồ không đúng). Nêu một ví dụ.

Phần III: Bài tập Thực hành với Orange Data Mining

Yêu cầu: Sử dụng Orange Data Mining để thực hiện các bài tập sau. Chụp ảnh màn hình workflow và kết quả của các widget quan trọng để minh họa cho câu trả lời của bạn.

Tải và Khám phá bộ dữ liệu “Titanic”:
1. Tải bộ dữ liệu Titanic (thường có sẵn trong Orange hoặc có thể tìm file titanic.csv trên mạng).
2. Sử dụng widget File để tải dữ liệu. Kiểm tra và điều chỉnh vai trò của các cột (ví dụ: survived là target, các cột khác có thể là feature hoặc meta).
3. Sử dụng widget Data Info để xem thông tin tổng quan (số hàng, số cột, giá trị thiếu).
4. Sử dụng widget Distributions để xem phân phối của các biến như age, sex, pclass, và survived. Nhận xét về phân phối của biến age.
Tiền xử lý Dữ liệu “Titanic”:
1. Từ workflow ở bài 23, nối widget File với widget Impute. Xử lý các giá trị thiếu trong cột age bằng phương pháp “Average/Most frequent”. Sử dụng Data Table để so sánh dữ liệu trước và sau khi impute cho cột age.
2. Nối widget File (hoặc widget Impute đã xử lý age) với widget Select Rows. Lọc ra những hành khách là nữ (sex = female) VÀ thuộc khoang hạng nhất (pclass = 1). Có bao nhiêu hành khách thỏa mãn điều kiện này? Hiển thị kết quả bằng Data Table.
Trực quan hóa Dữ liệu “Titanic”:
1. Từ workflow ở bài 23 (sử dụng dữ liệu gốc từ widget File), nối với widget Scatter Plot.
  - Đặt age làm trục X, fare (giá vé) làm trục Y.
  - Tô màu các điểm dựa trên biến survived.
  - Bạn có nhận xét gì về mối quan hệ giữa tuổi, giá vé và khả năng sống sót từ biểu đồ này không?
2. Nối widget File với widget Box Plot.
  - So sánh phân phối của age giữa các nhóm hành khách sống sót (survived = yes) và không sống sót (survived = no).
  - So sánh phân phối của fare giữa các khoang hành khách khác nhau (pclass).
  - Có điểm ngoại lai nào đáng chú ý không?

Gợi ý: Đối với các bộ dữ liệu không có sẵn trong Orange, bạn có thể tìm kiếm trên các kho dữ liệu mở như Kaggle, UCI Machine Learning Repository.