Dữ liệu lớn (Big Data) là một thuật ngữ đề cập đến việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Dữ liệu lớn bao gồm việc phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư.
Ví dụ: Các công ty như Shopee, Tiki, Youtube, Spotify ứng dụng Big Data để thu thập và phân tích thông tin khách hàng, từ đó cá nhân hóa nội dung đề xuất cho từng người dùng (VD: tiếp tục đề xuất các sản phẩm váy áo cho người dùng có thao tác tìm kiếm những sản phẩm tương tự), từ đó giúp tăng tỉ lệ người dùng chốt đơn, nâng cao doanh thu.
Big Data trong kinh doanh tối ưu hóa hiệu quả, gia tăng lợi nhuận
2. Đặc điểm của Big Data
Big Data có 3 “V” chính là:
Tính chính xác (Veracity)
Dữ liệu lớn có thể lộn xộn và dễ xảy ra lỗi, gây khó khăn cho việc kiểm soát chất lượng và độ chính xác của dữ liệu.
Tính biến đổi (Variability)
Dữ liệu được thu thập liên tục thay đổi, điều này có thể dẫn đến sự không nhất quán theo thời gian. Những thay đổi này không chỉ bao gồm những thay đổi về bối cảnh và cách diễn giải mà còn cả các phương pháp thu thập dữ liệu.
Giá trị (Value)
Dữ liệu lớn phải chứa dữ liệu phù hợp, có giá trị với tổ chức/doanh nghiệp, giúp doanh nghiệp đưa ra quyết định sáng suốt, cải thiện hiệu quả hoạt động và tạo ra lợi thế cạnh tranh.
Big Data nâng cao hiệu quả hoạt động trong mọi lĩnh vực
Xem thêm: Master Data Management là gì? Thông tin chi tiết về Quản lý dữ liệu chủ
3. Các loại dữ liệu lớn
Dựa trên cấu trúc dữ liệu, Big Data có thể được phân loại thành 3 loại chính:
Dữ liệu có cấu trúc
Đây là loại dữ liệu dễ dàng nhất để quản lý và tìm kiếm. Dữ liệu có cấu trúc được lưu trữ và xử lý ở các định dạng cố định, có thể dễ dàng truy cập và xử lý bằng các công cụ như MySQL, Oracle, SQL Server. Ví dụ: thông tin khách hàng, dữ liệu giao dịch, dữ liệu tài chính,…
Dữ liệu bán cấu trúc
Dữ liệu này có một số cấu trúc nhất định nhưng không hoàn toàn tuân theo định dạng cố định. Chúng được xử lý bằng các công cụ truyền thống sau khi được xử lý sơ bộ.
Ví dụ: email HTML, XML, JSON,…
Big Data – Nguồn dữ liệu khổng lồ có giá trị vô tận
Dữ liệu phi cấu trúc
Dữ liệu này không có định dạng cố định và khó khăn trong việc xử lý bằng các công cụ truyền thống. Chúng chiếm phần lớn khối lượng dữ liệu Big Data.
Ví dụ: email, tin nhắn, hình ảnh, video, âm thanh, dữ liệu cảm biến, nhật ký,…
Ngoài ra, còn có 3 loại dữ liệu sau:
Dữ liệu không gian địa lý (Geospatial data)
Đây là tập dữ liệu khổng lồ có chứa thông tin về vị trí và thuộc tính của các đối tượng trên Trái đất.
Ví dụ: bản đồ, hình ảnh vệ tinh, dữ liệu cảm biến, dữ liệu giao thông, dữ liệu dân số,…
Dữ liệu ghi nhật ký máy (Machine/ operational logging data)
Dữ liệu máy là thông tin được tạo ra bởi hoạt động của máy tính hoặc ứng dụng mà không có sự tham gia của con người. Ví dụ về dữ liệu máy bao gồm bản ghi chi tiết cuộc gọi và tệp nhật ký ứng dụng.
Dữ liệu nguồn mở (Open source data)
Cơ sở dữ liệu nguồn mở chứa dữ liệu quan trọng trong phần mềm thuộc thẩm quyền của tổ chức. Người dùng cơ sở dữ liệu nguồn mở có thể xây dựng một hệ thống tùy theo nhu cầu và yêu cầu nghề nghiệp của riêng họ. Nó miễn phí và sẵn sàng chia sẻ. Nó có thể đáp ứng bất kỳ sự lựa chọn nào của người dùng bằng cách thay đổi mã nguồn. Cơ sở dữ liệu nguồn mở đáp ứng nhu cầu phân tích dữ liệu với chi phí hợp lý hơn từ số lượng ứng dụng đổi mới ngày càng tăng.
Phân tích Big Data giúp cải thiện hiệu quả nghiên cứu
4. Cách thức Big Data hoạt động
Big Data hoạt động dựa trên một quy trình gồm nhiều bước liên kết chặt chẽ với nhau, bao gồm:
Thu thập dữ liệu
Thu thập dữ liệu là bước đầu tiên và quan trọng nhất trong quá trình Big Data Analytics. Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau, bao gồm:
Các nguồn truyền thống
Dữ liệu Big Data ở dạng thô và cần được xử lý trước khi có thể phân tích. Quá trình xử lý dữ liệu Big Data bao gồm nhiều bước như:
Big Data giúp doanh nghiệp mở ra những cơ hội mới
Phân tích dữ liệu
Dữ liệu Big Data được phân tích bằng các công cụ và kỹ thuật phân tích dữ liệu tiên tiến như Hadoop MapReduce, Apache Spark, Apache Storm, v.v.
Mục tiêu của việc phân tích dữ liệu Big Data là trích xuất thông tin có giá trị từ dữ liệu, giúp doanh nghiệp đưa ra quyết định sáng suốt, cải thiện hiệu quả hoạt động và tạo ra lợi thế cạnh tranh.
Trực quan hóa dữ liệu
Dữ liệu Big Data được trực quan hóa bằng các biểu đồ, hình ảnh và bản đồ để giúp người dùng dễ dàng hiểu và nắm bắt thông tin.
Trực quan hóa dữ liệu giúp doanh nghiệp truyền đạt thông tin hiệu quả hơn và hỗ trợ ra quyết định nhanh chóng.
Trực quan hóa dữ liệu bằng các biểu bản đồ
Ví dụ: Các công ty như Shopee, Tiki, Youtube, Spotify ứng dụng Big Data để thu thập và phân tích thông tin khách hàng, từ đó cá nhân hóa nội dung đề xuất cho từng người dùng (VD: tiếp tục đề xuất các sản phẩm váy áo cho người dùng có thao tác tìm kiếm những sản phẩm tương tự), từ đó giúp tăng tỉ lệ người dùng chốt đơn, nâng cao doanh thu.

Big Data trong kinh doanh tối ưu hóa hiệu quả, gia tăng lợi nhuận
2. Đặc điểm của Big Data
Big Data có 3 “V” chính là:
- Volume (Khối lượng): Nhắc đến Big Data là nhắc đến khối lượng dữ liệu cực lớn, thậm chí vượt quá khả năng lưu trữ xử lý của các hệ thống truyền thống. Hiện nay, với sự xuất hiện của các nền tảng lưu trữ như Data lake, quá trình lưu trữ và xử lý dữ liệu đã trở nên dễ dàng và tiện lợi hơn.
- Velocity (Tốc độ): Dữ liệu Big Data được tạo ra và thu thập liên tục với tốc độ cao.
- Variety (Tính đa dạng): Dữ liệu Big Data có nhiều định dạng khác nhau như văn bản, hình ảnh, video, âm thanh, dữ liệu cảm biến, nhật ký,…
Tính chính xác (Veracity)
Dữ liệu lớn có thể lộn xộn và dễ xảy ra lỗi, gây khó khăn cho việc kiểm soát chất lượng và độ chính xác của dữ liệu.
Tính biến đổi (Variability)
Dữ liệu được thu thập liên tục thay đổi, điều này có thể dẫn đến sự không nhất quán theo thời gian. Những thay đổi này không chỉ bao gồm những thay đổi về bối cảnh và cách diễn giải mà còn cả các phương pháp thu thập dữ liệu.
Giá trị (Value)
Dữ liệu lớn phải chứa dữ liệu phù hợp, có giá trị với tổ chức/doanh nghiệp, giúp doanh nghiệp đưa ra quyết định sáng suốt, cải thiện hiệu quả hoạt động và tạo ra lợi thế cạnh tranh.

Big Data nâng cao hiệu quả hoạt động trong mọi lĩnh vực
Xem thêm: Master Data Management là gì? Thông tin chi tiết về Quản lý dữ liệu chủ
3. Các loại dữ liệu lớn
Dựa trên cấu trúc dữ liệu, Big Data có thể được phân loại thành 3 loại chính:
Dữ liệu có cấu trúc
Đây là loại dữ liệu dễ dàng nhất để quản lý và tìm kiếm. Dữ liệu có cấu trúc được lưu trữ và xử lý ở các định dạng cố định, có thể dễ dàng truy cập và xử lý bằng các công cụ như MySQL, Oracle, SQL Server. Ví dụ: thông tin khách hàng, dữ liệu giao dịch, dữ liệu tài chính,…
Dữ liệu bán cấu trúc
Dữ liệu này có một số cấu trúc nhất định nhưng không hoàn toàn tuân theo định dạng cố định. Chúng được xử lý bằng các công cụ truyền thống sau khi được xử lý sơ bộ.
Ví dụ: email HTML, XML, JSON,…

Big Data – Nguồn dữ liệu khổng lồ có giá trị vô tận
Dữ liệu phi cấu trúc
Dữ liệu này không có định dạng cố định và khó khăn trong việc xử lý bằng các công cụ truyền thống. Chúng chiếm phần lớn khối lượng dữ liệu Big Data.
Ví dụ: email, tin nhắn, hình ảnh, video, âm thanh, dữ liệu cảm biến, nhật ký,…
Ngoài ra, còn có 3 loại dữ liệu sau:
Dữ liệu không gian địa lý (Geospatial data)
Đây là tập dữ liệu khổng lồ có chứa thông tin về vị trí và thuộc tính của các đối tượng trên Trái đất.
Ví dụ: bản đồ, hình ảnh vệ tinh, dữ liệu cảm biến, dữ liệu giao thông, dữ liệu dân số,…
Dữ liệu ghi nhật ký máy (Machine/ operational logging data)
Dữ liệu máy là thông tin được tạo ra bởi hoạt động của máy tính hoặc ứng dụng mà không có sự tham gia của con người. Ví dụ về dữ liệu máy bao gồm bản ghi chi tiết cuộc gọi và tệp nhật ký ứng dụng.
Dữ liệu nguồn mở (Open source data)
Cơ sở dữ liệu nguồn mở chứa dữ liệu quan trọng trong phần mềm thuộc thẩm quyền của tổ chức. Người dùng cơ sở dữ liệu nguồn mở có thể xây dựng một hệ thống tùy theo nhu cầu và yêu cầu nghề nghiệp của riêng họ. Nó miễn phí và sẵn sàng chia sẻ. Nó có thể đáp ứng bất kỳ sự lựa chọn nào của người dùng bằng cách thay đổi mã nguồn. Cơ sở dữ liệu nguồn mở đáp ứng nhu cầu phân tích dữ liệu với chi phí hợp lý hơn từ số lượng ứng dụng đổi mới ngày càng tăng.

Phân tích Big Data giúp cải thiện hiệu quả nghiên cứu
4. Cách thức Big Data hoạt động
Big Data hoạt động dựa trên một quy trình gồm nhiều bước liên kết chặt chẽ với nhau, bao gồm:
Thu thập dữ liệu
Thu thập dữ liệu là bước đầu tiên và quan trọng nhất trong quá trình Big Data Analytics. Dữ liệu có thể được thu thập từ nhiều nguồn khác nhau, bao gồm:
Các nguồn truyền thống
- Hệ thống cơ sở dữ liệu: Dữ liệu từ các hệ thống cơ sở dữ liệu nội bộ của doanh nghiệp, chẳng hạn như hệ thống CRM, hệ thống ERP, hệ thống kế toán, v.v.
- Các báo cáo: Dữ liệu từ các báo cáo kinh doanh, báo cáo tài chính, báo cáo bán hàng, v.v.
- Các cuộc khảo sát khách hàng: Dữ liệu từ các cuộc khảo sát được thực hiện với khách hàng để hiểu nhu cầu và sở thích của họ.
- Mạng xã hội: Dữ liệu từ các nền tảng mạng xã hội như Facebook, Twitter, Instagram, v.v.
- Trang web: Dữ liệu từ các trang web của doanh nghiệp, chẳng hạn như dữ liệu lưu lượng truy cập, dữ liệu mua sắm trực tuyến, v.v.
- Ứng dụng di động: Dữ liệu từ các ứng dụng di động của doanh nghiệp, chẳng hạn như dữ liệu sử dụng ứng dụng, dữ liệu mua sắm trong ứng dụng, v.v.
Dữ liệu Big Data ở dạng thô và cần được xử lý trước khi có thể phân tích. Quá trình xử lý dữ liệu Big Data bao gồm nhiều bước như:
- Làm sạch dữ liệu: Loại bỏ dữ liệu lỗi, trùng lặp và thiếu sót.
- Chuyển đổi dữ liệu: Chuyển đổi dữ liệu sang định dạng phù hợp cho việc phân tích.
- Tích hợp dữ liệu: Kết hợp dữ liệu từ nhiều nguồn khác nhau.
Big Data giúp doanh nghiệp mở ra những cơ hội mới
Phân tích dữ liệu
Dữ liệu Big Data được phân tích bằng các công cụ và kỹ thuật phân tích dữ liệu tiên tiến như Hadoop MapReduce, Apache Spark, Apache Storm, v.v.
Mục tiêu của việc phân tích dữ liệu Big Data là trích xuất thông tin có giá trị từ dữ liệu, giúp doanh nghiệp đưa ra quyết định sáng suốt, cải thiện hiệu quả hoạt động và tạo ra lợi thế cạnh tranh.
Trực quan hóa dữ liệu
Dữ liệu Big Data được trực quan hóa bằng các biểu đồ, hình ảnh và bản đồ để giúp người dùng dễ dàng hiểu và nắm bắt thông tin.
Trực quan hóa dữ liệu giúp doanh nghiệp truyền đạt thông tin hiệu quả hơn và hỗ trợ ra quyết định nhanh chóng.

Trực quan hóa dữ liệu bằng các biểu bản đồ
Bài viết liên quan
Bài viết mới