Xem mẫu

  1. 1 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------------- PHẠM QUỐC HÙNG NGHIÊN CỨU MÔ HÌNH BUSINESS INTELLIGENCE (BI) ÁP DỤNG PHÂN TÍCH DỮ LIỆU NẠP THẺ TRONG DOANH NGHIỆP VIỄN THÔNG Chuyên nghành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2012
  2. 2 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học:TS. Phạm Thế Quế Phản biện 1: ……….………………………………..………………… Phản biện 2: ……………….….……………………….……………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: …….. giờ ……. ngày ……. tháng …… năm ……… Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông
  3. 3 MỞ ĐẦU Quản trị một tổ chức doanh nghiệp hoạt động hiệu quả vẫn luôn là vấn đề được các nhà quản lý quan tâm. Xu hướng quản lý hiệu quả để tồn tại và phát triển trong môi trường cạnh tranh quyết liệt như hiện nay đòi hỏi sự nỗ lực rất lớn từ các cán bộ đến các cấp lãnh đạo trong doanh nghiệp, vấn đề này càng được quan tâm hơn bao giờ hết. Và câu hỏi? làm thế nào để quản lý tổ chức của mình tốt hơn luôn trăn trở đối với họ. Giải pháp công nghệ Business Intelligence BI là một trong những giải pháp vô cùng hữu hiệu nhằm giúp các nhà quản lý trả lời câu hỏi đó một cách “thông minh” nhất. Business Intelligence BI là giải pháp cung cấp một cách nhìn toàn cảnh hoạt động của tổ chức từ quá khứ, đến hiện tại cũng như các dự đoán trong tương lai được áp dụng trong các lĩnh vực như: y tế, giáo dục, tài chính, viễn thông sử dụng để thu thập, lưu trữ, phân tích, tổng hợp xử lý dữ liệu nhằm giúp các nhà quản lý đưa ra các quyết định hiệu quả. Việc đó giúp cho các nhà quản lý đưa ra các quyết định hiệu quả hơn như: Xác định được vị trí và sức cạnh tranh của doanh nghiệp, phân tích thói quen sử dụng dịch vụ của khách hàng, xây dựng và xác định chiến lược kinh doanh, dự đoán tương lai của doanh nghiệp, và yếu tố quan trọng là giữ được khách hàng có giá trị và dự đoán khách hàng tiềm năng. Có thể nói rằng, các nhà cung cấp dịch vụ viễn thông đang quản lý một khối lượng khách hàng lớn như hiện nay, kèm theo đó là các dịch vụ giá trị gia tăng, khối lượng thông tin và công việc khổng
  4. 4 lồ, nhưng dữ liệu đó không có khả năng liên kết với nhau, nên các nhà quản lý dù có nỗ lực đến đâu cũng khó có thể kiểm soát tất cả mọi hoạt động của tổ chức theo cách truyền thống. Bên cạnh đó, việc ứng dụng phần mềm quản lý kinh doanh tại các doanh nghiệp viễn thông trên toàn quốc còn mang tính riêng lẻ và tự phát. Hậu quả của việc này là các phần mềm không đồng bộ, cấu trúc dữ liệu rời rạc không tập trung, gây lãng phí và tốn kém. Trước thực trạng một số hạn chế như hiện nay, học viên đề xuất việc “Xây dựng hệ thống phân tích số liệu nạp thẻ trong doanh nghiệp viễn thông” dựa trên kiến trúc của hệ thống hỗ trợ quyết định BI với mong muốn nâng cao chất lượng công tác điều hành, quản lý, khai thác kinh doanh các dịch vụ. Nội dung và mục tiêu của luận văn gồm 3 phần chính: Chương 1: Kinh doanh thông minh. Cung cấp cái nhìn tổng quát về hệ thống quản trị bao gồm khái niệm của hệ thống, vai trò của hệ thống đối với doanh nghiệp, thành phần và kiến trúc của hệ thống trong tổng thể kiến trúc của doanh nghiệp. Chương 2: Các mô hình toán học trong việc hỗ trợ ra quyết định BI Trình bầy vai trò của các mô hình, phương pháp toán học đối với việc ra quyết định trong hệ thống; nêu mô hình phổ biến trong việc ra quyết định: Mô hình dự báo, mô hình máy học, mô hình tối ưu, mô hình quản lý dự án, mô hình phân tích nguy cơ, mô hình đường đợi. Chương cũng giới thiệu một số thuật toán cơ bản được đề
  5. 5 cập, phân tích: Thuật toán cây quyết định, thuật toán Phân lớp sử dụng Naïve Bayes, thuật toán K láng giềng gần nhất. Chương 3: Đề xuất giải pháp hệ thống BI cho dữ liệu nạp thẻ trong doanh nghiệp Viễn thông: xây dựng và thiết kế cơ sở dữ liệu theo chủ đề (datamart) áp dụng giải pháp ở trên để xây dựng các báo cáo phân tích, biểu đồ kinh doanh thông minh trong dữ liệu nạp thẻ của doanh nghiệp Viễn thông, Đề xuất mô hình cài đặt và triển khai thử nghiệm, đánh giá kết quả của việc thử nghiệm. Từ đó, hướng nghiên cứu đề tài có thể xem là hướng tiếp cận mới trong xây dựng các hệ phân tích hỗ trợ sản xuất kinh doanh, phục vụ công tác quản lý tại đơn vị và nâng tính tập trung hóa việc xây dựng các ứng dụng hỗ trợ khai thác số liệu.
  6. 6 CHƯƠNG 1. TỔNG QUAN KINH DOANH THÔNG MINH Vậy BI là gì? Các thành phần trong một hệ thống BI? Xu hướng, triển khai, ứng dụng vào thực tế ra sao? Có liên hệ như thế nào đến việc hỗ trợ ra quyết định,? Lợi ích mà BI mang lại cho doanh nghiệp tổ chức?.... 1.1 Giới thiệu Các doanh nghiệp đã nhận ra rằng họ chỉ có thể thành công bằng tiên phong trong vấn đề nhận ra các xu hướng và cơ hội của thị trường, từ đó đáp ứng nhanh cho các nhu cầu của khách hàng mới. Thêm vào đó, các nhân viên cần phải ưu tiên cho hoạt động của doanh nghiệp và phí tổn để bảo đảm có được hiệu quả sử dụng cao nhất của tài nguyên doanh nghiệp và tạo các quyết định trong công việc một cách hiệu quả nhất Ngày nay, việc áp dụng các nền tảng công nghệ thông tin vào công việc kinh doanh ngày càng được các doanh nghiệp quan tâm và áp dụng. Đó là các hệ thống Quản trị doanh nghiệp (ERP), Quản lý mối quan hệ khách hàng(CRM), Hệ thống tính cước và chăm sóc khách hàng (BCCS)… giúp quản lý và điều hành toàn bộ doanh nghiệp. Nhiều doanh nghiệp hiện nay đã hoạt động hoàn toàn dựa trên các hệ thống này, hay nói cách khác họ đã “số hóa” hoạt động của toàn doanh nghiệp. Ở các nước phát triển, thuật ngữ Business Intelligence (BI - tạm dịch là giải pháp kinh doanh thông minh hoặc trí tuệ doanh nghiệp) không còn mới mẻ, tuy nhiên, ở Việt Nam chúng ta lĩnh vực này vẫn đang ở mức sơ khai.
  7. 7 1.1.1 Business Intelligence là gì ? BI là một qui trình có tích hợp công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ đến từ nhiều nguồn khác nhau và khai thác nguồn dữ liệu đó. 1.2 Khái niệm về mô hình BI 1.2.1 Khái niệm hệ hỗ trợ ra quyết định BI Mục đính chính của hệ thống hỗ trợ ra quyết định BI là cung cấp cho các chuyên gia có tri thức công cụ và phương pháp cho phép họ quyết đưa ra những quyết định hiệu quả và đúng thời gian:Quyết định hiệu quả, Quyết định đúng thời điểm 1.2.2 Dữ liệu, thông tin và tri thức Dữ liệu: Dữ liệu trong hệ thống thông tin của doanh nghiệp. Thông tin: là kết quả hoạt động trích lọc và xử lý dữ liệu Tri thức: Thông tin được chuyển thành tri thức khi nó được sử dụng để ra quyết định hay phát triển những hành động tương ứng Báo cáo và Truy vấn Phân tích trực tuyến, đa Khai phá dữ liệu chiều - Dự báo - Phân tích thống - Công cụ phân tích trực tuyến kê dữ liệu - Các phân tích đa - Mạng nơron thần Giá chiều kinh trị - Báo cáo - Các KPI - Truy vấn SQL dữ - Các khung nhìn dữ Tầm nhìn/ liệu liệu Tương lai Tri thức Thông tin Dữ liệu Hình 1-1: Hỗ trợ ra quyết định
  8. 8 1.2.3 Mục tiêu và nhiệm vụ của kinh doanh thông minh Mục đích của hệ thống BI được là giải pháp biến đổi dữ liệu từ kho dữ liệu hoặc dữ liệu chủ đề thành thông tin và tri thức, từ cách tổng hợp, phân tích các thông tin đó doanh nghiệp có được các tư duy chiến lược, hành động hiệu quả hoặc giá trị của hệ thống BI mang đến sự đúc kết các ý tưởng đem lại. 1.3 Kiến trúc và thành phần mô hình BI Vấn đề cốt lõi trong hỗ trợ quyết định BI là phân tích dữ liệu trực tuyến (OLAP) và khai phá dữ liệu (Data Mining) trong kho dữ liệu (Data Warehouse) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng, phân tán và có tính lịch sử). Hình 1-2: Kiến trúc của một hệ thống BI Hệ thống kinh doanh thông minh được thực hiện thông qua quy trình được minh họa trong hình 1-5 gồm các bước sau: Data sources (Nguồn dữ liệu) -> Kho dữ liệu và khối dữ liệu -> Business intelligence methodologies (Phương pháp kinh doanh thông minh)->:
  9. 9 Data exploration (Thăm dò dữ liệu) -> Data mining (Khai phá dữ liệu)-> Optimization(Tối ưu hóa)->: Decisions(Quyết định) Hệ thống hỗ trợ quyết địnhcó thể được xem là sự kết hợp của 3 kỹ thuật chính như sau: Diễn giải sơ lược:  Kho dữ liệu (Data Warehouse): Chứa dữ liệu tổng hợp của doanh nghiệp  Khai phá dữ liệu (Data mining): Các kỹ thuật dùng để khai phá dữ liệu và phát hiện tri thức như phân loại (Classification), phân nhóm (clustering), phát hiện luật kết hợp (Association Rule), Dự đoán (Predcition),…  Phân tích kinh doanh (Business Analyst): Các nhà lãnh đạo Doanh nghiệp đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp. 1.3.1 Hệ hỗ trợ ra quyết định (Decion Support System)  Khái niệm: Hệ hỗ trợ ra quyết định là một hệ thống thuộc Hệ thống quản lý thông tin ( MIS), có nhiệm vụ cung cấp các thông tin hỗ trợ cho việc đề ra quyết định ở cấp chiến lược và chiến thuật trở nên dễ dàng, thuận tiện hơn 1.3.2 Kho dữ liệu (Datawarehouse) Định nghĩa: “Kho dữ liệu (Data Warehouse) là tập hợp của các CSDL tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức
  10. 10 năng trợ giúp quyết định mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể”. 1.3.2.1 Một data warehouse thường có các tính chất sau : Dữ liệu có tính tích hợp, Dữ liệu gắn thời gian và có tính lịch sử:,Dữ liệu tổng hợp và chi tiết, Lưu trữ lâu dài, Bất biến theo thời gian, Dữ liệu chỉ đọc: 1.3.2.2 Các lớp kiến trúc của một Data Warehouse thông thường 1.3.2.3 Kho dữ liệu chủ đề (Datamart) Có thể chia Datamart ra làm 2 loại: Datamart phụ thuộc: chứa những dữ liệu được lấy từ kho dữ liệu và những dữ liệu này sẽ được trích lọc, tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định. Datamart độc lập: không giống như Datamart phụ thuộc, nó được xây dựng trước kho dữ liệu và dữ liệu được lấy từ các nguồn dữ liệu tác nghiệp 1.3.3 Xử lý dữ liệu trực tuyến (OLAP) 1.3.3.1 Khái niệm OLAP là một kỹ thuật sử dụng các biểu diễn dữ liệu đa chiều gọi là các khối (cube) nhằm cung cấp khả năng truy xuất nhanh đến dữ liệu của kho dữ liệu. 1.3.3.2 Phân tích đa chiều Các thao tác phân tích trên dữ liệu đa chiều: - Cuộn lên (Roll up):
  11. 11 - Chọn và chiếu (Slide and Dice): - Xoay chiều (Pivot): 1.3.4 Khai phá dữ liệu(Datamining) Khai phá dữ liệu là một bước thiết yếu trong quá trình Khám phá tri thức (Knowlegde Discovery in Databases – KDD) trong CSDL. Quá trình này gồm một số bước lặp đi lặp lại, và được thể hiện trong hình như sau: Hình 1-3: Quá trình khai phá dữ liệu Các bước trong quá trình khai phá dữ liệu : o Bước 1: Làm sạch dữ liệu o Bước 2: Tích hợp dữ o Bước 3: Chọn dữ liệu o Bước 4: Chuyển đổi dữ o Bước 5: Khai phá dữ liệu o Bước 6: Đánh giá o Bước 7: Trình diễn dữ liệu
  12. 12 1.4 Kết chương Nội dung chương này đã đề cập đến các khái niệm cơ bản, vai trò, thành phần và kiến trúc của hệ thống hỗ trợ quản trị.
  13. 13 CHƯƠNG 2. CÁC MÔ HÌNH TOÁN HỌC TRONG HỖ TRỢ QUYẾT ĐỊNH Trong chương này sẽ nhấn mạnh về hai thành phần chính của khai phá dữ liệu, tương đối phổ biến nhất trong công tác dự báo hiện nay và được các doanh nghiệp ứng dụng công nghệ Business Intelligence 2.1 Mô hình và hỗ trợ quyết định 2.1.1 Vai trò của các mô hình toán học Một hệ hỗ trợ quản trị cung cấp việc hỗ trợ ra quyết định với thông tin và tri thức được trích rút ra từ dữ liệu thông qua việc áp dụng các mô hình toán học và các giải thuật. Trong một vài trường hợp, hành động này có thể giảm bớt việc tính tổng và phần trăm, được biểu diễn bởi các đồ thị đơn giản, trong khi đó những phân tích thí nghiệm yêu cầu việc phát triển tối ưu hóa nâng cao và mô hình máy học. 2.1.2 Các mô hình toán học hỗ trợ ra quyết định Các mô hình toán học chính cho việc ra quyết định bao gồm:  Mô hình dự báo (predictive model)  Mô hình tự học và nhận mẫu  Mô hình tối ưu (optimazation models)  Mô hình quản lý dự án (project management models)  Mô hình phân tích nguy cơ (risk analysis models)  Mô hình đường đợi (waitiong line models)
  14. 14 2.1.2.1 Mô hình dự báo Mô hình này được sử dụng nhiều đáng kể trong cách hệ thống hỗ trợ quản trị, cũng như đối với mô hình tối ưu, yêu cầu dữ liệu đầu vào có liên quan tới các sự kiện trong tương lai. 2.1.2.2 Mô hình máy học và nhận biết mẫu Mục tiêu của mô hình này là phát triển khả năng thông minh hiểu và có khả năng trích ra tri thức từ các kinh nghiệm cũ và sử dụng lại trong tương lai.Mô hình này được sử dụng để phát triển các thuật toán hiệu quả cho việc thực hiện nhiệm vụ trên. 2.1.2.3 Mô hình tối ưu Nhiều tiến trình ra quyết định đưa ra bởi các công ty hay tổ chức phức tạp thường theo hướng: đưa ra một vấn đề được định nghĩa rõ ràng, người ra quyết định sẽ đưa ra một tập các quyết định, giải pháp và sau đó là quá trình đánh giá hiệu quả, so sánh chọn ra giải pháp tốt nhất. Mô hình phù hợp với các tiến trình ra quyết định mà bị giới hạn bởi tài nguyên sử dụng, và chúng cần phải sử dụng một cách hợp lý nhất. Tài nguyên ở đây có thể là con người, sản phẩm, nguyên liệu, các thành phần, nhân tố tài chính. 2.1.2.4 Mô hình quản lý dự án Một dự án là một tập phức tạp các hoạt động có liên quan với nhau được đưa ra nhằm mục đích hướng tới một mục tiêu nhất định được đặt ra, nó có thể một sản phẩm công nghiệp, một hệ thống thông tin, sản phẩm mới hoặc một cấu trúc tổ chức mới, phụ thuộc vào các miền ứng dụng khác nhau. Quá trình thực thi một dự án yêu
  15. 15 cầu tới các kế hoạch và các tiến trình kiểm soát từng hoạt động độc lập cũng như tài nguyên về con người, kĩ thuật và tài chính cần thiết để đạt được mục đích cuối cùng. 2.1.2.5 Mô hình phân tích nguy cơ Người ra quyết định được yêu cầu chọn lựa một hướng đi trong một số hướng có sẵn mà không có các thông tin về ảnh hưởng của các các chọn này tới sự việc có thể xảy ra trong tương lai. Ví dụ như, một người quản lý một công ty cần đanh giá chọn lựa hướng phát triển khả năng sản xuất của công ty. 2.1.2.6 Mô hình đường đợi Mục đích của lý thuyết hàng đợi là điều tra hiện tượng tắc nghẽn xảy ra khi nhu cầu và khả năng cung cấp của một dịch vụ ngẫu nhiên trong hoạt động hàng ngày 2.2 Vận dụng phương pháp toán học để phân loại dữ liệu Các giải thuật được đề cập bao gồm: Cây quyết định (decision trees), Phân lớp sử dụng Naïve Bayes, Thuật toán K – Láng giềng gần nhất. 2.2.1 Cây quyết định Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể
  16. 16 cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định 2.2.2 Phân lớp sử dụng Naïve Bayes Là phương pháp học phân lớp có giám sát và dựa trên xác suất. Việc phân loại dựa trên các giá trị xác suất của các khả năng xảy ra của các giả thiết. Là một trong các phương pháp học máy thường được sửa dụng trong các bài toán thực tế. 2.2.3 K – láng giềng gần nhất Thuật toán K láng giềng gần nhất nên được dùng khi các ví dụ được biểu diễn là các vector trong không gian số thực. Số lượng các thuộc tính, số chiều của không gian đầu vào không lớn . 2.3 Kết chương Chương đã đề cập đến một số mô hình và phương pháp Toán học trong việc hỗ trợ ra quyết định bao gồm: mô hình dự báo, mô hình máy học và nhận biết, mô hình tối ưu, mô hình quản lý dự án, mô hình phân tích nguy cơ, mô hình đường đợi. Chương cũng đã trình bầy một số phương pháp toán học, một số giải thuật điển hình trong các mô hình, tập trung vào chức năng dự báo bao gồm: Cây quyết định, Phân lớp sử dụng Naïve Bayes, K – láng giềng gần nhất.
  17. 17 CHƯƠNG 3. ĐỀ XUẤT MÔ HÌNH BI CHO DỮ LIỆU KINH DOANH TRONG DOANH NGHIỆP VIỄN THÔNG 3.1 Đặt vấn đề Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm chi tiết cuộc gọi, thông tin cảnh báo trình trạng của hệ thống mạng viễn thông, thông tin dữ liệu về khách hàng, loại hình dịch vụ như di động trả sau, di động trả trước, cố định, internet, mytv, dữ liệu cước thanh toán,…việc ứng dụng kỹ thuật kinh doanh thông minh như thế nào? để phát hiện các quy luật ẩn chứa trong khối dữ liệu khổng lồ đó sẽ mang lại cho các doanh nghiệp viễn thông nhiều cơ hội để phát triển các ứng dụng mang tính thực tiễn cao 3.1.1 Bối cảnh hiện nay Hiện nay, đa số các công ty Viễn thông sử dụng các công cụ đánh giá còn đơn giản, thiếu trực quan và sinh động do chưa thể hiện được nhiều chiều của dữ liệu trên các bản báo cáo, thống kê, tổng hợp và phân tích, trong đó cũng phải kể đến mức độ đầu tư cho CNTT không phải là đồng đều và được chú trọng như nhau Mỗi đơn vị một kiểu Như đã nói ở trên, tình trạng hiện nay của các đơn vị viễn thông sử dụng các phần mềm quản lý do doanh nghiệp trong nước phát triển hoặc do đơn vị tự phát triển, do đó đã không nhất quán về
  18. 18 cấu trúc dữ liệu, dữ liệu rời rạc không tập chung gây khó khăn trong công tác quản lý hoặc tích hợp hệ thống cơ sở dữ liệu dùng chung 3.1.2 Áp dụng BI vào các doanh nghiệp viễn thông như thế nào? “Vấn đề quan trọng trong hoạt động kinh doanh viễn thông là khả năng nắm bắt thông tin về ai đã bán cái gì cho ai và khi nào?”. Do đó, việc thiết lập các báo cáo tổng hợp, thống kê sản lượng, dự báo và kế hoạch bán hàng sẽ có thể mất vài giờ, thậm chí vài ngày nếu thực hiện thủ công trên Excel hoặc tổng hợp trên văn bản giấy do mất nhiều thời gian thiết lập báo cáo, kiểm tra, so sánh đối chiếu các số liệu. Đây là điều thường xảy ra ở rất nhiều doanh nghiệp không có hệ thống quản lý hiệu quả. Và quan trọng hơn là các số liệu báo cáo luôn có độ sai lệch lớn giữa các đơn vị, phòng ban, các nhân viên làm báo cáo và nhà quản lý sẽ không biết số liệu nào là đáng tin cậy. 3.1.3 Phân tích hệ thống báo cáo di động hỗ trợ quyết định Hệ thống báo cáo số liệu, biểu đồ phân tích hiện tại của đơn vị Viễn thông được xây dựng dựa trên nhu cầu thực tế của người dùng, do đó một trong những nhiệm vụ quan trọng khi xây dựng hệ thống là thu thập, phân tích và xử lý đầy đủ các biểu mẫu và tiêu chí báo cáo hiện tại đang được sử dụng trong công tác báo cáo tình hình hoạt động sản xuất kinh doanh tại đơn vị. Dựa vào kết quả thu thập và phân tích ở trên học viên sẽ thiết kế hệ thống báo cáo, biểu đồ để phục vụ hệ thống báo cáo phục vụ hỗ trợ quyết định cho đơn vị Viễn thông.
  19. 19 3.2 Thiết kế hệ thống BI cho dữ liệu nạp thẻ và sản lượng tiêu thụ của doanh nghiệp viễn thông 3.2.1 Phân loại và giới hạn dữ liệu đầu vào của hệ thống 3.2.1.1 Giới hạn bài toán trong luận văn Giả sử rằng: “Dữ liệu thô (raw data) đã được ghi cước bởi tổng đài và được chuyển đổi từ file nhị phân hoặc file text ra định dạng chuẩn được người thiết kế kho dữ liệu qui định, và sau đó sử dụng công cụ ETL để làm sạch dữ liệu, lọc bỏ các dữ liệu lỗi, dữ liệu nhiễu, các thông tin không hợp lệ trước khi chuyển vào kho dữ liệu (datawarehouse)”. Do vậy, trong luận văn học viên sẽ đề xuất thiết kế cơ sở dữ liệu chủ đề (datamart) cho một số loại dịch vụ chính là: dữ liệu sản lượng tiêu thụ và dữ liệu nạp thẻ di động của thuê bao trả trước. Các kiểu dữ liệu khác như là: Thông tin khách hàng, thuê bao cố định, dịch vụ Internet, MyTV…., sẽ được đề cập trong hướng đề tài nghiên cứu tiếp theo 3.2.1.2 Phân loại dữ liệu dịch vụ 3.2.2 Mô hình kết nối trích xuất dữ liệu từ các đơn vị thành viên Dựa trên hạ tầng mạng có sẵn, kết nối hiện tại giữa các đơn vị thành viên của Tập đoàn, được kết nối qua đường truyền số liệu điều hành sản xuất kinh doanh (VNPT NET) qua đường truyền cáp quang bằng giao thức TCP/IP, dung lượng truyền file và trích xuất dữ tới Trung tâm dữ liệu (DC) tập trung tại Tập đoàn.
  20. 20 Hình 3-1: Mô hình kết nối trích xuất dữ liệu 3.2.3 Đề xuất mô hình triển khai thử nghiệm Dữ liệu, số liệu của các hệ thống như ERP, CRM, (CSS), Prepaid…, các dữ liệu đó sẽ được công cụ ETL sẽ trích rút, làm sạch thông tin loại bỏ dữ liệu lỗi, dữ liệu nhiễu,… theo các tiêu chí lỗi được định nghĩa bởi nhà cung cấp và chuyển về kho dữ liệu chung của hệ thống. Với hệ thống cơ sở dữ liệu đã được xây dựng, các thông tin sẽ được đưa về những khu vực lưu trữ thích hợp. Quy trình diễn ra như sau:
nguon tai.lieu . vn