Xem mẫu

  1. MỤC LỤC Chương 1: Nền tảng ứng dụng của khai phá dữ liệu.............................................................2 I. Mở đầu...................................................................................................................................2 II. Lịch sử của ngành khoa học thống kê và khai phá dữ liệu.................................................4 III. Khoa học thống kê hiện đại................................................................................................4 IV. Hai quan điểm thực tế........................................................................................................7 V. Sự xuất hiện của phân tích thống kê hiện đại: Thế hệ thứ hai.........................................9 VI. Dữ liệu, dữ liệu ở mọi nơi...............................................................................................11 VII. Phương pháp học máy: Thế hệ thứ ba...........................................................................11 VIII. Học thuyết thống kê: Tổng quan thứ 4.........................................................................12 PHỤ CHÚ................................................................................................................................14 1
  2. Chương 1: Nền tảng ứng dụng của khai phá dữ liệu I. Mở đầu Bạn đọc chắc hẳn là một người rất thích thú với lĩnh vực ứng dụng khai phá dữ liệu vào thực tiễn. Nếu không thì bạn đã chẳng đọc cuốn sách này. Chúng ta đều biết hiện nay có rất nhiều cuốn sách viết về quá trình khai phá dữ liệu. Hầu hết các tài liệu này đều tập trung trình bày những đặc điểm, chức năng của các công cụ và giải thuật khai phá dữ liệu khác nhau. Một số tài liệu khác thì lại tập trung vào việc đề cập đến những thách thức mà chúng ta có thể gặp phải trong quá trình khai phá dữ liệu. Cuốn sách này được trình bày với một mục đích hoàn toàn khác, nhằm cung cấp cho bạn một một cái nhìn tổng quan về ứng dụng của khai phá dữ liệu trong thực tiễn. Điều đầu tiên mà chúng ta phải xem xét tới khi muốn thực hiện quá trình khai phá dữ liệu tác nghiệp của một doanh nghiệp đó là lựa chọn công cụ khai phá dữ liệu. Thật khó để có thể nhìn ra sự thực đằng sau những lời quảng cáo thổi phồng của các công ty phần mềm về những công cụ khai phá dữ liệu mà họ phát triển. Thực tế cho thấy rằng chính những công cụ khai phá dữ liệu "xoàng xĩnh" nhất vẫn có khả năng tạo ra được những mô hình đạt chất lượng tốt, chỉ thua kém chút ít (khoảng 10% về chất lượng) so với những mô hình được tạo ra bởi các công cụ khai phá được xem là tốt nhất. Một giải pháp khai phá dữ liệu đạt chất lượng tốt được thực hiện chỉ với những công cụ chi phí thấp sẽ cho hiệu quả kinh tế cao hơn nhiều so với việc sử dụng những công cụ đắt tiền mà hiệu quả chỉ cao hơn khoảng 10%. Vậy bạn sẽ lựa chọn công cụ khai phá dữ liệu cho mình như thế nào? Một vài tổng kết đã được đưa ra. Danh sách các công cụ tốt nhất và phổ biến nhất được cập nhật hằng năm trên trang KDNuggets.com. Một số tổng kết có trong tài liệu không chỉ chỉ đơn thuần là thảo luận về các đặc điểm và chức năng của các công cụ. Việc so sánh các công cụ khai phá dữ liệu một cách chi tiết và chính xác cũng rất thú vị. "Những tài liệu được download nhiều nhất là những tài liệu liên quan đến lĩnh vực khai phá dữ liệu" - điều này cũng thật dễ hiểu nhưng lại là về các công cụ ra đời cách đây cả chục năm được tổng kết bởi Elder và Abbott vào năm 1998. 2
  3. Những cân nhắc khác cần phải tính tới khi muốn xây dựng ứng dụng khai phá dữ liệu tác nghiệp của một doanh nghiệp là thành lập nhóm phát triển, thiết lập nền tảng, tổ chức việc ứng dụng khai phá dữ liệu sao cho hiệu quả. Cuốn sách này không thảo luận về chủ đề xây dựng nền tảng cho khai phá dữ liệu. Chủ đề này đã được đề cập khá nhiều trong các cuốn sách. Một cuốn sách tốt, cung cấp một cái nhìn tổng quan về việc xây dựng nền tảng cho khai phá dữ liệu đó là cuốn: "Khai phá dữ liệu: khái niệm và phương pháp" được biên soạn bởi Han và Kamber, phát hành năm 2006. Trọng tâm chính của cuốn sách này là trình bày một cách tiếp cận theo hướng thực hành để xây dựng một mô hình khai phá dữ liệu hiệu quả, ít tốn kém, hướng tới việc góp phần tăng lợi nhuận cho doanh nghiệp, trong đó sử dụng các bài học và các phiên bản demo của các công cụ khai phá dữ liệu thường dùng. Chúng ta không được cho rằng nền tảng cơ sở của khai phá dữ liệu là không quan trọng. Nó thực sự quan trọng cho dù chúng ta có nhận ra nó từ đầu hay không. Lý do là bởi vì phương pháp luận của khoa học thống kê và khai phá dữ liệu không phải tự nhiên mà có. Phương pháp phân tích dữ liệu được phát triển dựa trên sự kết hợp của lý thuyết phân tích và thống kê toán. Yếu tố thúc đẩy sự phát triển này là do yêu cầu cấp bách cần phải có một phương pháp phân tích đơn giản, có tính lặp phục vụ cho y học. Bắt đầu từ đây, phương pháp luận về phân tích số liệu thống kê hiện đại và khai phá dữ liệu được phát triển. Để hiểu được sức mạnh cũng như giới hạn của phương pháp và sử dụng chúng một cách hiệu quả, chúng ta phải hiểu được sức mạnh và giới hạn của lý thuyết thống kê toán được sử dụng làm nền tảng cho phương pháp. Lý thuyết thống kê toán được phát triển một cách định hướng bởi các nhà toán học và cũng xuất hiện những cách nhìn khác nhau về cách thức giải quyết những bài toán phân tích số liệu. Để hiểu được cách tiếp cận giải quyết bài toán, chúng ta phải hiểu những con đường khác nhau mà con người hướng tới. Sự phát triển của lĩnh vực toán học thống kê là nền tảng cơ sở cho các kỹ thuật thống kê khác nhau. Chúng được thúc đẩy do nhu cầu của những tác vụ khai phá dữ liệu phức tạp 3
  4. II. Lịch sử của ngành khoa học thống kê và khai phá dữ  liệu Nhu cầu phân tích các mẫu dữ liệu không phải là cái gì đó mới mẻ. Những khái niệm trong thống kê toán như giá trị trung bình hay sự phân nhóm đã được biết đến từ thời cổ đại ở Trung Quốc sau khi người ta phát minh ra bàn tính. Ở Trung Quốc và Hy Lạp cổ đại, sự phát triển của khoa học thống kê giúp cho giai cấp thống trị quản lý một cách hiệu quả những vấn đề về ngân khố và quân sự. Trong thế kỷ 16 và 17, các trò chơi may rủi rất phổ biến trong giới thượng lưu. Những câu hỏi về xác suất thường được đặt ra cho các nhà toán học. Điều này đã thúc đẩy những nghiên cứu về xác suất thống kê trong giai đoạn sau đó. III. Khoa học thống kê hiện đại Hai nhánh của khoa học phân tích thống kê được phát triển vào thế kỷ thứ 18: Thống kê Bayes và thống kê phân lớp. Chúng ta có thể xem đây là giai đoạn phát triển đầu tiên của ngành khoa học thống kê. Theo quan niệm của lý thuyết thống kê Bayes thì xác suất của xảy ra của một sự kiện được tính bằng xác suất xảy ra sự kiện đó trong quá khứ nhân với khả năng xảy ra sự kiện đó trong tương lai. Quá trình phân tích dựa trên khái niệm về xác suất có điều kiện: xác suất một sự kiện xảy ra được xác định thông qua một sự kiện khác đã xảy đến. Phân tích Bayes khởi đầu bằng việc đánh giá trạng thái liên quan đến sự hiểu biết, niềm tin và những giả định của quan sát viên. Những yếu tố chủ quan này được kết hợp với dữ liệu được xác định một cách gần đúng bằng xác suất thông qua một hàm mục tiêu. Phương pháp thống kê phân lớp quan tâm đến xác suất bộ phận hơn là xác suất có điều kiện, thực sự là nền tảng phù hợp cho việc phân tích. Hàm xác suất bộ phận mô tả xuất mà X nhận giá trị cụ thể x và Y nhận giá trị y cùng lúc như là một hàm của 2 biến x, y. Sự quan tâm nghiên cứu về lý thuyết xác suất đã lôi cuốn nhiều nhà khoa học trong lĩnh vực sinh học sau Mendel ở nửa sau thế kỷ XIX. Francis Galton, người sáng lập ra ngôi trường nghiên cứu về Di truyền học ở Anh và người kế nhiệm của ông là Karl Pearson đã phát triển những khái niệm toán học về hồi quy và tương quan để phân tích những dữ liệu liên quan đến quá trình tiến hóa của sinh vật. Sau đó Pearson và các đồng sự của mình đã mở rộng phạm vi nghiên cứu và ứng dụng của họ vào 4
  5. trong các lĩnh vực của khoa học xã hội. Tiếp sau Pearson, R.A.Fisher đã phát triển hệ thống kiểm tra các kết luận sử dụng trong các nghiên cứu y học dựa trên khái niệm do ông đưa ra về độ lệch chuẩn. Sự phát triển của lý thuyết xác suất đã vượt ra ngoài những phát kiến của Galton và Pearson, những phương pháp dự đoán đã sớm ra đời sau lý thuyết của Bayes. Những phương pháp cận của Bayes đối với việc kiểm tra các kết luận trong thí nghiệm y học đã dẫn tới những kết luận khác nhau được đưa ra bởi những y bác sĩ làm nhiệm vụ theo dõi nghiên cứu bởi vì họ chịu tác động của những yếu tố mang tính chủ quan khác nhau. Mục tiêu của Fisher trong việc phát triển hệ thống phân tích thống kê của ông là nhằm cung cấp cho các chuyên gia y học theo dõi thí nghiệm một tập các công cụ nhằm so sánh các kết quả nghiên cứu về hiệu quả của các phương pháp điều trị khác nhau, được thực hiện bởi các chuyên gia y tế khác nhau. Tuy nhiên hệ thống của mình có thể làm việc với các mẫu lớn, Fisher phải đưa ra một số các giả định để định nghĩa ra "Mô hình tham chiếu". Các giả định của mô hình tham chiếu: 1. Dữ liệu là tương thích với phân bố đã biết Những nghiên cứu đầu tiên của Fisher dựa trên sự tính toán tham số về độ lệch chuẩn với giả định rằng dữ liệu được phân bố theo một phân bố chuẩn. Phân bố chuẩn ở đây là phân bố hình "chuông" với giá trị trung bình nằm ở "đỉnh chuông" và "đuôi" kết thúc ở các bên. Độ lệch chuẩn ở dây chỉ đơn giản là giá trị trung bình của trị tuyệt đối độ lệch giữa các giá trị khác và giá trị trung bình. Trong tính toán này, khái niệm trung bình được xác định bằng cách chia tổng giá trị tuyệt đối của các độ lệnh chuẩn cho số lượng các độ lệch chuẩn - 1. Phép trừ 1 ở đây cho thấy tính không chắc chắn của kết quả tăng lên do việc phân nhóm. Những cải tiến sau này sử dụng các tham số bổ trợ dựa trên phân bố logistic và phân bổ Poisson. Giả định về một phân bố đã biết là cần thiết để khắc họa những đặc điểm của hàm phân bố nhằm đưa ra những kết luận. Tất cả những phương pháp sử dụng tham chiếu đều ẩn chứa rủi ro khi ép dữ liệu thu nhận được từ thế giới thực phải thỏa mãn một mô hình toán học mà về bản chất là không phù hợp. 2. Tính độc lập của các nhân tố Trong các hệ thống dự đoán, biến được dự đoán (Y) được xem như là một hàm của các biến quan trắc được (X), các biến này được giả thiết là tác động một cách 5
  6. độc lập lên Y. Điều này có nghĩa là sự tác động của lên Y của mỗi biến X là không phụ thuộc vào tác động của các biến X khác. Những tình huống như thế có thể được tạo ra trong phòng thí nghiệm bằng cách cho phép chỉ một nhân tố thay đổi còn các nhân tố khác được giữ cố định. Tuy nhiên trong thế giới thực, điều này là không thể. Như là một kết quả tất yếu, một vài nhân tố (có khả năng tác động đến các nhân tố khác) cũng tham gia vào quá trình tác động lên Y. Hiện tượng này gọi là collinearity. Khi hiện tượng này xảy ra giữa một số lượng nhiều hơn hai nhân tố thì nó được gọi là multicollinearity. Do sự tác động lẫn nhau giữa các nhân tố đầu vào nên các nhà thống kê học phải sử dụng những khái niệm liên quan đến sự tương tác trong mối quan hệ giữa các nhân tố (được biểu diễn như là sự kết hợp của các tác động). 3. Tích lũy tuyến tính Không chỉ yêu cầu các biến X là độc lập mà tác động của chúng lên Y phải mang tính tích lũy và tuyến tính. Có nghĩa là tác động của mỗi nhân tố sẽ được cộng thêm hay trừ đi trong kết hợp của các tác động từ tập biến X lên Y. Nhưng điều gì sẽ xảy ra trong trường hợp quan hệ giữa Y và các biến quan trắc X không phải là thông qua phép cộng mà là phép nhân hay phép chia. Những trường hợp như thế này chỉ có thể mô tả thông qua các phép toán lũy thừa thường được dùng phổ biến khi muốn biểu diễn những mối quan hệ không tuyến tính. Giả thiết về tính tích lũy tuyến tính cho những mối quan hệ như thế này có thể gây ra lỗi lớn trong kết quả dự đoán. Điều này thường xảy ra trong trường hợp chúng được sử dụng để xử lý các dữ liệu kinh doanh của doanh nghiệp. 4. Tính biến đổi đều Sự thay đổi giá trị trong miền xác định của mỗi biến được giả thiết là hằng số. Điều này có nghĩa là nếu ta chia miền xác định của mỗi biến thành các vùng thì sự thay đổi của giá trị trong vùng 1 cũng sẽ giống như trong tất cả các vùng còn lại. 5. Các biến phải mang các giá trị số và liên tục Giả thiết rằng các biến phải mang giá trị số và liên tục có nghĩa là dữ liệu mà chúng ta xem xét phải là dữ liệu kiểu số (hoặc chúng phải được số hóa trước khi tiến hành phân tích) và các con số ở đây được xem là một phần cấu thành của một phân bố liên tục. Các giá trị nguyên không thể coi là liên tục, chúng là những giá trị 6
  7. rời rạc. Những phương pháp thống kê phân lớp chuẩn hóa không còn đúng nữa khi sử dụng với những dữ liệu rời rạc bởi vì các phân bố xác suất áp dụng cho dữ liệu rời rạc và liên tục là khác nhau. Tuy nhiên các nhà khoa học hay các chuyên gia phân tích kinh tế vẫn sử dụng chúng tùy đièu kiện. Trong một bài viết của mình, Fisher (1921) đã bắt đầu bằng việc định nghĩa rộng về xác suất như là xác suất nội tại để một sự kiện xảy ra chia cho xác suất để tất cả các sự kiện khác cùng xảy ra đồng thời. Kết thúc bài viết của mình Fisher đã cải biên định nghĩa xác suất của mình để áp dụng cho việc phân tích các kết quả nghiên cứu y học như là xác suất nội tại của một quá trình xảy ra sự kiện. Ông đặt tên cho đại lượng này là "khả năng xảy ra sự kiện" (likelihood). Những nhà nghiên cứu sau này xem hai định nghĩa "khả năng xảy ra" hay "xác suất" là một. IV. Hai quan điểm thực tế Bất cứ khi nào chúng ta xem xét giải quyết một vấn đề hoặc trả lời một câu hỏi, chúng ta bắt đầu bằng khái niệm của nó . Điều đó có nghĩa chúng tôi làm một trong hai điều: (1) cố gắng làm giảm nó để yếu tố chính hoặc (2) cố gắng để phân tích nó trong điều kiện chung. Việc kêu gọi những người có mỗi cách tiếp cận cụ thể "và" người dân bức tranh lớn, "tương ứng. Những gì chúng tôi không coi đó là sự phân biệt này có nguồn gốc sâu xa trong triết học Hy Lạp trong các công trình của Aristotle và Plato. Aristotle : tin rằng là của sự vật có thể được nhận thức đúng thực tế chỉ bởi những gì mắt có thể nhìn thấy, tay có thể liên lạc, vv Ông tin rằng mức độ cao nhất của hoạt động trí tuệ đã được các nghiên cứu chi tiết của thế giới hữu hình xung quanh chúng ta. Chỉ trong cách chúng ta có thể hiểu thực tế. Dựa trên cách tiếp cận này để hiểu về thế giới, Aristotle được dẫn dắt để tin rằng chúng ta có thể phá vỡ một hệ thống phức tạp thành từng miếng, mô tả những mảnh cụ thể, đặt mảnh với nhau và hiểu được toàn bộ. Đối với Aristotle, các "toàn bộ" được bằng tổng của các bộ phận của nó. Điều này bản chất của toàn bộ đã được xem bởi Aristotle theo một phương cách rất giống như máy. Khoa học đến với Aristotle rất sớm. Bản chất của thế giới xung quanh chúng tôi được nghiên cứu bằng cách nhìn rất kỹ các yếu tố vật lý và các đơn vị sinh học (loài) mà bao gồm nó. Theo sự hiểu biết của chúng ta về thế giới tự nhiên trưởng thành vào các khái niệm về hệ sinh thái, nó đã được phát 7
  8. hiện ra rằng nhiều đặc tính của các hệ sinh thái không thể được giải thích bởi truyền thống (Aristotle) phương pháp tiếp cận. Ví dụ, trong khoa học lâm nghiệp, chúng tôi phát hiện ra rằng khi một khu rừng nhiệt đới bị cắt xuống trong phạm vi của nó, có thể mất một thời gian rất dài để tái sinh. Chúng tôi đã học được rằng lý do cho việc này là ở các khu vực căng thẳng tương đối (ví dụ, các khu vực ngoại vi), đặc điểm chính cần thiết cho sự sống còn và phát triển của cây nhiệt đới được duy trì bởi các rừng tự! Lượng mưa cao làm tan các chất dinh dưỡng xuống vượt quá tầm với của các gốc cây, vì vậy gần như tất cả các chất dinh dưỡng cho cây tăng trưởng phải đi từ lá gần đây đã giảm. Khi bạn đốn hạ chúng xuống, bạn loại bỏ rằng nguồn gốc của chất dinh dưỡng. Tán rừng cũng duy trì điều kiện thuận lợi của ánh sáng, độ ẩm, và nhiệt độ yêu cầu của cây. Loại bỏ các tán rừng loại bỏ những yếu tố rất cần thiết cho nó để tồn tại ở đó. Các yếu tố này xuất hiện chỉ khi hệ thống được toàn bộ và hoạt động. Nhiều hệ thống phức tạp được như thế, thậm chí cả hệ thống kinh doanh. Trong thực tế, những tài sản này nổi lên có thể được các trình điều khiển chính của hệ thống ổn định và tính dự đoán trước. Để hiểu sự thất bại của triết học Aristotle cho hoàn toàn xác định trên thế giới, chúng ta phải trở về Hy Lạp cổ đại, xem xét đối thủ của Aristotle, Plato:Plato và Aristotle đều đồng ý vào bản chất của người. Trong khi Aristotle tập trung vào miêu tả những thứ hữu hình trên thế giới bởi các nghiên cứu chi tiết, Plato tập trung vào thế giới của những ý tưởng mà nằm đằng sau các xúc. Đối với Plato, điều duy nhất mà đã kéo dài được là một ý tưởng. Ông tin rằng những điều quan trọng nhất trong sự tồn tại của con người đã vượt quá những gì mà mắt có thể nhìn thấy và bàn tay có thể nhận biết. Plato tin rằng ảnh hưởng của các ý tưởng vượt lên trên cả thế giới của sự vật hữu hình mà định hướng nhiều quan tâm của Aristotle. Đối với Plato, các "toàn bộ" của thực tế lớn hơn tổng của phần hữu hình của nó. Khái niệm về bản chất của các bị được phát triển ban đầu trong tư duy phương Tây khi một nền tảng Platon. Platonism làm chủ các nhận thức triết học trong hơn 2.000 năm, cho đến khi được thay đổi. Sau đó, làn sóng của tư duy phương Tây chuyển về hướng Aristotle. Sự phân chia của tư tưởng vào bản chất của thực tế được phản ánh trong nhiều nỗ lực của chúng tôi để xác định bản chất của thực tế trên thế giới, đôi khi vô thức như vậy. Chúng tôi nói về sự khác biệt giữa "người dân 8
  9. bức tranh lớn" và những người cụ thể "", chúng ta tương phản "từ trên xuống" so với phương pháp tiếp cận để tổ chức "từ dưới lên" phương pháp tiếp cận, và chúng ta so sánh "trái óc" người có "quyền-nao" người dân. Những dichotomies của nhận thức được ít hơn một rehash của cuộc tranh luận giữa các cổ đại Plato và Aristotle. V. Sự xuất hiện của phân tích thống kê hiện đại: Thế  hệ thứ hai Trong những năm 80 của thế kỷ XX, các nhà toán học thống kê đã biết rõ là cách tiếp cận Aristotle của quá khứ đã quá hạn chế cho việc phân tích các mối quan hệ rất phi tuyến trong bộ dữ liệu lớn trong các hệ thống phức tạp của thế giới thực. Nghiên cứu toán học tiếp tục theo đường thống kê Fisherian bằng việc phát triển các phiên bản phi tuyến của phương pháp tham số. Đa đường cong hồi quy là một trong những phương pháp tiếp cận đầu tiên cho kế toán cho phi tuyến trong dữ liệu phân tán liên tục. Tuy nhiên, nhiều vấn đề phi tuyến liên quan đến sự rời rạc hơn là sự phân tán liên tục. Những phương pháp này gồm có: - Mô hình Logit (bao gồm hồi quy logistic): Dữ liệu được giả định theo một sự phân tán logistic và biến phụ thuộc không có điều kiện. Trong phương pháp này biến phụ thuộc (Y) được định nghĩa như là một hàm lũy thừa của các biến dự đoán (X). Như vậy mối quan hệ có thể thống kê phi tuyến từ vai trò của các biến X tới biến Y nhưng không phải sự tương tác giữa các biến X. - Mô hình Probit (bao gồm hồi quy Poisson): Giống như mô hình Logit ngoại trừ việc giả định dữ liệu theo sự phân tán Poisson. - Mô hình tuyến tính suy rộng (GLM): Mô hình GLM mở rộng phương trình dự đoán sử dụng trong việc dự đoán Y = f {X}, f là một hàm và X là một veto của các biến dự đoán. Vế trái của phương trình được gọi là thành phần xác định, về phải gọi là thành phần ngẫu nhiên và dấu bằng là nhiều hàm liên kết có thế. Phương pháp thống kê nhận ra rằng thành phần xác định có thể được biểu diễn như một hàm số mũ (giống như hàm logistic), thành phần ngẫu nhiên được tích lũy các tác động của các biến X và vẫn là tuyến tính. Hàm liên kế có thể là một toán tử logic nào đó (bằng, lớn hơn, nhỏ hơn). Dấu bằng được gọi là liên kết đồng nhất. Hiện tại các nhà toán học đã có cơ sở để định 9
  10. nghĩa một hàm phù hợp một các tập dữ liệu phi tuyến. Nhưng nó sẽ được để lại cho sự phát triển của mạng nơron để diễn tả các hàm ở bất cứ độ phi tuyến nào. Trong khi sự phát triển này đang xảy ra trong thế giới của Fisher, một nhóm kiên định của Bayes tiếp tục đưa ra phương pháp tiếp cận của họ. Theo họ thì ý nghĩa thực hành (liên quan tới những gì xảy ra trong quá khứ) thì quan trọng hơn ý nghĩa thống kê được tính toán từ các hàm xác xuất. Ví dụ, nhu cầu thực hành để chuẩn đoán khối u ung thư một cách chính xác (đúng – tích cực) thì quan trọng hơn là lỗi của việc chuẩn đoán sai khối u ung thư khi nó sai (tiêu cực). Trong lĩnh vực này sự chú ý thuộc về Plato, liên quan đến sự chuẩn đoán chính xác với môi trường dữ liệu từ bất kỳ mẫu riêng biệt nào được lấy ra chứ không phải chỉ dự đoán một số mẫu nào đó. Đề phục vụ nhu cầu thực hành này họ đã bỏ qua một thực tế là bạn chỉ có thể xem như là xác suất của sự kiện này chỉ xảy ra trong môi trường dữ liệu trong quá khứ, không phải là xác xuất của sự kiện xảy có thể xảy ra nhưng không xảy ra. Trong sự thống kê Fisher quan sát và lỗi alpha tương ứng xác định nó khác với những gì được mong đợi. Lỗi alpha là xác suất để bạn sai khi bạn nghĩ là bạn đúng. Trong khi lỗi beta là xác suất bạn đúng khi bạn nghĩ là bạn sai. Những người Fisherian đặt lỗi alpha ở đầu của sự phân tích và tham chiếu tới các sai khác có ý nghĩa giữa các mật độ dữ liệu trong các khái niệm của lỗi alpha được xác định. Những người Fisherian có thể thêm hậu tố vào dự đoán của mình là “...mức độ tin tưởng 95%”. Mức độ tin tưởng (95% trong trường hợp này) là phần bù của lỗi alpha (0.05%). Nó có nghĩa là nhà điều tra hài lòng 5% sai số của thời gian. Những người Fisherian sử dụng lỗi beta để tính toán khả năng hay sự bùng nổ của một thử nghiệm phân tích. Những người Bayesian cảm thấy tự do xoay vòng giữa lỗi alpha và beta, họ cho rằng bạn không thể đạt tới độ chính xác mà không giả định một số lựa chọn thay thế một cách cẩn thận. Họ xác nhận rằng mức xác suất được tính ở mức 0.23 đối với các sự kiện cho trước ở dữ liệu mẫu không có ý là xác suất của tất cả các sự kiện trên thế giới đều là 0.23. Phương pháp tiếp cận nào là đúng, Fisherian hay Bayesian. Câu trả lời phụ thuộc vào bản chất của nghiên cứu, khả năng của việc giả định, chi phí liên quan giữa lỗi 10
  11. sai-tiêu cực và lỗi đúng-tích cực. Trước khi lựa chọn điều này chúng ta phải nhớ rằng tất cả các thử nghiệm thống kê đều có những ưu điểm và nhược điểm. Chúng ta phải hiểu rõ các điểm mạnh và điểm yếu của cả 2 phương pháp và hiểu rõ ý nghĩa của kết quả mà mỗi phương pháp tạo ra. Mặc dù còn có những tồn tại trong các phép thống kê của Fisher và Bayes nhưng đã tìm ra vai trò to lớn của nó trong lĩnh vực phát triển khai phá dữ liệu trong kinh doanh bằng Mạng tin cậy Bayes và Phân loại Bayes đơn giản. Trong kinh doanh, thành công trong các ứng dụng thực tế phụ thuộc vào độ hoàn hảo khi phân tích tất cả các thay thế biến. Các sự thay thế không khả thi không có giá trị giả định. Một trong những hướng dẫn được đính kèm trên đĩa DVD sử dụng thuật toán phân loại Bayes đơn giản. VI. Dữ liệu, dữ liệu ở mọi nơi... Xem xét kỹ nhu cầu thực hành của việc kinh doanh để rút ra những tri thức từ dữ liệu có thể được làm đòn bẩy ngay lập tức để tăng doanh thu được yêu cầu các kỹ thuật phân tích mới cho phép phân tích sâu sắc mối quan hệ phi tuyến trong mọi tập dữ liệu lớn với sự phân tán không xác định. Sự phát triển của kỹ thuật mới theo 3 đường tốt hơn là theo 2 đường như truyền thống. Đường thứ 3 (học máy) có thể được xem như là một đường cong Aristote và Plato tới sự thực nhưng không phải là Bayes. VII. Phương pháp học máy: Thế hệ thứ ba Dòng suy nghĩ được biết như cách học máy bắt đầu của trao đổi trí thông minh nhân tạo trên 1 quá trình cho máy thông minh. Bắt đầu, 1 vài cách đã theo 2 cách phát triển song song: mạng lưới neuron nhân tạo và cây quyết định. - Mạng lưới neuron nhân tạo. Con đường đầu tiên được tìm kiếm để nhấn mạnh chức năng 1 biến thiên trực tiếp ( gọi tắt là nguyên nhân) bởi các cách phân định quan trọng tới việc nhập biến thiên, tăng sự ảnh hưởng của nó, và tác động tới sản xuất giá trị bên ngoài ( gọi tắt là kết quả) theo vài chức năng quyết định. Hệ thống (mạng lưới neuron nhân tạo) được trình bày đơn giản theo cách mà bộ não con người hoạt động bằng qua các xung lực neuron từ sự kết nối neuron toi neuron. Sự “ chống đối” trong quá trình xung lực giữa 2 neuron trong bộ não con người là rất nhiều. Mối quan hệ phức tạp của các 11
  12. neuron là có thể huấn luyện và có thể học cách đối phó nhanh hơn yêu cầu từ bộ não. Các nhà khoa học máy tính bắt đầu phát biểu một cách rất tổng quát nhóm của hệ thống trong phần của hệ thống neuron nhân tạo mà có thể từng được học như thế nào để nhận thức các sự việc phức tạp trong việc nhập nhiều việc của 1 dữ liệu. - Các cây quyết định : Con đường thứ 2 của sự phát triển được quan tâm với việc biểu lộ các hiệu quả trực tiếp bằng các cách phát triển tới tìm kiếm các quy luật mà có thể được đáng giá cho việc phân ra việc nhập những giá trị vào một của vô số “bins” mà không có biểu lộ trực tiếp chức năng của mối quan hệ. Tất cả các cách tập trung diễn đạt rõ ràng quy luật ( phương pháp quy nạp) hay biểu lộ mối quan hệ giữa các quy luật ( cây quyết định) mà kết quả được chú trọng. Tất cả các phương pháp tránh sự phê bình của học thuyết Kim Tự Tháp và rất thích hợp phân tích các vô tuyến ( viết tắt là NLEs), sự kết hợp ảnh hưởng cả 2 của X-biến thiên với Y-biến thiên và tác động qua lại giữa các biến thiên độc lập. Khi các cây quyết định và hệ thống neuron có thể biểu lộ NLEs phức tạp hơn các phương pháp thống kê Kim Tự Tháp, tất cả thuộc về bản chất tuyến trong kết hợp các chức năng đấy. VIII. Học thuyết thống kê: Tổng quan thứ 4 Các kỹ thuật hồi quy logistic có thể tính toán cho sự kết hợp tác động qua lại giữa các yếu tố dự báo bởi hiệu quả của các chức năng vô tuyến mà xác định các biến thiên độc lập (Y). Tuy nhiên, vẫn còn nhiều hạn chế đáng kể cho các máy tuyến tính ( xem Minsky và Papert, 1969). Ngay cả hệ thống neuron và các cây quyết định cũng gặp vấn đề đó. 1 cách để thể hiện hạn chế là nhìn chúng theo “ giả thuyết không gian”. Giả thuyết không gian là xây dựng trong vòng 1 giải pháp được tìm thấy. Tuy nhiên các giải pháp có thể được ràng buộc cao hơn bởi các chức năng tuyến tính trong học thuyết thống kê cổ điển và các kỹ thuật học máy. Sự phức tạp vấn đề trong thế giới thật có thể yêu cầu nhiều học thuyến không gian mà có thể được cung cấp bởi các chức năng tuyến tính để diễn đạt rõ hơn ( Cristianini và Shawe-Taylor, 2000). Mạng lưới đa lớp neuron có thể chiếm nhiều hơn của các hiệu ứng vô tuyến bởi các hiệu quả nhà kỹ thuật mạng và kỹ nghệ giảm thiểu lỗi, ví dụ là sự lan truyền trở lại. Một cách giải quyết khác là sắp xếp các điểm dữ liệu vào 12
  13. các vectors ( như các hàng trong 1 mục lưu trữ khách hàng) . Rất nhiều vectors được tạo ra từ nhiều yếu tố ( một cho mỗi thuộc tính trong lưu trữ khách hàng). Vector không gian của các hàng dữ liệu khách hàng trong 1 database có thể được đặc điểm hóa , thuộc về nhận thức và toán học như là 1 không gian với N-thứ nguyên, mà N là số của thuộc tính khách hàng( các biến có thể dự đóan trước). Khi bạn xem dữ liệu của 1 lưu trữ khách hàng như 1 vector, bạn có thể tận dung khái niệm đại số tuyến tính, một trong các cách đó là bạn có thể biểu diễn trên các sự khác nhau giữa các thuộc tính của 2 lưu trữ khách hàng bằng cách tính dấu chấm sản phẩm ( hoặc sản phẩm bên trong) Chúng ta có thể biểu diễn dữ liệu dưới dạng một chuỗi tích vô hướng trong không gian N chiều. Ngay cả những thuật toán thống kê cổ điển cũng có thể được biểu diễn tương tự. Trong Lý thuyết Học qua thống kê (Statistical Learning Theory), người ta dùng nhiều hàm phức khác nhau gọi là “hàm nhân” thay cho tích vô hướng. Khi bạn ánh xạ dữ liệu vào trong không gian nhân phức này, thì không gian giải pháp cho bài toán của bạn sẽ tăng đáng kể. Dữ liệu trong những không gian này được gọi là “đặc điểm” hơn là các thuộc tính đặc trưng cho dữ liệu gốc. Nhiều kỹ thuật học mới cũng đã tận dụng đặc tính của những máy học qua hàm nhân. Kỹ thuật được áp dụng phổ biến nhất là Máy Vector hỗ trợ (Support Vector Machine). Khi một mạng neuron được “đào tạo,” từng hàng dữ liệu của khách hàng sẽ được đưa vào mạng này, và ta tính được sai số giữa giá trị đã phỏng đoán trước và giá trị quan sát được. Hàm tiếp thu của máy và hàm giảm thiểu sai số được lồng ghép chặt chẽ với nhau trong mạng lưới neuron. Điều này không xảy ra trong trường hợp sử dụng máy Vector hỗ trợ. Bởi vì quá trình tiếp thu của máy và quá trình ước tính là hai quá trình tách biệt nên bạn có thể thí nghiệm bằng cách sử dụng nhiều hàm nhân khác nhau với nhiều thuyết máy học khác nhau. Do đó, thay vì chọn ra nhiều cấu trúc khác nhau cho một ứng dụng về mạng neuron, bạn có thể thử nhiều hàm nhân khác nhau trong một máy vector hỗ trợ. Nhiều gói phần mềm thương mại kèm theo thuật toán dựa tên Thuyết Học qua Thống Kê, đáng kể là STATISTICA Data Miner và KXEN (Knowledge Extraction Engine). Trong tương lai, ta sẽ thấy được nhiều thuật toán mạnh mẽ như thế này nữa tronrg những gói phần mềm thương mại. Cuối cùng, những cách thức khai thác 13
  14. dữ liệu có thể sẽ tập trung quanh các bước cho phép những thuật toán này làm việc hiệu quả nhất. Khi ta tích luỹ ngày càng nhiều dữ liệu, ta sẽ có thể ngày càng khám giá ra những cách thức thông minh để giả lập giống hơn hoạt động của máy học phức tạp nhất thế giới — bộ não người. PHỤ CHÚ Hiện tại người ta đang khai thác nhiều phương thức mới để phân bổ công việc tính toán ra nhiều máy tính nối với nhau như nhiều tế bào thần kinh trong não: • Điện toán lưới: Tận dụng một nhóm máy tính có kết nối với nhau để “chia và trị” những bài toán. • Điện toán mây: Dùng Internet để phân bố dữ liệu và các tác vụ tính toán tới nhiều máy tính ở bất kỳ nơi nào trên thế giới, nhưng không cần một kết cấu phần cứng tập trung như điện toán lưới. 14
nguon tai.lieu . vn