Xem mẫu
- MỤC LỤC
Chương 1: Nền tảng ứng dụng của khai phá dữ liệu.............................................................2
I. Mở đầu...................................................................................................................................2
II. Lịch sử của ngành khoa học thống kê và khai phá dữ liệu.................................................4
III. Khoa học thống kê hiện đại................................................................................................4
IV. Hai quan điểm thực tế........................................................................................................7
V. Sự xuất hiện của phân tích thống kê hiện đại: Thế hệ thứ hai.........................................9
VI. Dữ liệu, dữ liệu ở mọi nơi...............................................................................................11
VII. Phương pháp học máy: Thế hệ thứ ba...........................................................................11
VIII. Học thuyết thống kê: Tổng quan thứ 4.........................................................................12
PHỤ CHÚ................................................................................................................................14
1
- Chương 1: Nền tảng ứng dụng của khai phá dữ liệu
I. Mở đầu
Bạn đọc chắc hẳn là một người rất thích thú với lĩnh vực ứng dụng khai phá dữ
liệu vào thực tiễn. Nếu không thì bạn đã chẳng đọc cuốn sách này. Chúng ta đều
biết hiện nay có rất nhiều cuốn sách viết về quá trình khai phá dữ liệu. Hầu hết các
tài liệu này đều tập trung trình bày những đặc điểm, chức năng của các công cụ và
giải thuật khai phá dữ liệu khác nhau. Một số tài liệu khác thì lại tập trung vào việc
đề cập đến những thách thức mà chúng ta có thể gặp phải trong quá trình khai phá
dữ liệu. Cuốn sách này được trình bày với một mục đích hoàn toàn khác, nhằm cung
cấp cho bạn một một cái nhìn tổng quan về ứng dụng của khai phá dữ liệu trong
thực tiễn.
Điều đầu tiên mà chúng ta phải xem xét tới khi muốn thực hiện quá trình khai phá
dữ liệu tác nghiệp của một doanh nghiệp đó là lựa chọn công cụ khai phá dữ liệu.
Thật khó để có thể nhìn ra sự thực đằng sau những lời quảng cáo thổi phồng của
các công ty phần mềm về những công cụ khai phá dữ liệu mà họ phát triển. Thực tế
cho thấy rằng chính những công cụ khai phá dữ liệu "xoàng xĩnh" nhất vẫn có khả
năng tạo ra được những mô hình đạt chất lượng tốt, chỉ thua kém chút ít (khoảng
10% về chất lượng) so với những mô hình được tạo ra bởi các công cụ khai phá
được xem là tốt nhất.
Một giải pháp khai phá dữ liệu đạt chất lượng tốt được thực hiện chỉ với những
công cụ chi phí thấp sẽ cho hiệu quả kinh tế cao hơn nhiều so với việc sử dụng
những công cụ đắt tiền mà hiệu quả chỉ cao hơn khoảng 10%. Vậy bạn sẽ lựa chọn
công cụ khai phá dữ liệu cho mình như thế nào?
Một vài tổng kết đã được đưa ra. Danh sách các công cụ tốt nhất và phổ biến
nhất được cập nhật hằng năm trên trang KDNuggets.com. Một số tổng kết có trong
tài liệu không chỉ chỉ đơn thuần là thảo luận về các đặc điểm và chức năng của các
công cụ. Việc so sánh các công cụ khai phá dữ liệu một cách chi tiết và chính xác
cũng rất thú vị. "Những tài liệu được download nhiều nhất là những tài liệu liên
quan đến lĩnh vực khai phá dữ liệu" - điều này cũng thật dễ hiểu nhưng lại là về
các công cụ ra đời cách đây cả chục năm được tổng kết bởi Elder và Abbott vào năm
1998.
2
- Những cân nhắc khác cần phải tính tới khi muốn xây dựng ứng dụng khai phá dữ
liệu tác nghiệp của một doanh nghiệp là thành lập nhóm phát triển, thiết lập nền
tảng, tổ chức việc ứng dụng khai phá dữ liệu sao cho hiệu quả. Cuốn sách này
không thảo luận về chủ đề xây dựng nền tảng cho khai phá dữ liệu. Chủ đề này đã
được đề cập khá nhiều trong các cuốn sách. Một cuốn sách tốt, cung cấp một cái
nhìn tổng quan về việc xây dựng nền tảng cho khai phá dữ liệu đó là cuốn: "Khai
phá dữ liệu: khái niệm và phương pháp" được biên soạn bởi Han và Kamber, phát
hành năm 2006.
Trọng tâm chính của cuốn sách này là trình bày một cách tiếp cận theo hướng
thực hành để xây dựng một mô hình khai phá dữ liệu hiệu quả, ít tốn kém, hướng
tới việc góp phần tăng lợi nhuận cho doanh nghiệp, trong đó sử dụng các bài học và
các phiên bản demo của các công cụ khai phá dữ liệu thường dùng.
Chúng ta không được cho rằng nền tảng cơ sở của khai phá dữ liệu là không
quan trọng. Nó thực sự quan trọng cho dù chúng ta có nhận ra nó từ đầu hay không.
Lý do là bởi vì phương pháp luận của khoa học thống kê và khai phá dữ liệu không
phải tự nhiên mà có. Phương pháp phân tích dữ liệu được phát triển dựa trên sự kết
hợp của lý thuyết phân tích và thống kê toán.
Yếu tố thúc đẩy sự phát triển này là do yêu cầu cấp bách cần phải có một
phương pháp phân tích đơn giản, có tính lặp phục vụ cho y học. Bắt đầu từ đây,
phương pháp luận về phân tích số liệu thống kê hiện đại và khai phá dữ liệu được
phát triển. Để hiểu được sức mạnh cũng như giới hạn của phương pháp và sử dụng
chúng một cách hiệu quả, chúng ta phải hiểu được sức mạnh và giới hạn của lý
thuyết thống kê toán được sử dụng làm nền tảng cho phương pháp. Lý thuyết thống
kê toán được phát triển một cách định hướng bởi các nhà toán học và cũng xuất hiện
những cách nhìn khác nhau về cách thức giải quyết những bài toán phân tích số liệu.
Để hiểu được cách tiếp cận giải quyết bài toán, chúng ta phải hiểu những con
đường khác nhau mà con người hướng tới. Sự phát triển của lĩnh vực toán học thống
kê là nền tảng cơ sở cho các kỹ thuật thống kê khác nhau. Chúng được thúc đẩy do
nhu cầu của những tác vụ khai phá dữ liệu phức tạp
3
- II. Lịch sử của ngành khoa học thống kê và khai phá dữ
liệu
Nhu cầu phân tích các mẫu dữ liệu không phải là cái gì đó mới mẻ. Những khái
niệm trong thống kê toán như giá trị trung bình hay sự phân nhóm đã được biết đến
từ thời cổ đại ở Trung Quốc sau khi người ta phát minh ra bàn tính. Ở Trung Quốc
và Hy Lạp cổ đại, sự phát triển của khoa học thống kê giúp cho giai cấp thống trị
quản lý một cách hiệu quả những vấn đề về ngân khố và quân sự. Trong thế kỷ 16
và 17, các trò chơi may rủi rất phổ biến trong giới thượng lưu. Những câu hỏi về xác
suất thường được đặt ra cho các nhà toán học. Điều này đã thúc đẩy những nghiên
cứu về xác suất thống kê trong giai đoạn sau đó.
III. Khoa học thống kê hiện đại
Hai nhánh của khoa học phân tích thống kê được phát triển vào thế kỷ thứ 18:
Thống kê Bayes và thống kê phân lớp. Chúng ta có thể xem đây là giai đoạn phát
triển đầu tiên của ngành khoa học thống kê. Theo quan niệm của lý thuyết thống kê
Bayes thì xác suất của xảy ra của một sự kiện được tính bằng xác suất xảy ra sự
kiện đó trong quá khứ nhân với khả năng xảy ra sự kiện đó trong tương lai.
Quá trình phân tích dựa trên khái niệm về xác suất có điều kiện: xác suất một sự
kiện xảy ra được xác định thông qua một sự kiện khác đã xảy đến. Phân tích Bayes
khởi đầu bằng việc đánh giá trạng thái liên quan đến sự hiểu biết, niềm tin và
những giả định của quan sát viên. Những yếu tố chủ quan này được kết hợp với dữ
liệu được xác định một cách gần đúng bằng xác suất thông qua một hàm mục tiêu.
Phương pháp thống kê phân lớp quan tâm đến xác suất bộ phận hơn là xác suất
có điều kiện, thực sự là nền tảng phù hợp cho việc phân tích. Hàm xác suất bộ phận
mô tả xuất mà X nhận giá trị cụ thể x và Y nhận giá trị y cùng lúc như là một hàm
của 2 biến x, y.
Sự quan tâm nghiên cứu về lý thuyết xác suất đã lôi cuốn nhiều nhà khoa học
trong lĩnh vực sinh học sau Mendel ở nửa sau thế kỷ XIX. Francis Galton, người sáng
lập ra ngôi trường nghiên cứu về Di truyền học ở Anh và người kế nhiệm của ông
là Karl Pearson đã phát triển những khái niệm toán học về hồi quy và tương quan để
phân tích những dữ liệu liên quan đến quá trình tiến hóa của sinh vật. Sau đó Pearson
và các đồng sự của mình đã mở rộng phạm vi nghiên cứu và ứng dụng của họ vào
4
- trong các lĩnh vực của khoa học xã hội. Tiếp sau Pearson, R.A.Fisher đã phát triển hệ
thống kiểm tra các kết luận sử dụng trong các nghiên cứu y học dựa trên khái niệm
do ông đưa ra về độ lệch chuẩn. Sự phát triển của lý thuyết xác suất đã vượt ra
ngoài những phát kiến của Galton và Pearson, những phương pháp dự đoán đã sớm ra
đời sau lý thuyết của Bayes. Những phương pháp cận của Bayes đối với việc kiểm
tra các kết luận trong thí nghiệm y học đã dẫn tới những kết luận khác nhau được
đưa ra bởi những y bác sĩ làm nhiệm vụ theo dõi nghiên cứu bởi vì họ chịu tác động
của những yếu tố mang tính chủ quan khác nhau. Mục tiêu của Fisher trong việc
phát triển hệ thống phân tích thống kê của ông là nhằm cung cấp cho các chuyên gia
y học theo dõi thí nghiệm một tập các công cụ nhằm so sánh các kết quả nghiên cứu
về hiệu quả của các phương pháp điều trị khác nhau, được thực hiện bởi các chuyên
gia y tế khác nhau. Tuy nhiên hệ thống của mình có thể làm việc với các mẫu lớn,
Fisher phải đưa ra một số các giả định để định nghĩa ra "Mô hình tham chiếu".
Các giả định của mô hình tham chiếu:
1. Dữ liệu là tương thích với phân bố đã biết
Những nghiên cứu đầu tiên của Fisher dựa trên sự tính toán tham số về độ lệch
chuẩn với giả định rằng dữ liệu được phân bố theo một phân bố chuẩn. Phân bố
chuẩn ở đây là phân bố hình "chuông" với giá trị trung bình nằm ở "đỉnh chuông" và
"đuôi" kết thúc ở các bên. Độ lệch chuẩn ở dây chỉ đơn giản là giá trị trung bình của
trị tuyệt đối độ lệch giữa các giá trị khác và giá trị trung bình. Trong tính toán này,
khái niệm trung bình được xác định bằng cách chia tổng giá trị tuyệt đối của các độ
lệnh chuẩn cho số lượng các độ lệch chuẩn - 1. Phép trừ 1 ở đây cho thấy tính
không chắc chắn của kết quả tăng lên do việc phân nhóm. Những cải tiến sau này sử
dụng các tham số bổ trợ dựa trên phân bố logistic và phân bổ Poisson. Giả định về
một phân bố đã biết là cần thiết để khắc họa những đặc điểm của hàm phân bố
nhằm đưa ra những kết luận. Tất cả những phương pháp sử dụng tham chiếu đều
ẩn chứa rủi ro khi ép dữ liệu thu nhận được từ thế giới thực phải thỏa mãn một mô
hình toán học mà về bản chất là không phù hợp.
2. Tính độc lập của các nhân tố
Trong các hệ thống dự đoán, biến được dự đoán (Y) được xem như là một hàm
của các biến quan trắc được (X), các biến này được giả thiết là tác động một cách
5
- độc lập lên Y. Điều này có nghĩa là sự tác động của lên Y của mỗi biến X là không
phụ thuộc vào tác động của các biến X khác. Những tình huống như thế có thể được
tạo ra trong phòng thí nghiệm bằng cách cho phép chỉ một nhân tố thay đổi còn các
nhân tố khác được giữ cố định. Tuy nhiên trong thế giới thực, điều này là không thể.
Như là một kết quả tất yếu, một vài nhân tố (có khả năng tác động đến các nhân tố
khác) cũng tham gia vào quá trình tác động lên Y. Hiện tượng này gọi là collinearity.
Khi hiện tượng này xảy ra giữa một số lượng nhiều hơn hai nhân tố thì nó được gọi
là multicollinearity.
Do sự tác động lẫn nhau giữa các nhân tố đầu vào nên các nhà thống kê học phải
sử dụng những khái niệm liên quan đến sự tương tác trong mối quan hệ giữa các
nhân tố (được biểu diễn như là sự kết hợp của các tác động).
3. Tích lũy tuyến tính
Không chỉ yêu cầu các biến X là độc lập mà tác động của chúng lên Y phải mang
tính tích lũy và tuyến tính. Có nghĩa là tác động của mỗi nhân tố sẽ được cộng thêm
hay trừ đi trong kết hợp của các tác động từ tập biến X lên Y. Nhưng điều gì sẽ xảy
ra trong trường hợp quan hệ giữa Y và các biến quan trắc X không phải là thông qua
phép cộng mà là phép nhân hay phép chia. Những trường hợp như thế này chỉ có thể
mô tả thông qua các phép toán lũy thừa thường được dùng phổ biến khi muốn biểu
diễn những mối quan hệ không tuyến tính. Giả thiết về tính tích lũy tuyến tính cho
những mối quan hệ như thế này có thể gây ra lỗi lớn trong kết quả dự đoán. Điều
này thường xảy ra trong trường hợp chúng được sử dụng để xử lý các dữ liệu kinh
doanh của doanh nghiệp.
4. Tính biến đổi đều
Sự thay đổi giá trị trong miền xác định của mỗi biến được giả thiết là hằng số.
Điều này có nghĩa là nếu ta chia miền xác định của mỗi biến thành các vùng thì sự
thay đổi của giá trị trong vùng 1 cũng sẽ giống như trong tất cả các vùng còn lại.
5. Các biến phải mang các giá trị số và liên tục
Giả thiết rằng các biến phải mang giá trị số và liên tục có nghĩa là dữ liệu mà
chúng ta xem xét phải là dữ liệu kiểu số (hoặc chúng phải được số hóa trước khi
tiến hành phân tích) và các con số ở đây được xem là một phần cấu thành của một
phân bố liên tục. Các giá trị nguyên không thể coi là liên tục, chúng là những giá trị
6
- rời rạc. Những phương pháp thống kê phân lớp chuẩn hóa không còn đúng nữa khi
sử dụng với những dữ liệu rời rạc bởi vì các phân bố xác suất áp dụng cho dữ liệu
rời rạc và liên tục là khác nhau. Tuy nhiên các nhà khoa học hay các chuyên gia phân
tích kinh tế vẫn sử dụng chúng tùy đièu kiện.
Trong một bài viết của mình, Fisher (1921) đã bắt đầu bằng việc định nghĩa rộng
về xác suất như là xác suất nội tại để một sự kiện xảy ra chia cho xác suất để tất
cả các sự kiện khác cùng xảy ra đồng thời. Kết thúc bài viết của mình Fisher đã cải
biên định nghĩa xác suất của mình để áp dụng cho việc phân tích các kết quả nghiên
cứu y học như là xác suất nội tại của một quá trình xảy ra sự kiện. Ông đặt tên cho
đại lượng này là "khả năng xảy ra sự kiện" (likelihood). Những nhà nghiên cứu sau
này xem hai định nghĩa "khả năng xảy ra" hay "xác suất" là một.
IV. Hai quan điểm thực tế
Bất cứ khi nào chúng ta xem xét giải quyết một vấn đề hoặc trả lời một câu
hỏi, chúng ta bắt đầu bằng khái niệm của nó . Điều đó có nghĩa chúng tôi làm một
trong hai điều: (1) cố gắng làm giảm nó để yếu tố chính hoặc (2) cố gắng để phân
tích nó trong điều kiện chung. Việc kêu gọi những người có mỗi cách tiếp cận cụ
thể "và" người dân bức tranh lớn, "tương ứng. Những gì chúng tôi không coi đó là sự
phân biệt này có nguồn gốc sâu xa trong triết học Hy Lạp trong các công trình của
Aristotle và Plato.
Aristotle : tin rằng là của sự vật có thể được nhận thức đúng thực tế chỉ bởi
những gì mắt có thể nhìn thấy, tay có thể liên lạc, vv Ông tin rằng mức độ cao nhất
của hoạt động trí tuệ đã được các nghiên cứu chi tiết của thế giới hữu hình xung
quanh chúng ta. Chỉ trong cách chúng ta có thể hiểu thực tế. Dựa trên cách tiếp cận
này để hiểu về thế giới, Aristotle được dẫn dắt để tin rằng chúng ta có thể phá vỡ
một hệ thống phức tạp thành từng miếng, mô tả những mảnh cụ thể, đặt mảnh với
nhau và hiểu được toàn bộ. Đối với Aristotle, các "toàn bộ" được bằng tổng của các
bộ phận của nó. Điều này bản chất của toàn bộ đã được xem bởi Aristotle theo một
phương cách rất giống như máy. Khoa học đến với Aristotle rất sớm. Bản chất của
thế giới xung quanh chúng tôi được nghiên cứu bằng cách nhìn rất kỹ các yếu tố vật
lý và các đơn vị sinh học (loài) mà bao gồm nó. Theo sự hiểu biết của chúng ta về
thế giới tự nhiên trưởng thành vào các khái niệm về hệ sinh thái, nó đã được phát
7
- hiện ra rằng nhiều đặc tính của các hệ sinh thái không thể được giải thích bởi
truyền thống (Aristotle) phương pháp tiếp cận. Ví dụ, trong khoa học lâm nghiệp,
chúng tôi phát hiện ra rằng khi một khu rừng nhiệt đới bị cắt xuống trong phạm vi
của nó, có thể mất một thời gian rất dài để tái sinh. Chúng tôi đã học được rằng lý
do cho việc này là ở các khu vực căng thẳng tương đối (ví dụ, các khu vực ngoại vi),
đặc điểm chính cần thiết cho sự sống còn và phát triển của cây nhiệt đới được duy
trì bởi các rừng tự! Lượng mưa cao làm tan các chất dinh dưỡng xuống vượt quá
tầm với của các gốc cây, vì vậy gần như tất cả các chất dinh dưỡng cho cây tăng
trưởng phải đi từ lá gần đây đã giảm. Khi bạn đốn hạ chúng xuống, bạn loại bỏ
rằng nguồn gốc của chất dinh dưỡng. Tán rừng cũng duy trì điều kiện thuận lợi của
ánh sáng, độ ẩm, và nhiệt độ yêu cầu của cây. Loại bỏ các tán rừng loại bỏ những
yếu tố rất cần thiết cho nó để tồn tại ở đó. Các yếu tố này xuất hiện chỉ khi hệ
thống được toàn bộ và hoạt động. Nhiều hệ thống phức tạp được như thế, thậm chí
cả hệ thống kinh doanh. Trong thực tế, những tài sản này nổi lên có thể được các
trình điều khiển chính của hệ thống ổn định và tính dự đoán trước. Để hiểu sự thất
bại của triết học Aristotle cho hoàn toàn xác định trên thế giới, chúng ta phải trở về
Hy Lạp cổ đại, xem xét đối thủ của Aristotle,
Plato:Plato và Aristotle đều đồng ý vào bản chất của người. Trong khi
Aristotle tập trung vào miêu tả những thứ hữu hình trên thế giới bởi các nghiên cứu
chi tiết, Plato tập trung vào thế giới của những ý tưởng mà nằm đằng sau các
xúc. Đối với Plato, điều duy nhất mà đã kéo dài được là một ý tưởng. Ông tin rằng
những điều quan trọng nhất trong sự tồn tại của con người đã vượt quá những gì mà
mắt có thể nhìn thấy và bàn tay có thể nhận biết. Plato tin rằng ảnh hưởng của các ý
tưởng vượt lên trên cả thế giới của sự vật hữu hình mà định hướng nhiều quan tâm
của Aristotle. Đối với Plato, các "toàn bộ" của thực tế lớn hơn tổng của phần hữu
hình của nó. Khái niệm về bản chất của các bị được phát triển ban đầu trong tư duy
phương Tây khi một nền tảng Platon. Platonism làm chủ các nhận thức triết học
trong hơn 2.000 năm, cho đến khi được thay đổi. Sau đó, làn sóng của tư duy phương
Tây chuyển về hướng Aristotle. Sự phân chia của tư tưởng vào bản chất của thực tế
được phản ánh trong nhiều nỗ lực của chúng tôi để xác định bản chất của thực tế
trên thế giới, đôi khi vô thức như vậy. Chúng tôi nói về sự khác biệt giữa "người dân
8
- bức tranh lớn" và những người cụ thể "", chúng ta tương phản "từ trên xuống" so
với phương pháp tiếp cận để tổ chức "từ dưới lên" phương pháp tiếp cận, và chúng
ta so sánh "trái óc" người có "quyền-nao" người dân. Những dichotomies của nhận
thức được ít hơn một rehash của cuộc tranh luận giữa các cổ đại Plato và Aristotle.
V. Sự xuất hiện của phân tích thống kê hiện đại: Thế
hệ thứ hai
Trong những năm 80 của thế kỷ XX, các nhà toán học thống kê đã biết rõ là
cách tiếp cận Aristotle của quá khứ đã quá hạn chế cho việc phân tích các mối quan
hệ rất phi tuyến trong bộ dữ liệu lớn trong các hệ thống phức tạp của thế giới thực.
Nghiên cứu toán học tiếp tục theo đường thống kê Fisherian bằng việc phát triển các
phiên bản phi tuyến của phương pháp tham số. Đa đường cong hồi quy là một trong
những phương pháp tiếp cận đầu tiên cho kế toán cho phi tuyến trong dữ liệu phân
tán liên tục. Tuy nhiên, nhiều vấn đề phi tuyến liên quan đến sự rời rạc hơn là sự
phân tán liên tục. Những phương pháp này gồm có:
- Mô hình Logit (bao gồm hồi quy logistic): Dữ liệu được giả định theo một sự
phân tán logistic và biến phụ thuộc không có điều kiện. Trong phương pháp
này biến phụ thuộc (Y) được định nghĩa như là một hàm lũy thừa của các
biến dự đoán (X). Như vậy mối quan hệ có thể thống kê phi tuyến từ vai trò
của các biến X tới biến Y nhưng không phải sự tương tác giữa các biến X.
- Mô hình Probit (bao gồm hồi quy Poisson): Giống như mô hình Logit ngoại trừ
việc giả định dữ liệu theo sự phân tán Poisson.
- Mô hình tuyến tính suy rộng (GLM): Mô hình GLM mở rộng phương trình dự
đoán sử dụng trong việc dự đoán Y = f {X}, f là một hàm và X là một veto của
các biến dự đoán. Vế trái của phương trình được gọi là thành phần xác định,
về phải gọi là thành phần ngẫu nhiên và dấu bằng là nhiều hàm liên kết có
thế. Phương pháp thống kê nhận ra rằng thành phần xác định có thể được
biểu diễn như một hàm số mũ (giống như hàm logistic), thành phần ngẫu
nhiên được tích lũy các tác động của các biến X và vẫn là tuyến tính. Hàm liên
kế có thể là một toán tử logic nào đó (bằng, lớn hơn, nhỏ hơn). Dấu bằng
được gọi là liên kết đồng nhất. Hiện tại các nhà toán học đã có cơ sở để định
9
- nghĩa một hàm phù hợp một các tập dữ liệu phi tuyến. Nhưng nó sẽ được để
lại cho sự phát triển của mạng nơron để diễn tả các hàm ở bất cứ độ phi
tuyến nào.
Trong khi sự phát triển này đang xảy ra trong thế giới của Fisher, một nhóm kiên
định của Bayes tiếp tục đưa ra phương pháp tiếp cận của họ. Theo họ thì ý nghĩa
thực hành (liên quan tới những gì xảy ra trong quá khứ) thì quan trọng hơn ý nghĩa
thống kê được tính toán từ các hàm xác xuất. Ví dụ, nhu cầu thực hành để chuẩn
đoán khối u ung thư một cách chính xác (đúng – tích cực) thì quan trọng hơn là lỗi
của việc chuẩn đoán sai khối u ung thư khi nó sai (tiêu cực). Trong lĩnh vực này sự
chú ý thuộc về Plato, liên quan đến sự chuẩn đoán chính xác với môi trường dữ liệu
từ bất kỳ mẫu riêng biệt nào được lấy ra chứ không phải chỉ dự đoán một số mẫu
nào đó. Đề phục vụ nhu cầu thực hành này họ đã bỏ qua một thực tế là bạn chỉ có
thể xem như là xác suất của sự kiện này chỉ xảy ra trong môi trường dữ liệu trong
quá khứ, không phải là xác xuất của sự kiện xảy có thể xảy ra nhưng không xảy ra.
Trong sự thống kê Fisher quan sát và lỗi alpha tương ứng xác định nó khác với
những gì được mong đợi. Lỗi alpha là xác suất để bạn sai khi bạn nghĩ là bạn đúng.
Trong khi lỗi beta là xác suất bạn đúng khi bạn nghĩ là bạn sai. Những người
Fisherian đặt lỗi alpha ở đầu của sự phân tích và tham chiếu tới các sai khác có ý
nghĩa giữa các mật độ dữ liệu trong các khái niệm của lỗi alpha được xác định.
Những người Fisherian có thể thêm hậu tố vào dự đoán của mình là “...mức độ tin
tưởng 95%”. Mức độ tin tưởng (95% trong trường hợp này) là phần bù của lỗi alpha
(0.05%). Nó có nghĩa là nhà điều tra hài lòng 5% sai số của thời gian. Những người
Fisherian sử dụng lỗi beta để tính toán khả năng hay sự bùng nổ của một thử nghiệm
phân tích. Những người Bayesian cảm thấy tự do xoay vòng giữa lỗi alpha và beta,
họ cho rằng bạn không thể đạt tới độ chính xác mà không giả định một số lựa chọn
thay thế một cách cẩn thận. Họ xác nhận rằng mức xác suất được tính ở mức 0.23
đối với các sự kiện cho trước ở dữ liệu mẫu không có ý là xác suất của tất cả các
sự kiện trên thế giới đều là 0.23.
Phương pháp tiếp cận nào là đúng, Fisherian hay Bayesian. Câu trả lời phụ thuộc
vào bản chất của nghiên cứu, khả năng của việc giả định, chi phí liên quan giữa lỗi
10
- sai-tiêu cực và lỗi đúng-tích cực. Trước khi lựa chọn điều này chúng ta phải nhớ
rằng tất cả các thử nghiệm thống kê đều có những ưu điểm và nhược điểm. Chúng
ta phải hiểu rõ các điểm mạnh và điểm yếu của cả 2 phương pháp và hiểu rõ ý
nghĩa của kết quả mà mỗi phương pháp tạo ra. Mặc dù còn có những tồn tại trong
các phép thống kê của Fisher và Bayes nhưng đã tìm ra vai trò to lớn của nó trong lĩnh
vực phát triển khai phá dữ liệu trong kinh doanh bằng Mạng tin cậy Bayes và Phân
loại Bayes đơn giản. Trong kinh doanh, thành công trong các ứng dụng thực tế phụ
thuộc vào độ hoàn hảo khi phân tích tất cả các thay thế biến. Các sự thay thế không
khả thi không có giá trị giả định. Một trong những hướng dẫn được đính kèm trên đĩa
DVD sử dụng thuật toán phân loại Bayes đơn giản.
VI. Dữ liệu, dữ liệu ở mọi nơi...
Xem xét kỹ nhu cầu thực hành của việc kinh doanh để rút ra những tri thức từ
dữ liệu có thể được làm đòn bẩy ngay lập tức để tăng doanh thu được yêu cầu các
kỹ thuật phân tích mới cho phép phân tích sâu sắc mối quan hệ phi tuyến trong mọi
tập dữ liệu lớn với sự phân tán không xác định. Sự phát triển của kỹ thuật mới theo
3 đường tốt hơn là theo 2 đường như truyền thống. Đường thứ 3 (học máy) có thể
được xem như là một đường cong Aristote và Plato tới sự thực nhưng không phải là
Bayes.
VII. Phương pháp học máy: Thế hệ thứ ba
Dòng suy nghĩ được biết như cách học máy bắt đầu của trao đổi trí thông minh
nhân tạo trên 1 quá trình cho máy thông minh. Bắt đầu, 1 vài cách đã theo 2 cách phát
triển song song: mạng lưới neuron nhân tạo và cây quyết định.
- Mạng lưới neuron nhân tạo. Con đường đầu tiên được tìm kiếm để nhấn
mạnh chức năng 1 biến thiên trực tiếp ( gọi tắt là nguyên nhân) bởi các cách
phân định quan trọng tới việc nhập biến thiên, tăng sự ảnh hưởng của nó, và
tác động tới sản xuất giá trị bên ngoài ( gọi tắt là kết quả) theo vài chức năng
quyết định. Hệ thống (mạng lưới neuron nhân tạo) được trình bày đơn giản
theo cách mà bộ não con người hoạt động bằng qua các xung lực neuron từ sự
kết nối neuron toi neuron. Sự “ chống đối” trong quá trình xung lực giữa 2
neuron trong bộ não con người là rất nhiều. Mối quan hệ phức tạp của các
11
- neuron là có thể huấn luyện và có thể học cách đối phó nhanh hơn yêu cầu từ
bộ não. Các nhà khoa học máy tính bắt đầu phát biểu một cách rất tổng quát
nhóm của hệ thống trong phần của hệ thống neuron nhân tạo mà có thể từng
được học như thế nào để nhận thức các sự việc phức tạp trong việc nhập
nhiều việc của 1 dữ liệu.
- Các cây quyết định : Con đường thứ 2 của sự phát triển được quan tâm với
việc biểu lộ các hiệu quả trực tiếp bằng các cách phát triển tới tìm kiếm các
quy luật mà có thể được đáng giá cho việc phân ra việc nhập những giá trị vào
một của vô số “bins” mà không có biểu lộ trực tiếp chức năng của mối quan
hệ. Tất cả các cách tập trung diễn đạt rõ ràng quy luật ( phương pháp quy
nạp) hay biểu lộ mối quan hệ giữa các quy luật ( cây quyết định) mà kết quả
được chú trọng. Tất cả các phương pháp tránh sự phê bình của học thuyết
Kim Tự Tháp và rất thích hợp phân tích các vô tuyến ( viết tắt là NLEs), sự
kết hợp ảnh hưởng cả 2 của X-biến thiên với Y-biến thiên và tác động qua
lại giữa các biến thiên độc lập. Khi các cây quyết định và hệ thống neuron có
thể biểu lộ NLEs phức tạp hơn các phương pháp thống kê Kim Tự Tháp, tất
cả thuộc về bản chất tuyến trong kết hợp các chức năng đấy.
VIII. Học thuyết thống kê: Tổng quan thứ 4
Các kỹ thuật hồi quy logistic có thể tính toán cho sự kết hợp tác động qua lại
giữa các yếu tố dự báo bởi hiệu quả của các chức năng vô tuyến mà xác định các
biến thiên độc lập (Y). Tuy nhiên, vẫn còn nhiều hạn chế đáng kể cho các máy
tuyến tính ( xem Minsky và Papert, 1969). Ngay cả hệ thống neuron và các cây quyết
định cũng gặp vấn đề đó. 1 cách để thể hiện hạn chế là nhìn chúng theo “ giả thuyết
không gian”. Giả thuyết không gian là xây dựng trong vòng 1 giải pháp được tìm
thấy. Tuy nhiên các giải pháp có thể được ràng buộc cao hơn bởi các chức năng
tuyến tính trong học thuyết thống kê cổ điển và các kỹ thuật học máy. Sự phức tạp
vấn đề trong thế giới thật có thể yêu cầu nhiều học thuyến không gian mà có thể
được cung cấp bởi các chức năng tuyến tính để diễn đạt rõ hơn ( Cristianini và
Shawe-Taylor, 2000). Mạng lưới đa lớp neuron có thể chiếm nhiều hơn của các hiệu
ứng vô tuyến bởi các hiệu quả nhà kỹ thuật mạng và kỹ nghệ giảm thiểu lỗi, ví dụ
là sự lan truyền trở lại. Một cách giải quyết khác là sắp xếp các điểm dữ liệu vào
12
- các vectors ( như các hàng trong 1 mục lưu trữ khách hàng) . Rất nhiều vectors được
tạo ra từ nhiều yếu tố ( một cho mỗi thuộc tính trong lưu trữ khách hàng). Vector
không gian của các hàng dữ liệu khách hàng trong 1 database có thể được đặc điểm
hóa , thuộc về nhận thức và toán học như là 1 không gian với N-thứ nguyên, mà N là
số của thuộc tính khách hàng( các biến có thể dự đóan trước). Khi bạn xem dữ liệu
của 1 lưu trữ khách hàng như 1 vector, bạn có thể tận dung khái niệm đại số tuyến
tính, một trong các cách đó là bạn có thể biểu diễn trên các sự khác nhau giữa các
thuộc tính của 2 lưu trữ khách hàng bằng cách tính dấu chấm sản phẩm ( hoặc sản
phẩm bên trong)
Chúng ta có thể biểu diễn dữ liệu dưới dạng một chuỗi tích vô hướng trong
không gian N chiều. Ngay cả những thuật toán thống kê cổ điển cũng có thể được
biểu diễn tương tự. Trong Lý thuyết Học qua thống kê (Statistical Learning Theory),
người ta dùng nhiều hàm phức khác nhau gọi là “hàm nhân” thay cho tích vô hướng.
Khi bạn ánh xạ dữ liệu vào trong không gian nhân phức này, thì không gian giải pháp
cho bài toán của bạn sẽ tăng đáng kể. Dữ liệu trong những không gian này được gọi
là “đặc điểm” hơn là các thuộc tính đặc trưng cho dữ liệu gốc.
Nhiều kỹ thuật học mới cũng đã tận dụng đặc tính của những máy học qua
hàm nhân. Kỹ thuật được áp dụng phổ biến nhất là Máy Vector hỗ trợ (Support
Vector Machine). Khi một mạng neuron được “đào tạo,” từng hàng dữ liệu của
khách hàng sẽ được đưa vào mạng này, và ta tính được sai số giữa giá trị đã phỏng
đoán trước và giá trị quan sát được. Hàm tiếp thu của máy và hàm giảm thiểu sai số
được lồng ghép chặt chẽ với nhau trong mạng lưới neuron. Điều này không xảy ra
trong trường hợp sử dụng máy Vector hỗ trợ. Bởi vì quá trình tiếp thu của máy và
quá trình ước tính là hai quá trình tách biệt nên bạn có thể thí nghiệm bằng cách sử
dụng nhiều hàm nhân khác nhau với nhiều thuyết máy học khác nhau. Do đó, thay vì
chọn ra nhiều cấu trúc khác nhau cho một ứng dụng về mạng neuron, bạn có thể thử
nhiều hàm nhân khác nhau trong một máy vector hỗ trợ.
Nhiều gói phần mềm thương mại kèm theo thuật toán dựa tên Thuyết Học
qua Thống Kê, đáng kể là STATISTICA Data Miner và KXEN (Knowledge Extraction
Engine). Trong tương lai, ta sẽ thấy được nhiều thuật toán mạnh mẽ như thế này
nữa tronrg những gói phần mềm thương mại. Cuối cùng, những cách thức khai thác
13
- dữ liệu có thể sẽ tập trung quanh các bước cho phép những thuật toán này làm việc
hiệu quả nhất. Khi ta tích luỹ ngày càng nhiều dữ liệu, ta sẽ có thể ngày càng khám
giá ra những cách thức thông minh để giả lập giống hơn hoạt động của máy học
phức tạp nhất thế giới — bộ não người.
PHỤ CHÚ
Hiện tại người ta đang khai thác nhiều phương thức mới để phân bổ công
việc tính toán ra nhiều máy tính nối với nhau như nhiều tế bào thần kinh trong não:
• Điện toán lưới: Tận dụng một nhóm máy tính có kết nối với nhau để “chia và trị”
những bài toán.
• Điện toán mây: Dùng Internet để phân bố dữ liệu và các tác vụ tính toán tới nhiều
máy tính ở bất kỳ nơi nào trên thế giới, nhưng không cần một kết cấu phần cứng
tập trung như điện toán lưới.
14
nguon tai.lieu . vn