Xem mẫu
- BỘ LAO ĐỘNG - THƯƠNG BINH VÀ XÃ HỘI
TỔNG CỤC DẠY NGHỀ
tr×nh ®é ® µDự
o án
t ¹giáo
o dục kỹ thuật và dạy nghề (VTEP)
cc
GIÁO TRÌNH
Mô đun: TÍCH HỢP CÁC ỨNG DỤNG TRÊN WEB
QUA XML
Mã số:ITPRG3_15
NGHỀ: LẬP TRÌNH MÁY TÍNH
Trình độ lành nghề bậc cao
Đà lạt -2007
- Tuyên bố bản quyền :
Tài liệu này thuộc loại sách giáo trình
Cho nên các nguồn thông tin có thể được
phép dùng nguyên bản hoặc trích dùng cho
các mục đích về đào tạo và tham khảo .
Mọi mục đích khác có ý đồ lệch lạc hoặc
sử dụng với mục đích kinh doanh thiếu lành
mạnh sẽ bị nghiêm cấm.
Tổng Cục Dạy nghề sẽ làm mọi cách để bảo
vệ bản quyền của mình.
Tổng Cục Dạy Nghề cám ơn và hoan
nghênh các thông tin giúp cho việc tu sửa
và hoàn thiện tốt hơn tàI liệu này.
Địa chỉ liên hệ:
Dự án giáo dục kỹ thuật và nghề nghiệp
Tiểu Ban Phát triển Chương trình Học liệu
………………………………………………
................................................................
- LỜI TỰA
Đây là tài liệu được xây dựng theo chương trình của dự án giáo dục kỹ thuật và
dạy nghề, để có đươc giáo trình này dự án đó tiến hành theo hai giai đoạn.
Giai đoạn 1 : Xây dựng chương trình theo phương pháp DACUM, kết quả của
gian đoạn này là bộ khung chương trình gồm 230 trang cấp độ 2 và 170 trang cấp độ
3.
Giai đoạn 2 : 29 giáo trình và 29 tài liệu hướng dẫn giáo viên cho nghề lập trình
máy tính 2 cấp độ.
Để có được khung chương trình chúng tôi đã mời các giáo viên, các chuyên gia
đang làm việc trong lĩnh vực công nghệ thông tin cùng xây dựng chương trình.
Trong giai đoạn viết giáo trình chúng tôi cũng đã có những sự điều chỉnh để
giáo trình có tính thiết thực và phự hợp hơn với sự phát triển của lĩnh vực công nghệ
thông tin.
Trong quá trình biên soạn, mặc dù đã cố gắng tham khảo nhiều tài liệu và giáo
trình khác nhưng tác giả không khỏi tránh được những thiếu sót và hạn chế. Tác giả
chân thành mong đợi những nhận xét, đánh giá và góp ý để cuốn giáo trình ngày một
hoàn thiện hơn.
Tài liệu này được thiết kế theo từng mô đun/ môn học thuộc hệ thống mô
đun/môn học của một chương trình, để đào tạo hoàn chỉnh nghề Lập trình máy tính ở
cấp trình độ bậc cao và được dùng làm Giáo trình cho học viên trong các khoá đào
tạo, cũng có thể được sử dụng cho đào tạo ngắn hạn hoặc cho các công nhân kỹ
thuật, các nhà quản lý và người sử dụng nhân lực tham khảo.
Đây là tài liệu thử nghiệm sẽ được hoàn chỉnh để trở thành giáo trình chính
thức trong hệ thống dạy nghề.
Đà lạt ,tháng 10 năm 2007
- MỤC LỤC
ĐỀ MỤC TRANG
1. LỜI TỰA ......................................................................................................... 3
2. MỤC LỤC ....................................................................................................... 4
3. GIỚI THIỆU VỀ MÔ ĐUN/MÔN HỌC ............................................................. 5
4. SƠ ĐỒ QUAN HỆ THEO TRÌNH TỰ HỌC NGHỀ ......................................... 7
5. CÁC HÌNH THỨC HỌC TẬP CHÍNH TRONG MÔ ĐUN/MÔN HỌC ............... 8
6. YÊU CẦU VỀ ĐÁNH GIÁ HOÀN THÀNH MÔ ĐUN/MÔN HỌC ...................... 9
7. Bài 1:TỔNG QUAN VỀ TÍCH HỢP CÁC ỨNG DỤNG TRÊN MÔI
TRƯỜNG WEB DỰA VÀO XML ....................................................... 10
I- Tổng quan về XML ..................................................................................... 10
II-Cơ bản về XML .......................................................................................... 11
III-Parsing tài liệu XML .................................................................................. 37
8. BàI 2:XÂY DỰNG CÁC ỨNG DỤNG TRÊN WEB THEO HƯỚNG
DỰA VÀO XML ................................................................................... 44
I-Tích hợp mức CSDL ................................................................................... 44
II-Phát triển web ............................................................................................ 75
III-Xây dựng giao diện người sử dụng dựa vào XML .................................... 76
IV-Messaging dựa vào XML ........................................................................ 127
V-Xây dựng ứng dụng mức server .............................................................. 189
VI-Xây dựng mức client............................................................................... 208
9. Bài 3:CÁC CHỦ ĐỀ PHÁT TRIỂN ỨNG DỤNG TÍCH HỢP TRÊN
NHIỀU NẾN TẢNG,TRÊN CÁC HỆ THÔNG TIN HIỆN HÀNH
VÀ TRÊN CÁC DÒNG THIẾT BỊ KHÁC NHAU ................................ 239
I-Cơ chế xác lập ứng dụng liên quan đến nhiều nền tảng ........................... 239
II-Xây dựng các ứng dụng liên quan đến nhiều nền tảng dựa vào
web service .............................................................................................. 241
III-Tích hợp các hệ thông tin hiện có ........................................................... 242
IV-Tạo các giao diện giữa các hệ thống hiện hành ..................................... 243
V-Kiến trúc hệ ứng dụng tích hợp .............................................................. 245
10. Bài 4:LIÊN HỆ GIỮA XML VÀ .NET ........................................................... 249
I-Vấn đề XMLP(SOAP)................................................................................ 249
II-Cài đặt các ứng dụng hướng e-Business bằng Biztalk server .................. 256
III-Truy cập dữ liệu và XML ......................................................................... 257
IV-Parsing và tạo các tài liệu XML ............................................................... 262
11. THUẬT NGỮ CHUYÊN MÔN .................................................................... 267
12. TÀI LIỆU THAM KHẢO .............................................................................. 268
- GIỚI THIỆU VỀ MÔ ĐUN/MÔN HỌC
Vị trí, ý nghĩa, vai trò mô đun/môn học :
học sau các mô đun môn học : LẬP TRÌNH NÂNG CAO, LẬP TRÌNH WEB, ỨNG
DỤNG CNTT TRONG DOANH NGHIỆP, CƠ SỞ DỮ LIỆU, THIẾT KẾ HƯỚNG ĐỐI
TƯỢNG, CÔNG NGHỆ PHẦN MỀM
Mục tiêu của mô đun/môn học:
Lập trình XML để tích hợp các ứng dụng trong môi trường Web, mối quan hệ giữa
XML và công nghệ .NET. Tích hợp mức cơ sở dữ liệu, phát triển những ứng dụng
Web có lập trình XML.
Mục tiêu thực hiện của mô đun/môn học:
- Tổng quan về lập trình XML.
- Phát triển ứng dụng trên môi trường Web dựa vào XML.
- Phát triển theo hướng tích hợp các ứng dụng và cơ sở dữ liệu. Đặc biệt là các ứng
dụng trên nhiều nền tảng (Platform), các hệ thống thông tin hiện đang hoạt động
(Legacy System) và các ứng dụng đa thiết bị (Cross Device Development).
- Phối hợp được việc lập trình XML trên môi trường phát triển .NET.
Nội dung chính của mô đun/môn học
I. Tổng quan về tích hợp các ứng dụng trên môi trường web dựa vào xml
Chủ đề chính :
Ngôn ngữ XML (Extensible Markup Language) như là một hướng tích hợp ứng dụng
đầy tiềm năng. Hướng này đáp ứng các nhà phát triển ứng dụng, và các nhà quản lý
khi có nhu cầu tích hợp các ứng dụng đang có thành các ứng dụng khai thác tài
nguyên thông tin phục vụ quản lý, điều hành. Hướng này cũng xét đến việc tích hợp
trên nhiều nến tảng (Multiplatform) và chéo nhiều dòng thiết bị (Cross Device
Development)
Bức tranh chung nhất về XML và những khả năng đáp ứng của lập trình XML giải
quyết lớp các bài toán tích hợp đặt ra ngày nay. Cuối cùng là mối quan hệ giữa lập
trình XML với công nghệ Microsoft .NET.
Kỹ năng thực hành :
Nhận diện được các ngữ cảnh liên quan đến lập trình XML, lớp các bài toán sẽ giải
quyết thông qua XML và tiêu chuẩn của các ứng dụng/cơ sở dữ liệu hiện hành có thể
được tích hợp dựa vào XML.
Thái độ học viên :
Tập trung, phân tích và đánh giá, chọn lựa đúng giải pháp thích hợp.
II. Xây dựng các ứng dụng trên web theo hướng dựa vào xml.
Chủ đề chính :
Từ bài toán ứng dụng trên Web triển khai các vấn đề chính bao gồm: tích hợp mức
CSDL, phát triển Web, phát triển giao diện người dùng, kỹ thật Messaging dựa vào
XML, tạo Metadata, tạo ứng dụng mức Server và mức Client.
Kỹ năng thực hành :
Khai thác được các thế mạnh đặc trưng của XML trong việc xây dựng các ứng dụng
tích hợp trên Web.
Thái độ học viên :
Làm việc đúng kế hoạch, có đủ tài liệu hiện trạng và kế hoạch, tận dụng tốt và đúng
cách các công cụ hỗ trợ lập trình XML.
III. các chủ đề phát triển ứng dụng tích hợp: trên nhiều nền tảng, trên các hệ thông tin
hiện hành và trên các dòng thiết bị khác nhau.
Chủ đề chính :
Tập trung theo 3 hướng quan trọng: Phát triển ứng dụng tích hợp trên nhiều nền tảng;
trên các hệ thông tin hiện đang hoạt động và trên các dòng thiết bị khai thác thông tin
khác nhau.
- Kỹ năng thực hành :
- Vận dụng được việc xâu dựng các Web Service trên nhiều nền tảng và các vấn đề
có liên quan như môi trường phân tán, DCOM, CORBA. JAVA RMI.
- Giải quyết được các vấn đề và nêu giải pháp tích hợp các hệ thông tin hiện hành.
- Vận dụng được XML trong lập trình đáp ứng các ứng dụng cho các dòng thiết bị
khác như điện thoại di động, PDA.
Thái độ học viên :
Tập trung, phân tích và chọn lựa đúng giải pháp tích hợp.
IV. Liên hệ giữa XML và .net
Chủ đề chính :
Các vấn đề về XMLP, quan hệ XML với Biztalk Server, quan hệ XML với phát triển trên
môi trường .NET
Kỹ năng thực hành :
Vận dụng được XMLP, dùng Biztalk Server trong tích hợp ứng dụng, dùng môi trường
.NET có hỗ trợ XML.
Thái độ học viên :
Tập trung, phân tích và chọn lựa đúng giải pháp tích hợp.
- Sơ đồ quan hệ theo trình tự học nghề
Học kỳ V Học kỳ VI
Tiếng Anh chuyên Lập trình nâng cao hướng
ngành .NET
Phát triển phần mềm ứng
dụng
Cơ sở kỹ thuật điện -
điện tử
Phân tích và thiết kế giải
thuật
Lý thuyết về ngôn ngữ Thiết kế mạng và quản trị
lập trình mạng
Kho dữ liệu
Cấp độ 3
Bảo trì máy tính
Mô hình client-server trên
SQL server
Cơ sở trí tuệ nhân tạo Phân tích
và hệ chuyên gia hướng đối tượng UML
Tích hợp các ứng dụng
trên web qua XML
Lập trình logic
An toàn thông tin
Cơ sở dữ liệu Chuyên đề tự chọn
Ghi chú: nâng cao
Tích hợp các ứng dụng trên mạng qua XML là môn học bắt buộc. Mọi học viên phải học và
đạt kết quả chấp nhận được đối với các bài kiểm tra đánh giá và thi kết thúc như đã đặt ra
trong chương trình đào tạo.
Những học viên qua kiểm tra và thi mà không đạt phải thu xếp cho học lại những phần chưa
đạt ngay và phải đạt điểm chuẩn mới được phép học tiếp các mô đun/ môn học tiếp theo.
Học viên, khi chuyển trường, chuyển ngành nếu đã học ở một cơ sở đào tạo khác
7
- CÁC HÌNH THỨC HỌC TẬP CHÍNH TRONG MÔ ĐUN/MÔN HỌC
1- Học trên lớp về :
Tổng quan về XML.
Cơ bản về XML.
Parsing tài liệu XML.
Tích hợp mức CSDL.
Phát triển Web.
Xây dựng giao diện người sử dụng dựa vào XML.
Messaging dựa vào XML.
Tạo Metadata.
Xây dựng ứng dụng mức Server.
Xây dựng mức Client.
Cơ chế xác lập ứng dụng liên quan đến nhiều nền tảng.
Xây dựng ứng dụng liên quan đến nhiều nền tảng dựa vào Web service.
Tích hợp các hệ thông tin hiện có.
Tạo các giao diện giữa các hệ thống hiện hành.
Kiến trúc hệ ứng dụng tích hợp.
Các vấn đề về XMLP (SOAP)
Quan hệ XML với Biztalk Server
Quan hệ XML với phát triển trên môi trường .NET
2- Nghe thuyết trình tại phòng chuyên môn hoá về :
Tổng quan về XML.
Cơ bản về XML.
Parsing tài liệu XML.
Tích hợp mức CSDL.
Phát triển Web.
Tích hợp các hệ thông tin hiện có.
Xây dựng ứng dụng mức Server.
Xây dựng mức Client.
Cơ chế xác lập ứng dụng liên quan đến nhiều nền tảng.
Xây dựng ứng dụng liên quan đến nhiều nền tảng dựa vào Web service.
Tích hợp các hệ thông tin hiện có.
Tạo các giao diện giữa các hệ thống hiện hành.
Kiến trúc hệ ứng dụng tích hợp.
3- Tự nghiên cứu các tài liệu và làm bài tập về :
Các vấn đề về XMLP (SOAP)
Quan hệ XML với Biztalk Server
Quan hệ XML với phát triển trên môi trường .NET
4- Thực tập tại xưởng trường về :
Xây dựng giao diện người sử dụng dựa vào XML.
Messaging dựa vào XML.
Tạo Metadata.
Xây dựng ứng dụng mức Server.
Xây dựng mức Client.
Cơ chế xác lập ứng dụng liên quan đến nhiều nền tảng.
Xây dựng ứng dụng liên quan đến nhiều nền tảng dựa vào Web service.
Tích hợp các hệ thông tin hiện có.
Tạo các giao diện giữa các hệ thống hiện hành.
Kiến trúc hệ ứng dụng tích hợp.
Các vấn đề về XMLP (SOAP)
Quan hệ XML với Biztalk Server
Quan hệ XML với phát triển trên môi trường .NET
5- Tham quan thực tế tại các doanh nghiệp về :
Vấn đề tích hợp các hệ cơ sỡ dữ liệu tài các doanh nghiệp
8
- YÊU CẦU VỀ ĐÁNH GIÁ HOÀN THÀNH MÔ ĐUN/MÔN HỌC
Đánh giá kết quả học tập của mô đun = ĐIỂM TRUNG BÌNH CHUNG của :
- Kết quả điểm kiểm tra đầu giờ (5-15 phút)
-Lấy hệ số 1
- Kết quả điểm kiểm tra viết (45 phút) và bài tập tự nghiên cứu
-Lấy hệ số 2
- Kết quả điểm kiểm tra viết (90 phút ) và bài tập tự nghiên cứu
-Lấy hệ số 3
- Kết quả điểm kiểm tra bài thực hành (60-90 phút)
-Lấy hệ số 3
ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA MÔ ĐUN:
- Điểm trung bình chung từ 5,0 trở lên : ĐẠT YÊU CẦU
- Điểm trung bình chung từ 4,0 – 4,95 : CÓ THỂ XÉT VỚT
- Điểm trung bình chung dưới 4,0 điểm : PHẢI ĐÀO TẠO LẠI
9
- BÀI 1
TÊN BÀI : TỔNG QUAN VỀ TÍCH HỢP CÁC ỨNG DỤNG TRÊN MỘI TRƯỜNG WEB DỰA
VÀO XML
Mã bài : ITPRG3_15.01
Giới thiệu :
Trong nội dung bài học này , chúng ta sẽ hiểu sơ lược về lịch sử và cú pháp của XML. Ngoài
ra, chúng ta còn nghiên cứu lý thuyết về phương pháp xây dựng trang Web đa nền tảng và
đa thiết bị cũng như sử dụng .NET để phân giải XML.
Mục tiêu thực hiện:
Học xong bài này học viên sẽ có khả năng:
- Nắm cơ bàn về lập trình XML (Extensible Markup Language) như là một hướng tích hợp
ứng dụng đầy tiềm năng.
- Tích hợp được các ứng dụng đang có thành các ứng dụng khai thác tài nguyên thông tin
phục vụ quản lý, điều hành.
- Tích hợp được trên nhiều nến tảng (Multiplatform) và nhiều dòng thiết bị (Cross Device
Development)
- Giải quyết được lớp các bài toán tích hợp đặt ra ngày nay.
- Biết phối hợp giữa lập trình XML với công nghệ Microsoft .NET
Nội dung chính:
1. Tổng quan về XML.
XML có tầm ảnh hưởng rất lớn đến công nghệ truyền tin hiện tại, nhất là môi trường
Web. Trong số chúng ta, chắc chắn đã từng nghe qua Web Services. Đó là những dịch vụ
trên Web ta có thể dùng on-demand , tức là khi nào cần cho chương trình của mình, bằng
cách gọi nó theo phương pháp giống như gọi một hàm. Web Services được triển khai dựa
vào XML và Http, chuẩn dùng để gởi các trang Web.
Điểm quan trọng của kỹ thuật XML là nó không thuộc riêng về một công ty nào, nhưng
là một tiêu chuẩn được mọi người công nhận vì được soạn ra bởi World Wide Web
Consortium - W3C và những ai muốn đóng góp bằng cách trao đổi qua email và forum. Bản
thân của XML tuy không có gì khó hiểu, nhưng các công cụ chuẩn được định ra để làm việc
với XML như Document Object Model - DOM, XPath, XSL, v.v.. thì rất hữu hiệu, và chính
các chuẩn nầy được phát triển không ngừng.
Microsoft đã cố gắng hỗ trợ XML ngay từ đầu. Chẳng những có đại diện để làm việc
thường trực trong W3C mà còn tích cực đóng góp bằng cách gởi những đề nghị. Vị trí của
Microsoft về XML là khi tiêu chuẩn chưa được hoàn thành thì các sản phẩm của Microsoft
tuân thủ những gì có vẽ được đa số công nhận và khi tiêu chuẩn hoàn thành thì tuân thủ
hoàn toàn.
Công cụ XML sáng giá nhất của Microsoft là ActiveX MSXML. Nó được dùng trong
Visual Basic 6, ASP (Active Server Pages) của IIS và Internet Explorer từ version 5.5. Hiện
nay MSXML đã có version 4.0. MSXML parse (đọc và phân tích) và validate (kiểm tra sự
hợp lệ) XML file để cho ta DOM, một cây của các Các nút đại diện các thành phần bên trong
XML. MSXML cũng giúp ta dựa vào một XSL file để chuyển đổi một XML file thành một trang
Web (HTML) hay một XML khác.
XML là viết tắt cho chữ eXtensible Markup Language - nhưng Markup Language (ngôn
ngữ đánh dấu) là gì? Trong ngành ấn loát, để chỉ thị cho thợ sắp chữ về cách in một bài vỡ,
tác giả hay chủ bút thường vẽ các vòng tròn trong bản thão và chú thích bằng một ngôn ngữ
đánh dấu tương tự như tốc ký. Ngôn ngữ ấy được gọi là Markup Language.
XML là một ngôn ngữ đánh dấu tương đối mới vì nó là một một tập hợp con của và dẫn
xuất từ một ngôn ngữ đánh dấu tên là Standard Generalized Markup Language (SGML).
Ngôn ngữ HTML cũng dựa vào SGML, nói đúng ra nó là một áp dụng của SGML.
SGML được phát minh bởi Ed Mosher, Ray Lorie và Charles F. Goldfarb của nhóm IBM
research vào năm 1969, khi con người đặt chân lên mặt trăng. Lúc đầu nó có tên là
10
- Generalized Markup Language (GML), và được thiết kế để dùng làm meta-language, một
ngôn ngữ được dùng để diễn tả các ngôn ngữ khác - văn phạm, ngữ vựng của chúng ,.v.v..
Năm 1986, SGML được cơ quan ISO (International Standard Organisation) thu nhận
(adopted) làm tiêu chuẩn để lưu trữ và trao đổi dữ liệu. Khi Tim Berners-Lee triển khai
HyperText Markup Language - HTML để dùng cho các trang Web hồi đầu thập niên 1990,
ông ta cứ nhắc nhở rằng HTML là một áp dụng của SGML. Vì SGML rất rắc rối, và HTML có
nhiều giới hạn nên năm 1996 tổ chức W3C thiết kế XML. XML phiên bản 1.0 được định
nghĩa trong hồ sơ February 1998 W3C Recommendation, giống như một Internet Request
for Comments (RFC), là một "tiêu chuẩn".
Trong một trang Web, ngôn ngữ đánh dấu HTML dùng các cặp Tags để đánh dấu vị trí
đầu và cuối của các mảnh dữ liệu để giúp chương trình trình duyệt (browser) parse (ngắt
khúc để phân tích) trang Web và hiển thị các phần theo ý người thiết kế trang Web. Thí dụ
như một câu HTML dưới đây:
Chào mừng chúng ta đến thăm
VovisoftWeb site
Đoạn lệnh HTML trên có chứa hai tag đánh dấu và . Mỗi cặp Tag gói
dữ liệu nó đánh dấu giữa tag mở và tag đóng. Hai tag đóng ở đây là và .
Tất cả những gì nằm bên trong một cặp Tags được gọi là phần tử (Phần tử). Để nói thêm
đặc tính của một Phần tử, ta có thể có thuộc tính (Thuộc tính) như align trong tag mở của
Phần tử ấy dưới dạng Thuộc tínhName="value", thí dụ như align="center".
Vì Tag trong HTML được dùng để định dạng hiển thị tài liệu nên trình duyệt (browse)
cần biết ý nghĩa của mỗi Tag. Một trình duyệt hay HTML parser sẽ thu thập các chỉ thị sau từ
câu HTML trên:
Bắt đầu một Paragraph mới và đặt Text ở giữa trang ().
Hiển thị câu Chào mừng chúng ta đến thăm
Hiển thị chữ Vovisoft cách mạnh mẽ (Vovisoft).
Hiển thị câu Web site
Gặp điểm cuối của Paragraph ()
Để xử lý đoạn mã lệnh HTML trên, chẳng những trình duyệt cần phải xác định vị trí các
Tags mà còn phải hiểu ý nghĩa của mỗi Tag. Vì mỗi Tag có ý ngĩa riêng của nó, thí dụ P cho
Paragraph, STRONG để nhấn mạnh, thí dụ như dùng chữ đậm (Bold).
II. Cơ bản về XML
Như đã đề cập ở trên, các tài liệu HTML dùng các tag để đánh dấu và nó là một áp
dụng của SGML. Giống như HTML, XML cũng đến từ SGML. Nó cũng dùng Tag để định
nghĩa dữ liệu. Điểm khác biệt chánh giữa HTML và XML là trong khi các Tags của HTML
chứa ý nghĩa về các định dạng trình bày các dữ liệu, thì các Tag của XML chứa ý nghĩa về
cấu trúc của các dữ liệu. Thí dụ như một tài liệu đặt hàng (order) XML dưới đây:
2002-3-27
Peter Collingwood
1
5
4
3
Tài liệu nầy chỉ chứa dữ liệu, không nhắc nhở gì đến cách trình bày. Điều nầy có nghĩa
là một XML parser (chương trình ngắt khúc và phân tích) không cần phải hiểu ý nghĩa cũa
các Tags. Nó chỉ cần tìm các Tags và xác định rằng đây là một tài liệu XML hợp lệ. Trình
duyệt không cần phải hiểu ý nghĩa của các Tags, nên ta có thể dùng Tag nào cũng được. Đó
11
- là lý do người ta dùng chữ eXtensible (mở rộng thêm được), nhưng khi dùng chữ để viết tắt
thì lại chọn X thay vì e, có lẽ vì X nghe có vẽ kỳ bí, hấp dẫn hơn.
Chúng ta hãy quan sát kỹ hơn cấu trúc của một XML. Trước hết, phần tử Order có
thuộc tính OrderNo với giá trị 1023. Bên trong phần tử Order có:
Một phần tử con OrderDate với giá trị 2002-3-27
Một phần tử con Customer với giá trị Peter Collingwood.
Hai phần tử con Item, mỗi phần tử Item lại chứa một phần tử con ProductID và một
phần tử con Quantity.
Đôi khi ta để một phần tử với một tên nhưng không chứa một giá trị, lý do là ta muốn
dùng nó như một phần tử tùy chọn, có cũng được, không có cũng không sao. Cách tự nhiên
nhất là gắn cái tag đóng ngay sau tag mở. Thí dụ như phần tử rỗng MiddleInitial trong phần
tử customer dưới đây:
Stephen
King
Có một cách khác để biểu diễn phần tử rỗng là bỏ tag đóng và thêm một dấu "/" ở cuối
tag mở. Ta có thể viết lại thí dụ customer như sau:
Stephen
King
Dĩ nhiên phần tử rỗng cũng có thể có thuộc tính như phần tử PhoneNumber thứ nhì
dưới đây:
Stephen
King
9847 2635
Một tài liệu XML phải well-formed (hợp khuôn dạng) và hợp lệ. Mặc dầu hai từ nầy nghe
hơi giống nhau, nhưng chúng có ý nghĩa khác nhau. Một XML well-formed là một XML thích
hợp cho parser xử lý. Tức là XML tuân thủ các luật lệ về Tag, phần tử, thuộc tính , giá trị
.v.v.. chứa bên trong để parser có thể nhận diện và phân biệt mọi thứ.
Cần chú ý là một XML well-formed chưa chắc chứa đựng những dữ liệu hữu dụng trong
công việc làm ăn. Là well-formed chỉ có nghĩa là XML có cấu trúc đúng. Để hữu dụng cho
công việc làm ăn, XML chẳng những well-formed mà còn cần phải hợp lệ. Một tài liệu XML
hợp lệ khi nó chứa những dữ liệu cần có trong loại tài liệu hay lớp ấy. Thí dụ một XML đặt
hàng có thể bị đòi hỏi phải có một thuộc tính OrderNo và một phần tử con Orderdate. Parser
validate xử lý một tài liệu XML bằng cách kiểm tra dữ liệu trong XML xem có đúng như định
nghĩa trong một chỉ định về loại tài liệu XML ấy. Chỉ định này có thể là một Document Type
Definition (DTD) hay một Schema (giản đồ).
Vậy làm thế nào để tạo được một tài liệu XML well-formed?
Để well-formed, một tài liệu XML phải theo đúng các luật sau đây:
- Phải có một root (gốc) Phần tử duy nhất, gọi là Document Phần tử, nó chứa tất cả các
Phần tử khác trong tài liệu.
- Mỗi tag mở phải có một tag đong1 giống như nó.
- Các Tag trong XML thì phân biệt chữ hoa và chữ thường.
- Mỗi phần tử con phải nằm trọn bên trong phần tử cha của nó.
- Giá trị thuộc tính trong XML phải được gói giữa một cặp nháy kép hay một cặp dấu
nháy đơn.
12
- Luật thứ nhất đòi hỏi phải có một phần tử gốc duy nhất, nên tài liệu dưới đây không
well-formed vì nó không có một phần tử gốc:
Chair
Desk
Một tài liệu XML không có phần tử gốc được gọi là một tài liệu XML phân mảnh. Để làm
cho nó well-formed ta cần phải thêm một phần tử gốc như dưới đây:
Chair
Desk
Luật thứ hai nói rằng mỗi tag mở phải có một tag đóng giống như nó. Tức là mỗi Tag
mở ra phải được đóng lại. Phần tử rỗng viết cách gọn như được gọi là có
Tag tự đóng lại. Các Tag khác phải có tag đóng. Tài liệu XML dưới đây không well-formed vì
nó có chứa một một Tag thiếu closing Tag :
2002-6-14
Helen Mooney
2
1
4
3
Để làm cho nó well-formed ta phải thêm cái tag đóng cho phần tử Item thứ nhất:
2002-6-14
Helen Mooney
2
1
4
3
Luật thứ ba nói là tên Tag thì phân biệt chữ hoa và chữ thường. Như thế khác
với , ta không thể dùng Tag để đóng Tag . Cái XML dưới đây
không well-formed vì tag mở và tag đóng của phần tử OrderDate không đánh vần giống
nhau:
2001-01-01
Graeme Malcolm
Muốn làm cho nó well formed, ta phải sửa chữ d thành chữ hoa D như sau:
2001-01-01
Graeme Malcolm
Luật thứ tư nói mỗi phần tử con phải nằm trọn bên trong phần tử cha của nó, tức là
không thể bắt đầu một phần tử mới khi phần tử này chưa chấm dứt. Thí dụ như tài liệu XML
dưới đây không well-formed vì tag đóng của Category hiện ra trước tag đóng của Product.
13
-
Coca-Cola
Muốn sửa cho nó well-formed ta cần phải đóng Tag Product trước như dưới đây:
Coca-Cola
Luật cuối cùng về tài liệu XML well-formed đòi hỏi giá trị của thuộc tính phải được gói
trong một cặp dấu nháy đơn hay cặp dấu nháy kép. Tài liệu dưới đây không well-form vì các
giá trị của thuộc tính không được ngoặc đàng hoàng, số 1 không có dấu ngoặc, số 2 có một
cái là nháy đơn và một cái là nháy kép:
Chair
- 2002-6-14
Helen Mooney
1
2
4
1
Ngoài những vấn đề đề cập ở trên nhưng có một ý niệm rất quan trọng trong XML là
Namespace (không gian tên). Nó cho ta cách cùng một tên của phần tử để nói đến hai thứ
dữ liệu khác nhau trong cùng một tài liệu XML. Giống như có hai học sinh trùng tên Tuấn
trong lớp học, ta phải dùng thêm họ của chúng để phân biệt, ta gọi Tuấn Trần hay Tuấn Lê.
Thí dụ như có một order được người ta đặt trong tiệm sách như sau:
2001-01-01
Mr.
Graeme
Malcolm
Treasure Island
Robert Louis Stevenson
Khi quan sát kỹ, ta thấy có thể có sự nhầm lẫn về cách dùng phần tử Title. Trong tài liệu
có hai loại Title, một cái dùng cho khách hàng Customer nói đến danh hiệu Mr., Mrs., Dr.,
còn cái kia để nói đến đề tựa của một quyển sách Book.
Để tránh sự lầm lẫn, chúng ta có thể dùng không gian tên để nói rõ tên phần tử ấy thuộc
về giòng họ nào. Giòng họ ấy là một Universal Resource Identifier (URI). Một URI có thể là
một URL hay một chỗ nào định nghĩa tính cách độc đáo của nó. Một không gian tên cũng
không cần phải nói đến một địa chỉ Internet, nó chỉ cần phải là có một, không hai.
Chúng ta có thể khai báo các không gian tên trong một phần tử bằng cách dùng thuộc
tính xmlns (ns trong chữ xmlns là viết tắt cho namespace) chúng ta cũng có thể khai báo một
không gian tên mặc định để áp dụng cho những gì nằm bên trong một phần tử, nơi chúng ta
khai báo không gian tên. Thí dụ cái tài liệu đặt hàng có thể được viết lại như sau:
2001-01-01
Mr.
Graeme
Malcolm
Treasure Island
Robert Louis Stevenson
15
- Ta đã tránh được sự nhầm lẫn vì bên trong Customer thì dùng namespace
http://www.northwindtraders.com/customer và bên trong Book thì dùng namespace
http://www.northwindtraders.com/book.
Tuy nhiên, ta sẽ giải quyết làm sao nếu trong order có nhiều customer và nhiều book.
Nếu cứ thay đổi không gian tên hoài trong tài liệu thì rất khó khăn. Một cách giải quyết là
khai báo chữ viết tắt cho các không gian tên ngay ở đầu tài liệu, trong phần tử góc (tức là
phần tử tài liệu). Sau đó bên trong tài liệu ta sẽ sử dụng tiếp đầu ngữ cho các phần tử cần
xác nhận không gian tên bằng chữ viết tắt của không gian tên của nó. Thí dụ như sau:
2001-01-01
Mr.
Graeme
Malcolm
Treasure Island
Robert Louis Stevenson
Trong tài liệu XML trên ta dùng 3 không gian tên và một không gian tên mặc định.
Không gian tên http://www.northwindtraders.com/order, namespace
http://www.northwindtraders.com/customer (viết tắt là cust) và namespace
http://www.northwindtraders.com/book (viết tắt là book). Các phần tử và các thuộc tính
không có tiếp đầu (tức là không có chữ tắt đứng trước) như BookOrder, OrderNo, và
OrderDate, được coi như thuộc về không gian tên mặc định. Để đánh dấu một phần tử hay
thuộc tính không thuộc về không gian tên mặc định, một chữ tắt, đại diện không gian tên sẽ
được gắn làm tiếp đầu ngữ cho tên phần tử hay thuộc tính. Thí dụ như cust:LastName,
book:Title.
Trong tài liệu XML còn có CDATA, là khúc dữ liệu trong tài liệu XML nằm giữa
. Dữ liệu nằm bên trong những CDATA được cho thông qua parser y
nguyên, không bị sửa đổi. Điểm nầy rất quan trọng khi chúng ta muốn cho vào những dữ
liệu có chứa những văn bản được xem như đánh dấu. Chúng ta có thể đặt những thí dụ cho
XML trong những CDATA và chúng sẽ được parser bỏ qua. Khi dùng XSL stylesheets để
transform một XML file thành HTML, có bất cứ scripting nào chúng ta cũng phải đặt trong
những CDATA. Dưới đây là các thí dụ dùng CDATA:
Dữ liệu trong XML không cho phép dùng một số ký hiệu đặc biệt. Do đó, XML yêu cầu
chúng ta sử dụng một số cụm từ thay thế.
Cụm từ Ý nghĩa
' dấu nháy trên
& dấu &
> dấu lớn hơn
< dấu nhỏ hơn
" dấu ngoặc kép
16
- Chúng ta đã thấy cấu trúc và cú pháp của XML tương đối đơn giãn. XML cho ta một
cách chuẩn để trao đổi tin tức giữa các computers. Bước tiếp theo là tìm hiểu cách nào một
chương trình xử lý một tài liệu XML.
Dĩ nhiên để xử lý một XML chương trình ứng dụng phải có cách đi lại bên trong tài liệu
để lấy ra các giá trị của các phần tử hay thuộc tính. Do đó người ta thiết kế ra ngôn ngữ
XML Path language, mà ta gọi tắt là XPath. XPath đóng một vai trò quan trọng trong công
tác trao đổi dữ liệu giữa các computers hay giữa các chương trình ứng dụng vì nó cho phép
ta lựa chọn hay lọc ra những tin tức nào mình muốn để trao đổi hay hiển thị.
Nếu khi làm việc với cơ sở dữ liệu ta dùng cấu câu lệnh SQL Select .. from TableXYZ
WHERE ... để trích ra một số bản ghi từ một table, thì khi làm việc với XML, một table dữ
liệu nho nhỏ, XPath cho ta những biểu thức về điều kiện giống giống như mệnh đề WHERE
trong SQL.
XPath là một chuẩn để xử lý XML, cũng giống như SQL là một chuẩn để làm việc với cơ
sở dữ liệu. Tiên phuông trong việc triển khai các chương trình áp dụng XPath là công tác
của các công ty phần mềm lớn như Microsoft, Oracle, Sun, IBM, v.v. Sở dĩ ta cần có một
chuẩn XPath là vì nó được áp dụng trong nhiều hoàn cảnh, nên cần phải có một lý thuyết rõ
ràng, chính xác.
Lý thuyết về XPath hơi khô khan nhưng nó được áp dụng trong mọi kỹ thuật của gia
đình XML. Cho nên chúng ta hãy kiên nhẫn nắm vững những điều căn bản về nó để khi nào
gặp chỗ người ta dùng XPath thì mình nhận diện và hiểu được. Chúng ta ta sẽ chỉ nghiên
cứu những nội dung thường dùng trong XPath thôi, nếu chúng ta muốn có đầy đủ chi tiết về
XPath thì có thể tham khảo chỉ định của nó tại địa chỉ http://www.w3c.org/TR/xpath.
Một tài liệu XML như một cây đối với XPath
XPath cho ta cú pháp để diễn tả cách đi lại trong XML. Ta coi một tài liệu XML như
được đại diện bằng một tree (cây) có nhiều các nút. Mỗi phần tử hay thuộc tính là một nút.
Để minh họa ý niệm nầy, chúng ta hãy quan sát tài liệu đặt hàng (order) XML sau:
2002-03-26
John Costello
Chair
6
Desk
1
Ta có thể biểu diễn XML trên bằng một cây như dưới đây, trong đó nút phần tử màu
nâu, nút thuộc tính màu xanh:
17
- Chúng ta có thể dùng biểu thức XPath để chỉ định đường dẫn đến nút (nút) nào hay
trích ra (trả về) một hay nhiều nút thỏa đúng điều kiện yêu cầu. Biếu thức XPath có thể là
tuyệt đối, tức là lấy nút gốc làm chuẩn hay tương đối, tức là khởi đầu từ nút vừa mới được
chọn. Nút ấy được gọi là context nút (nút vai chính trong tình huống).
Có hai cách viết để diễn tả XPath, viết nguyên và viết tắt. Trong cả hai cách ta đều dùng
dấu slash (/) để nói đến phần tử tài liệu, tức là nút gốc. Ta có thể đi lại trong các nút của
Tree giống như các nút của Windows System Directory mà ta thấy trong Panel bên trái của
Window Explorer. Ta cũng sẽ dùng những ký hiệu như slash /, một chấm . và hai chấm ..
của Windows System File Folder cho cách viết tắt trong XPath Location để đi xuống các các
nút con, cháu, chỉ định context nút, hay đi ngược lên các các nút tổ tiên.
Đường dẫn tuyệt đối
Chúng ta hãy tìm vài location paths trong cái Tree của tài liệu XML về đặt hàng nói trên.
Muốn chọn cái nút của Phần tử Order (nó cũng là Root Phần tử) bằng cú pháp nguyên, ta sẽ
dùng XPath Biểu thức sau đây:
/child::Order
Dịch ra cú pháp tắt, Biểu thức nầy trở nên:
/Order
Đi ra nhánh của Tree, ta sẽ tìm được nút Customer bằng cách dùng XPath Biểu thức
sau:
/child::Order/child::Customer
Sau đây là XPath Biểu thức viết tắt tương đương:
/Order/Customer
Nếu chúng ta muốn lấy ra một nút Thuộc tính, chúng ta phải nói rõ điều nầy bằng cách
dùng từ chìa khóa (keyword) thuộc tính trong cách viết nguyên hay dùng character @ trong
18
- cú pháp tắt. Do đó để lấy thuộc tính OrderNo của phần tử Order, ta sẽ dùng XPath Biểu thức
sau:
/child::Order/thuộc tính::OrderNo
Cú pháp tắt cho Thuộc tính OrderNo là:
/Order/@OrderNo
Để trích ra các các nút con cháu, tức là các các nút nhánh xa hơn, ta dùng keyword
descendant trong cú pháp nguyên hay một double slash (//) trong cú pháp tắt. Thí dụ, để lấy
ra các các nút Product trong tài liệu, chúng ta có thể dùng Biểu thức location path sau:
/child::Order/descendant::Product
Cú pháp tắt tương đương là:
/Order//Product
Chúng ta cũng có thể dùng wildcards (lá bài Joker) để nói đến những các nút mà tên
của chúng không thành vấn đề. Thí dụ, dấu asterisk (*) wildcard chỉ định bất cứ nút tên nào.
Location path sau đây chọn tất cả các các nút con của Phần tử Order:
/child::Order/child::*
Cú pháp tắt tương đương là:
/Order/*
Đường dẫn tương đối:
Nhiều khi XPath location paths là tương đối với context nút, trong trường hợp ấy
location path diễn tả cách lấy ra một nút hay một số (set of) các nút tương đối với context
nút. Thí dụ như, nếu Phần tử Item thứ nhất trong order là context nút, thì location path tương
đối để trích ra Phần tử con Quantity là:
child::Quantity
Trong cú pháp tắt, location path tương đối là:
Quantity
Tương tự như vậy, để lấy ra Thuộc tính ProductID của Phần tử con Product, cái location
path tương đối là:
child::Product/thuộc tính::ProductID
Biểu thức ấy dịch ra cú pháp tắt là:
Product/@ProductID
Để đi ngược lên phía trên của Tree, ta dùng keyword parent (cha). Dạng tắt tương
đương của keyword nầy là hai dấu chấm (..). Thí dụ nếu context nút là Phần tử OrderDate,
thì Thuộc tính OrderNo có thể được lấy ra từ Phần tử Order bằng cách dùng location path
tương đối sau:
parent::Order/thuộc tính::OrderNo
Để ý là cú pháp nầy chỉ trả về một trị số khi nút cha tên Order. Nếu muốn lấy ra Thuộc
tính OrderNo từ nút cha không cần biết nó tên gì chúng ta phải dùng Biểu thức sau:
parent::*/thuộc tính::OrderNo
Viết theo kiểu tắt đơn giản hơn vì chúng ta không cần phải cung cấp tên của nút cha.
Chúng ta có thể nói đến nút cha bằng cách dùng hai dấu chấm (..) như sau:
../@OrderNo
Ngoài ra, chúng ta có thể nói đến chính context nút bằng cách dùng hoặc keyword self
hoặc một dấu chấm (.). Điều nầy rất tiện trong vài trường hợp, nhất là khi chúng ta muốn biết
current context nút là nút nào.
Chúng ta có thể giới hạn số các nút lấy về bằng cách gắn thêm điều kiện sàng lọc vào
location path. Cái điều kiện giới hạn một hay nhiều các nút được tháp vào Biểu thức bên
trong một cặp ngoặc vuông ([]). Thí dụ, để lấy ra mọi Phần tử Product có Thuộc tính
UnitPrice lớn hơn 70, chúng ta có thể dùng XPath Biểu thức sau đây:
/child::Order/child::Item/child::Product[thuộc tính::UnitPrice>70]
Trong cú pháp tắt, nó là:
/Order/Item/Product[@UnitPrice>70]
Trong Biểu thức của điều kiện chúng ta cũng có thể dùng Xpath tương đối , do đó trong
Biểu thức điều kiện chúng ta có thể dùng bất cứ nút nào trong thứ bậc. Thí dụ sau đây lấy về
những các nút Item có Phần tử con Product với Attibute ProductID trị số bằng 1:
/child::Order/child::Item[child::Product/thuộc tính::ProductID=1]
19
- Dịch ra cú pháp tắt, ta có:
/Order/Item[Product/@ProductID=1]
Tập hợp các Các nút do XPath trả về được gọi là Collection. Thông thường trong lập
trình, từ "Collection" được dùng để nói đến một tập hợp các objects đồng loại. Ta có thể lần
lượt đi qua (iterate through) các objects trong một Collection nhưng không được bảo đảm
thứ tự của chúng, tức là gặp object nào trước hay object nào sau.
Trái lại, trong chuẩn XPath, khi một Collection được trả về bởi một XPath Query (hỏi),
nó giữ nguyên thứ tự các Các nút và cấp bậc của chúng trong tài liệu XML. Tức là nếu
XPath trả về một cành các các nút thì trừ những các nút không thỏa điều kiện, các nút còn
lại vẫn giữ đúng vị trí trên cành.
Vì các thuộc tính của một phần tử không có thứ tự, nên chúng có thể nằm lộn xộn trong
một Collection.
Một Collection của Các nút được xem như một Array. Muốn nói trực tiếp đến một Nút
trong Collection ta có thể dùng một index trong cặp ngoặc vuông. Nút thứ nhất có Index là 1.
Cặp ngoặc vuông ([]) có precedence cao hơn (được tính trước) dấu slash(/) hay hai dấu
slash (//). Dưới đây là hai thí dụ:
Biểu thức Ý nghĩa
author[1] Phần tử author đầu tiên.
author[firstname][3] Phần tử author thứ ba có một phần tử con là firstname
Một location path dùng một Axis để chỉ định mối liên hệ giữa các Các nút được chọn đối
với context nút. Sau đây là bảng liệt kê đầy đủ các axes:
Axes Ý nghĩa
ancestor:: Tổ tiên của context nút.
Những tổ tiên của context nút gồm có cha, ông nội, ông cố .v.v., do đó
ancestor:: axis luôn luôn kể cả root nút trừ khi chính context nút là root nút.
ancestor- Chính context nút và tổ tiên của nó.
or-self:: Cái ancestor-or-self:: axis luôn luôn kể cả root nút.
thuộc Các Thuộc tínhs của context nút.
tính:: Nếu context nút không phải là một Phần tử thì chắc chắn axis sẽ trống
rỗng.
child:: Con cái của context nút.
Một con là bất cứ nút nào nằm ngay dưới context nút trong tree. Tuy
nhiên, Thuộc tính hay Namespace các nút không được xem là con cái của
context nút.
descenda Con cháu của context nút.
nt:: Con cháu là con, cháu, chít, .v.v., do đó descendant:: axis không bao
giờ chứa Thuộc tính hay Namespace các nút.
following:: Mọi các nút hiện ra sau context nút trên tree, không kể con cháu,
Thuộc tính các nút, hay Namespace các nút.
following- Mọi các nút em (nằm sau) context nút.
sibling:: following-sibling:: axis nói đến chỉ những Các nút con, của cùng một
Nút cha, nằm trên tree sau context nút. Axis không kể các Các nút anh nằm
trước context nút.
Nếu context nút là Thuộc tính hay Namespace thì following-sibling::
axis sẽ trống rỗng.
namespac Những Namespace các nút của context nút.
e:: Mỗi namespace có một namespace nút trong scope (phạm vi hoạt
động) của context nút.
Nếu context nút không phải là một Phần tử thì Axis sẽ trống rỗng.
20
nguon tai.lieu . vn