Xem mẫu

  1. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện MỞ ĐẦU 1. Tính cấp thiết của đề tài Trong xã hội thông tin ngày nay, thông tin là yếu tố quan trọng bậc nhất trong mọi hoạt động của đời sống, mọi ngành nghề trong xã hội. Sự bùng nổ thông tin khiến cho thông tin trở thành nguồn tài nguyên khổng lồ mà con người cần nỗ lực để có thể làm chủ. Một trong những yếu tố thúc đẩy việc sản sinh thông tin với khối lượng ngày càng lớn như vậy chính là mạng Internet, đồng thời mạng Internet cũng là công cụ hữu hiệu để lưu trữ và truyền tải thông tin. Với hệ thống World Wide Web khổng lồ, con người có thể dễ dàng tìm kiếm, nắm bắt, trao đổi thông tin từ khắp nơi trên thế giới. World Wide Web (hiểu ngắn gọn là “Web”) là tập hợp các tài liệu siêu văn bản được liên kết với nhau và truy cập thông qua mạng Internet. Với một trình duyệt Web, ta có thể xem được các trang Web chứa đầy đủ văn bản, hình ảnh, âm thanh,… và có thể di chuyển qua lại sử dụng các siêu liên kết (hyperlinks). Các trang Web như vậy được tạo lập nên nhờ các ngôn ngữ đánh dấu, mà được biết đến nhiều nhất là ngôn ngữ đánh dấu siêu văn bản - HTML (HyperText Markup Language). HTML là phương tiện để mô tả cấu trúc của thông tin văn bản trong một tài liệu bằng cách hiển thị văn bản dưới dạng đường link, đầu mục, đoạn văn, danh sách,… HTML được viết dưới dạng các thẻ (tags) đặt trong cặp dấu ngoặc nhọn < >. Tuy nhiên, HTML có những hạn chế nhất định. Với HTML, người sử dụng chỉ dừng lại ở việc xem tài liệu chứ họ không thể thao tác với chúng, tạo lập chúng theo định dạng mong muốn. Với thực tế là HTML thì có nhiều hạn chế, trong khi SGML lại quá phức tạp không thể ứng dụng, vào cuối những năm 90, các nhà nghiên cứu đã sáng tạo ra ngôn ngữ đánh dấu mở rộng - XML (eXtensible Markup Language). Tính linh hoạt và khả năng ứng dụng cao giúp cho XML nhanh chóng được chấp nhận bởi các nhà chuyên môn Phùng Thanh Vân. K50 Thông tin - Thư viện
  2. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện (W3C - World Wide Web Consortium đã ngay lập tức định hình HTML thành một ứng dụng XML với kết quả là XHTML). Hiện nay, XML được ứng dụng rộng rãi trong rất nhiều lĩnh vực, và lĩnh vực Thông tin - Thư viện cũng đã áp dụng XML để hoàn thiện công tác của mình. Từ thực tế này, là sinh viên của ngành Thông tin - Thư viện, tôi nghĩ rằng việc nghiên cứu về XML và ứng dụng của nó là hoàn toàn cần thiết. Chính vì vậy, tôi đã lựa chọn thực hiện đề tài “Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện”. 2. Mục đích nghiên cứu Việc nghiên cứu đề tài này trước hết giúp tôi tìm hiểu một cách khái quát về XML, ứng dụng của nó nói chung và đặc biệt trong lĩnh vực Thông tin - Thư viện. Từ việc hiểu về cách thức tạo lập cũng như tiện ích ứng dụng của ngôn ngữ đánh dấu, tôi có thể đưa ra một số giải pháp, kiến nghị giúp nâng cao hiệu quả sử dụng nó trong lĩnh vực Thông tin - Thư viện của mình. 3. Phạm vi nghiên cứu Vấn đề XML là vấn đề rất rộng lớn, với XML, rất nhiều ứng dụng cũng như tiện ích có thể được tạo ra, tùy biến theo mong muốn của từng cá nhân, từng lĩnh vực ngành nghề cụ thể. Chính vì vậy, với thời gian tìm hiểu có hạn, và trong phạm vi trình bày của một Khóa luận, tôi chỉ có thể nêu ra những khái niệm cơ bản, cấu trúc, cách hiển thị tài liệu XML trong trình duyệt và một số ứng dụng của XML trong lĩnh vực Thông tin - Thư viện. 4. Phương pháp nghiên cứu Để thực hiện Khóa luận này, về mặt phương pháp luận tôi sử dụng phương pháp nghiên cứu tài liệu và phương pháp hỏi ý kiến chuyên gia. Tài liệu được tìm kiếm chủ yếu trên các trang web, đặc biệt là trang web của Thư viện Quốc hội Mỹ. Sau khi thu thập, tham khảo tài liệu về ngôn ngữ XML, tôi thực hiện phương pháp khảo sát, đánh giá, so sánh với tình hình sử dụng thực tế của nó trong một số lĩnh vực và đặc biệt là lĩnh vực Thông tin - Thư viện. Phùng Thanh Vân. K50 Thông tin - Thư viện 2
  3. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện 5. Đóng góp về lý luận và thực tiễn của Khóa luận Thực hiện đề tài Khóa luận này, tôi hy vọng có thể có những đóng góp như sau: - Khái quát và cung cấp được cho người đọc những thông tin cơ bản về các loại ngôn ngữ đánh dấu nói chung và ngôn ngữ đánh dấu mở rộng XML nói riêng, cùng với tình hình phát triển và ứng dụng của chúng. - Giới thiệu một vài ứng dụng quan trọng của XML trong lĩnh vực Thông tin - Thư viện và đưa ra các kiến nghị nhằm đẩy mạnh việc ứng dụng, nâng cao hiệu quả của loại ngôn ngữ này tại Việt Nam. 6. Bố cục của Khóa luận Phần nội dung của Khóa luận gồm 4 chương như sau:  Chương 1. Tổng quan về ngôn ngữ đánh dấu - Markup Language. Chương này nêu tổng quan về khái niệm và việc sử dụng một số loại ngôn ngữ đánh dấu cơ bản, đi sâu hơn vào ngôn ngữ đánh dấu siêu văn bản HTML.  Chương 2. Ngôn ngữ đánh dấu mở rộng - XML. Chương này đi sâu tìm hiểu về ngôn ngữ XML, cấu trúc, các thành phần cơ bản của ngôn ngữ này.  Chương 3. Một số ứng dụng XML trong lĩnh vực Thông tin - Thư viện. Chương này giới thiệu một số ứng dụng của XML trong hoạt động Thông tin - Thư viện: MARC XML, METS, và MODS.  Chương 4. Đánh giá và kiến nghị. Phùng Thanh Vân. K50 Thông tin - Thư viện 3
  4. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện CHƯƠNG 1 TỔNG QUAN VỀ NGÔN NGỮ ĐÁNH DẤU - MARKUP LANGUAGE Ngôn ngữ đánh dấu là một tập hợp các ghi chú cho văn bản mô tả cách chúng được cấu trúc, trình bày, hoặc định dạng. Ngôn ngữ đánh dấu có thể là dạng viết tay hoặc dạng mã đánh dấu sử dụng trong hệ thống xử lý văn bản của máy tính. Ví dụ điển hình nhất về ngôn ngữ đánh dấu chính là Ngôn ngữ đánh dấu siêu văn bản - HTML, một trong số các giao thức của World Wide Web. Dưới đây là khái niệm về một số loại ngôn ngữ đánh dấu. 1.1. Ngôn ngữ đánh dấu tổng quát - GML GML (Generalized Markup Language) là ngôn ngữ định dạng tài liệu của IBM, nó mô tả một tài liệu về mặt cấu trúc tổ chức, các phần nội dung và mối quan hệ giữa chúng. GML cho phép mô tả các phần của một tài liệu theo thứ bậc đề mục: Tên phần/chương, các đoạn văn bản trong đó, danh mục, bảng biểu,… GML là nền tảng để phát triển các loại ngôn ngữ đánh dấu sau này. 1.2. Ngôn ngữ đánh dấu tổng quát chuẩn - SGML SGML (Standard Generalized Markup Language) được phát triển lên từ GML. Năm 1986, SGML được tổ chức ISO công nhận là chuẩn lưu trữ và chuyển đổi dữ liệu (ISO 8879:1986). SGML bản thân nó không phải là một ngôn ngữ tư liệu, nó là ngôn ngữ dùng để đặc tả các ngôn ngữ khác, nói cách khác, SGML là một loại siêu ngôn ngữ hay siêu dữ liệu (metadata). SGML được thiết kế với mục đích để chia sẻ các dữ liệu đọc máy từ hệ thống này sang hệ thống khác mà không bị mất dữ liệu. Nó cũng được sử Phùng Thanh Vân. K50 Thông tin - Thư viện 4
  5. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện dụng trong việc in ấn và xuất bản. Tuy nhiên, do việc sử dụng SGML quá phức tạp và phải tốn nhiều công sức để thực hiện nên SGML không được mở rộng áp dụng đối với mục đích sử dụng thông thường. 1.3. Ngôn ngữ đánh dấu siêu văn bản - HTML 1.3.1. Khái quát chung HTML (HyperText Markup Language) là loại ngôn ngữ đánh dấu nổi trội cho các trang Web. Như đã định nghĩa ở trên, HTML cung cấp phương tiện để mô tả cấu trúc của thông tin văn bản trong một tài liệu bằng cách hiển thị văn bản dưới dạng đường link, đầu mục, đoạn văn, danh sách,… Giống với SGML, HTML sử dụng các thẻ (tags) đặt trong cặp dấu ngoặc nhọn < >. Các thẻ HTML chỉ là một tập hợp nhỏ của SGML. HTML là ngôn ngữ đánh dấu chú trọng nhiều đến cách thức trình bày tài liệu mà ít chú trọng cấu trúc, ngữ nghĩa của tài liệu. Cấu trúc của một trang HTML cơ bản có dạng như sau: Tiêu đề trang web Phần thân trang web Thẻ đầu tiên trong tài liệu HTML là . Thẻ này báo cho trình duyệt biết đây là điểm khởi đầu của một tài liệu HTML. Thẻ cuối cùng của tài liệu là , thẻ này báo cho trình duyệt biết đây là điểm kết thúc của văn bản. Phùng Thanh Vân. K50 Thông tin - Thư viện 5
  6. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện Đoạn chữ nằm giữa hai thẻ và là thông tin header, nó xác định phần mở đầu của tài liệu. Đoạn chữ nằm giữa cặp thẻ là tiêu đề của văn bản. Dòng tiêu đề này sẽ xuất hiện ở thanh trạng thái của trình duyệt web. Đoạn chữ nằm giữa cặp thẻ là nội dung văn bản, chính là những gì sẽ thể hiện trên trình duyệt. Các thẻ của HTML không phân biệt chữ viết hoa và chữ viết thường. Có thể thêm vào các thuộc tính cho các thẻ của HTML. Những thuộc tính này cung cấp thông tin về thành phần HTML của trang Web. Ví dụ: báo cho trình duyệt biết rằng màu nền của trang là màu đỏ. Thuộc tính luôn luôn đi kèm một cặp name-value với cú pháp: name=“value”. 1.3.2. Cú pháp các thẻ HTML Thẻ cấu trúc:  HTML Cặp thẻ này được sử dụng để xác nhận một tài liệu là tài liệu HTML. Toàn bộ nội dung của tài liệu đặt giữa cặp thẻ này. Cú pháp: Nội dung tài liệu  HEAD Thẻ Head được sử dụng để xác định phần mở đầu cho tài liệu. Cú pháp: Phần mở đầu tài liệu (Header) Phùng Thanh Vân. K50 Thông tin - Thư viện 6
  7. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện  TITLE Cặp thẻ này xác định tiêu đề của tài liệu, chỉ có thể sử dụng trong phần mở đầu của tài liệu, tức là nó phải nằm trong phạm vi giới hạn bởi cặp thẻ HEAD. Cú pháp: Tiêu đề tài liệu  BODY Cặp thẻ này dùng để xác định phần nội dung chính (phần thân) của tài liệu. Trong phần thân có thể chứa các thông tin định dạng nhất định để đặt ảnh nền cho tài liệu, màu nền, đặt lề,… Những thông tin này được đặt ở phần tham số của thẻ. Cú pháp cơ bản: Phần nội dung Bắt đầu từ HTML 3.2, có nhiều thuộc tính được sử dụng trong thẻ BODY. Một số thuộc tính chính như sau: - BACKGROUND: Đặt một ảnh làm nền cho văn bản. Giá trị của tham số (đặt sau dấu “=”) là URL của file ảnh. - BGCOLOR: Đặt màu cho trang hiển thị. Nếu cả hai tham số BACKGROUND và BGCOLOR cùng có giá trị thì trình duyệt sẽ hiển thị màu nền trước, sau đó mới tải ảnh lên trên. - TEXT: Xác định màu chữ cho văn bản, kể cả các đề mục. - ALINK, VLINK, LINK: Xác định màu sắc cho các siêu liên kết trong văn bản. Thẻ định dạng khối: Phùng Thanh Vân. K50 Thông tin - Thư viện 7
  8. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện  Thẻ P Thẻ được sử dụng để định dạng một đoạn văn bản. Cú pháp: Nội dung đoạn văn bản  Các định dạng đề mục HTML hỗ trợ 6 mức đề mục. Ở đây, đề mục chỉ là các chỉ dẫn định dạng về mặt Logic, tức là mỗi trình duyệt sẽ thể hiện đề mục dưới một khuôn dạng thích hợp. Có thể ở trình duyệt này là font chữ 14 nhưng sang trình duyệt khác là font chữ 20. Đề mục cấp 1 là cao nhất và giảm dần đến cấp 6. Văn bản ở đề mục cấp 5 hay cấp 6 thường có kích thước nhỏ hơn văn bản thông thường. Dưới đây là các thẻ dùng để dịnh dạng văn bản ở dạng đề mục: … : Định dạng đề mục cấp 1 … : Định dạng đề mục cấp 2 … : Định dạng đề mục cấp 3 … : Định dạng đề mục cấp 4 … : Định dạng đề mục cấp 5 … : Định dạng đề mục cấp 6  Thẻ xuống dòng BR Thẻ này không có thẻ đóng tương ứng , nó có tác dụng chuyển sang dòng mới. Nội dung văn bản trong tài liệu HTML sẽ được trình duyệt Web thể hiện liên tục, các khoảng trắng liền nhau, các ký tự Tab, ký tự xuống dòng đều được coi như một khoảng trắng. Để xuống dòng trong tài liệu, ta phải sử dụng thẻ .  Thẻ PRE Phùng Thanh Vân. K50 Thông tin - Thư viện 8
  9. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện Thẻ này dùng để giới hạn đoạn văn bản đã được định dạng sẵn. Văn bản ở giữa hai thẻ này sẽ được thể hiện giống hệt như khi chúng được đánh vào, ví dụ dấu xuống dòng trong đoạn văn bản giới hạn bởi thẻ sẽ giữ nguyên ý nghĩa chuyển sang dòng mới (trình duyệt sẽ không coi chúng như dấu cách). Cú pháp: Văn bản đã được định dạng Các thẻ định dạng danh sách: Cú pháp: Mục thứ nhất Mục thứ hai Có bốn kiểu danh sách: - Danh sách không sắp xếp (hay không đánh số): - Danh sách có sắp xếp (hay có đánh số): , mỗi mục trong danh sách được sắp xếp thứ tự. - Danh sách thực đơn: - Danh sách phân cấp: Với nhiều trình duyệt, danh sách phân cấp và danh sách thực đơn giống danh sách không đánh số, có thể dùng lẫn với nhau. Với thẻ OL, cú pháp như sau: Mục thứ nhất Mục thứ hai Phùng Thanh Vân. K50 Thông tin - Thư viện 9
  10. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện Mục thứ ba Trong đó: TYPE =1: Các mục được sắp xếp theo thứ tự 1, 2, 3… =a: Các mục được sắp xếp theo thứ tự a, b, c… =A: Các mục được sắp xếp theo thứ tự A, B, C… =i: Các mục được sắp xếp theo thứ tự i, ii, iii… =I: Các mục được sắp xếp theo thứ tự I, II, III… Ngoài ra còn thuộc tính START= xác định giá trị khởi đầu cho danh sách. Thẻ có thuộc tính TYPE= xác định ký hiệu đầu dòng đứng trước mỗi mục trong danh sách. Thuộc tính này có thể nhận giá trị: disc (chấm tròn đậm); circle (vòng tròn); square (hình vuông). Các thẻ định dạng ký tự:  Các thẻ định dạng in ký tự - … , … : Chữ in đậm - … : Chữ in nghiêng - … : Chữ gạch chân - … : Đánh dấu đoạn văn bản giữa cặp thẻ này là định nghĩa của một từ. Chúng thường được in nghiêng hoặc thể hiện bằng một kiểu đặc biệt nào đó. - … , … : Chữ gạch ngang thân - … : In chữ lớn hơn bình thường bằng cách tăng kích thước Font hiện thời lên một. Việc dùng các thẻ lồng nhau sẽ tạo nên Phùng Thanh Vân. K50 Thông tin - Thư viện 10
  11. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện hiệu ứng chữ tăng dần. Đối với trình duyệt có giới hạn kích thước font chữ, vượt qua giới hạn này, các thẻ sẽ không có ý nghĩa. - … : Ngược lại với thẻ , in chữ nhỏ hơn bình thường bằng cách giảm kích thước Font hiện thời đi một. Việc dùng các thẻ lồng nhau sẽ tạo hiệu ứng chữ giảm dần. Đối với trình duyệt có giới hạn kích thước font chữ, vượt qua giới hạn này, các thẻ sẽ không có ý nghĩa. - … : Chọn kiểu chữ hiển thị. Trong thẻ này có thể đặt hai tham số Size= ; Color= xác định cỡ chữ và màu sắc đoạn văn bản nằm giữa hai thẻ.  Căn lề văn bản Việc căn lề văn bản giúp cho trang web có được một bố cục đẹp. Một số các thẻ định dạng như: P, HN, IMG… đều có tham số Align cho phép căn lề cho các đoạn văn bản nằm trong phạm vi giới hạn của các thẻ đó. Các giá trị cho tham số Align: - LEFT: Căn lề trái - CENTER: Căn giữa trang - RIGHT: Căn lề phải Ngoài ra, có thể sử dụng thẻ CENTER để căn giữa một khối văn bản, cú pháp: Đoạn văn bản cần căn chỉnh Trên đây là cú pháp và cách sử dụng một số thẻ cơ bản trong tài liệu HTML. Ngoài những thẻ kể trên, HTML còn sử dụng rất nhiều thẻ khác như: thẻ chèn âm thanh, hình ảnh; thẻ định dạng bảng biểu… Với số lượng thẻ phong phú, việc tạo ra tài liệu HTML khá đơn giản, tuy nhiên cần phải sử dụng chúng một cách hợp lý, linh hoạt mới có thể cho một trang HTML đẹp mắt. Phùng Thanh Vân. K50 Thông tin - Thư viện 11
  12. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện CHƯƠNG 2 NGÔN NGỮ ĐÁNH DẤU MỞ RỘNG - XML 2.1. Quá trình phát triển Như đã nói ở trên, HTML là một ứng dụng của SGML với ý tưởng ban đầu là tách biệt nội dung tài liệu khỏi cách thức trình bày, nói cách khác, HTML chú trọng đến cách thức trình bày chứ ít chú ý đến cấu trúc ngữ nghĩa của tài liệu. HTML bắt đầu khiến mọi thứ trở nên sai lệch. Ví dụ, thẻ trong trang Web nghĩa là “emphasize” - nhấn mạnh. Người sử dụng sẽ cho hiển thị nội dung được nhấn mạnh này bằng cách in đậm chữ, hoặc in màu khác… Việc này không làm hài lòng những người thiết kế Web, họ muốn giữ cố định cách hiển thị chính xác của trang Web. Một vấn đề khác là cuộc cạnh tranh quyết liệt giữa Netscape và Microsoft đã dẫn tới việc “rạn nứt” các tiêu chuẩn, gây khó khăn lớn cho các nhà phát triển Web. Các trang Web bắt đầu được sử dụng cho những mục đích đi xa khỏi khái niệm ban đầu, gồm có khai thác đa phương tiện, hình ảnh động, các ứng dụng trực tuyến, thương mại điện tử… Trình duyệt Web cũng phải nới lỏng đối với những trang Web viết vội đã làm trái quy tắc như sử dụng thẻ mở mà không có thẻ đóng tương ứng. Kết quả, sự thiếu nguyên tắc như vậy đã trở thành rào cản cho việc khai thác nội dung trang Web, hay việc sử dụng HTML cho dữ liệu có cấu trúc. Do HTML quá hạn chế, trong khi SGML lại quá phức tạp để thực hiện, các nhà nghiên cứu đã sáng tạo ra XML - ngôn ngữ đánh dấu mở rộng. Với việc sử dụng XML, có thể lưu trữ được hầu như bất kỳ loại dữ liệu nào, ở dạng mà các ứng dụng có thể dễ dàng tiếp nhận và xử lý. XML là ngôn ngữ xây dựng cấu trúc tài liệu văn bản, dựa theo chuẩn SGML. XML được W3C (World Wide Web Consortium: tổ chức độc lập định ra tiêu chuẩn cho trình duyệt Web, máy chủ và ngôn ngữ) phát triển, nhưng đặc tả XML lại do Netscape, Microsoft và các thành viên của dự án Text Encoding Initiative (TEI) xây dựng. Phùng Thanh Vân. K50 Thông tin - Thư viện 12
  13. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện W3C chính thức thông qua chuẩn XML vào tháng 2 năm 1998. Thực chất, XML phát triển không phải với mục đích trang trí trang Web mà là trợ giúp cấu trúc cho tài liệu và dữ liệu để chúng có thể trao đổi giữa các phòng ban, khách hàng và nhà cung cấp. Cho dù XML vẫn chưa phổ biến, song đang được nhiều đối tượng quan tâm bởi nó cho phép chia sẻ và sử dụng thông tin phân tán trên các hệ thống khác nhau. 2.2. Các phần của tài liệu XML  Khai báo (Declaration): Dòng khai báo trên cho biết nội dung tiếp theo là tài liệu XML, hiện sử dụng theo phiên bản 1.0 (phiên bản XML duy nhất được định nghĩa hoàn chỉnh hiện nay) và mã hóa ký tự theo UTF-8 (phiên bản thu gọn 8-bit của Unicode). Khai báo thực thể độc lập (standalone): đặt thuộc tính này là “yes” nếu tài liệu không tham chiếu đến các thực thể khác bên ngoài (external entity), nếu ngược lại, ta đặt giá trị “no”.  Chú thích (Comment): Chú thích giúp hiểu rõ hơn một phần nào đó trong cấu trúc của tài liệu XML. Các chú thích trong XML có cú pháp như sau:  Chỉ thị xử lý (Processing instruction): Thông tin thêm để các ứng dụng phân tích, xử lý tài liệu. Tất cả các chỉ thị xử lý XML bắt đầu bằng . Ví dụ:  Không gian tên (Namespace): Phùng Thanh Vân. K50 Thông tin - Thư viện 13
  14. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện Thuộc tính “xmlns” vừa để định rõ không gian tên mặc định cho toàn bộ nội dung phần tử dữ liệu, vừa là tiền tố để giải quyết vấn đề xung đột về tên. Tên đầy đủ của không gian tên phải là duy nhất. Ta dùng định danh tài nguyên duy nhất (URI) để đặt cho không gian tên cần truy xuất. Hiện nay, do URI chưa phổ biến nên thường dùng URL làm định danh duy nhất, vì vậy nó trông giống như một địa chỉ Web dù trên thực tế nó chỉ là một cái tên. Ví dụ:  Các Phần tử (Elements) và Thuộc tính (Attributes): Đây là thành phần căn bản khi xây dựng tài liệu XML. Phần tử mang tính thứ bậc, phải có thẻ mở và thẻ đóng , có thể chứa hoặc không chứa thuộc tính ở thẻ mở. Các phần tử rỗng là các phần tử không có nội dung, và có thể sử dụng kết hợp thẻ mở và đóng, như . Ví dụ: …  Dữ liệu nội dung: Là phần văn bản tạo nên nội dung trong các thẻ phần tử. Tương tự trong HTML, các thẻ phần tử có thể bao chứa lẫn nhau. 2.3. Tài liệu XML 2.3.1. Tài liệu XML hợp khuôn dạng (Well-formed document) Khái quát chung: Một tài liệu chỉ có thể hợp khuôn dạng khi nó tuân theo các quy tắc cú pháp của XML được thiết lập bởi W3C. Các quy tắc này được nêu ra trong đặc tả XML 1.0. Có thể nêu ra một số quy tắc như sau: - Phần khai báo phải đặt ở dòng đầu tiên của trang tài liệu. Phùng Thanh Vân. K50 Thông tin - Thư viện 14
  15. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện - Các mã đánh dấu có vị trí nhất định của nó và không được thay đổi. Tài liệu XML chỉ có một thành phần gốc duy nhất, các thẻ bộ phận không được trùng với thẻ gốc và phải nằm trong thẻ gốc. - Một thuộc tính chỉ có thể xuất hiện một lần trong cùng một thẻ mở. - Phân biệt giữa viết chữ hoa và chữ thường. - Phần tử khác rỗng phải bao gồm đầy đủ thẻ mở và thẻ đóng, phần tử rỗng kết thúc bằng ký tự>. - Các giá trị thuộc tính phải đặt trong dấu nháy kép “ ”. - Một vài ký tự mang ý nghĩa đặc biệt trong XML. Ví dụ nếu đặt ký tự “
  16. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện Ở đây, tài liệu XML không hợp khuôn dạng vì các thẻ sắp xếp sai vị trí, thẻ và đan xen vào nhau. Nếu là HTML, trình duyệt vẫn hiểu ra và hiển thị đúng, nhưng với XML, đòi hỏi phải đúng khuôn dạng hoàn toàn. Định dạng và dữ liệu ký tự: Tài liệu XML được tạo thành từ thành phần định dạng và thành phần dữ liệu ký tự. Định dạng trong tài liệu giúp tạo nên một cấu trúc. Định dạng bao gồm: - Thẻ bắt đầu, thẻ kết thúc - Các phần tử thẻ rỗng - Các tham chiếu thực thể, tham chiếu ký tự - Lời chú thích - Phân đoạn CDATA - Khai báo kiểu tài liệu - Chỉ thị xử lý Tất cả các dữ liệu còn lại trong tài liệu XML không phải là định dạng đều được xem là dữ liệu ký tự. Xem xét ở ví dụ đã nêu: Ứng dụng XML Phùng Thanh Vân. K50 Thông tin - Thư viện 16
  17. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện Những điều cần biết về XML Các phần tử định dạng đó là , hoặc … Còn lại, phần văn bản “Ứng dụng XML”, “Những điều cần biết về XML” là dữ liệu ký tự, chúng không phải là phần định dạng của tài liệu. Khoảng trắng: Các ký tự cách, tab, xuống dòng, ký tự lùi đầu dòng đều được xem là khoảng trắng đối với các trình phân tích XML. Ví dụ, hai tài liệu XML dưới đây hoàn toàn tương đương nhau: Ứng dụng XML Những điều cần biết về XML và Ứng dụng XML Phùng Thanh Vân. K50 Thông tin - Thư viện 17
  18. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện Những điều cần biết về XML Phần tử gốc (root element): Tài liệu XML được coi là hợp khuôn dạng nếu chứa đựng duy nhất một phần tử gốc. Phần tử gốc này chứa đựng tất cả các phần tử và các cặp thẻ khác trong tài liệu. Phần tử gốc được xem là phần rất quan trọng trong cấu trúc XML. Như trong ví dụ nêu trên, phần tử gốc chính là cặp thẻ . Có thể đặt tên bất kỳ cho phần tử gốc. Thuộc tính (Attribute): Thuộc tính của các thẻ trong tài liệu XML tương tự như thuộc tính của các thẻ HTML. Thuộc tính được kết hợp theo cặp name=value. Thuộc tính cho phép xác định thêm thông tin và ý nghĩa của thẻ. Thuộc tính được đặt bên trong thẻ mở và thẻ rỗng. Phân đoạn CDATA: Như đã đề cập ở trên, các ký tự đặc biệt như “
  19. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện Phân đoạn CDATA cũng là một phần tử nhưng bao gồm chỉ một thẻ. Thẻ này bắt đầu bằng “”. Giữa dấu hiệu bắt đầu và kết thúc là nội dung văn bản mà trình phân tích sẽ không đụng đến.  Trên đây là định nghĩa và cú pháp của các thành phần XML cơ bản. Hợp khuôn dạng là yêu cầu tối thiểu mà tài liệu XML cần tuân thủ. Tiếp theo, tài liệu XML còn yêu cầu một điều kiện nữa đó là tính hợp lệ khi định nghĩa kiểu tư liệu cho các phần tử trong tài liệu. 2.3.2. Tài liệu XML hợp lệ (Valid document) Một tài liệu XML được gọi là hợp lệ khi nó là tài liệu được kết hợp với định nghĩa kiểu tư liệu (Document Type Definition - DTD) và tuân theo chuẩn DTD. Các định nghĩa DTD nhằm xác định cú pháp đúng đắn cho tài liệu. DTD có thể được chứa trong một file tách biệt hoặc chứa ngay trong chính tài liệu, DTD sử dụng phần tử hay thẻ . Định nghĩa kiểu tư liệu: Một tài liệu XML được xem là hợp lệ và có giá trị khi toàn bộ các phần tử trong tài liệu được định nghĩa kiểu (type definition). Định nghĩa kiểu tư liệu (Document Type Definition - DTD) là cách thức khai báo phần tử XML chỉ chứa đơn thuần dữ liệu text hay nó có chứa các phần tử con khác. Cú pháp: Ví dụ về DTD: nhande (#PCDATA)> Phùng Thanh Vân. K50 Thông tin - Thư viện 19
  20. Tìm hiểu ngôn ngữ XML - Một số ứng dụng trong lĩnh vực Thông tin - Thư viện tacgia (#PCDATA)> thongtinxuatban (noixb, nhaxb, namxb)> noixb (#PCDATA)> nhaxb (#PCDATA)> namxb (#PCDATA)> ]> Ở đây, nhìn vào khai báo, ta có thể biết được ý nghĩa và cấu trúc của tài liệu: TAILIEU được định nghĩa (bằng khai báo Phần tử rỗng được khai báo với từ khóa EMPTY: ANY: Khi khai báo một phần tử với nội dung ANY có nghĩa là phần tử khai báo có thể chứa bất kỳ kiểu nội dung nào, kể cả mọi phần tử khác. Nếu một phần tử được khai báo là ANY thì trình phân tích sẽ không kiểm tra cú pháp hay xác định tính hợp lệ của nội dung phần tử. Cú pháp: Phần tử có chứa phần tử con: Phùng Thanh Vân. K50 Thông tin - Thư viện 20
nguon tai.lieu . vn