Xem mẫu
- BÀI GIẢNG THƯ VIỆN SỐ
CHƯƠNG 5: CÁC CHUẨN SỬ DỤNG TRONG DL
TS. ĐỖ QUANG VINH
HÀ NỘI - 2013
1
- NỘI DUNG
I. TỔNG QUAN VỀ THƯ VIỆN SỐ DL
II. MÔ HÌNH HÌNH THỨC CHO THƯ VIỆN SỐ DL
III. CHỈ MỤC TÀI LIỆU
IV. TÌM KIẾM THÔNG TIN
V. CÁC CHUẨN SỬ DỤNG TRONG THƯ VIỆN SỐ
VI. THỰC HÀNH HỆ PHẦN MỀM
THƯ VIỆN SỐ GREENSTONE
2
- V. CÁC CHUẨN SỬ DỤNG TRONG DL
5.1. Chuẩn trình bày
ASCII, Unicode, SGML, HTML, XML, GIF, JPG, TIF, PNP
a. ASCII
− American Standard Code for Information Exchange
− Tiêu chuẩn Việt Nam: TCVN 5712-1993
− Văn bản chỉ có ký tự, không có lệnh trình bày (plain text
file). Văn bản bằng ký tự ASCII không có khả năng trình
bày các công thức toán học và hoá học.
− Thường phải được nhập thủ công vào CSDL
3
- − Ưu điểm:
+ Tìm kiếm được theo toàn văn
+ Tìm kiếm nhanh
+ Dữ liệu có kích thước tệp nhỏ, dễ truyền trên mạng
− Nhược điểm:
+ Hình thức đơn giản
+ Không bảo toàn được nguyên dạng của trang.
+ Không hỗ trợ đa ngôn ngữ (255 ký tự)
4
- b. UNICODE
− Dùng cho văn bản
− Tiêu chuẩn Việt Nam: TCVN 6909-2001
− Hỗ trợ đa ngôn ngữ: 16 triệu mã ký tự
− Vẫn còn ít chương trình hỗ trợ UNICODE
5
- c. NGÔN NGỮ ĐÁNH DẤU
Tài liệu số
– Ngày càng nhiều
– Chuẩn đa dạng:
Chuẩn độc quyền: DOC của MS; PDF của Adobe
Chuẩn mở: SGML
Chuẩn độc quyền
– Phụ thuộc phần mềm
– Phụ thuộc sự phát triển của công ty
– Đòi hỏi bản quyền
Sự phát triển tài liệu số dẫn đến nhu cầu về chuẩn mở
6
- Sự phát triển của tài liệu số đã đặt ra yêu cầu mới: chuẩn dữ
liệu không độc quyền
Có tính mở
Không phụ thuộc phần mềm, nền tảng máy tính (Platform
independent)
Ngôn ngữ đánh dấu (Markup Language)
Sử dụng các cặp thẻ đánh dấu: bao gồm thẻ mở và thẻ đóng:
– và
Hiện nay: SGML, HTML và XML
7
- Ngôn ngữ đánh dấu tổng quát chuẩn SGML
Standard Generalized Markup Language
SGML là cách thức trình bày tài liệu số bằng các mã đánh
dấu
Là tiêu chuẩn ISO 8879 (Information processing--Text and
office systems - Standard Generalized Markup Language)
Là một chuẩn không độc quyền để soạn thảo tài liệu số có
cấu trúc
Sử dụng các nhãn (thẻ) để đánh dấu và gán ý nghĩa cho dữ
liệu. Thí dụ:
Đây là nhan đề tài liệu
Có thể tự phát triển khổ mẫu riêng, chỉ cần tuân thủ nguyên
tắc. 8
- Cấu trúc tài liệu SGML
Gồm 3 phần
– Phần 1: Phần thông báo (Statement)
– Phần 2: Định nghĩa phần tử tài liệu
– DTD - Document Type Definition
Thông báo mô hình logic của tài liệu (có các kiểu yếu tố
nào, thẻ mô tả là gì,...)
– Phần 3: Nội dung tài liệu
Định nghĩa phần tử dữ liệu (DTD)
DTD Document Type Definition
DTD xác định các khối thông tin hợp lệ của một tài liệu
SGML
DTD xác định cấu trúc của tài liệu thông qua một danh mục
các yếu tố và thuộc tính
9
- Ví dụ DTD
Những yếu tố này đều dạng
dữ liệu Character (ký tự)
]>
Tove
Jani
Nội dung của văn bản
Reminder
Don't forget me this
weekend
10
- #PCDATA
− CDATA: cho biết đây là dữ liệu dạng ký tự (character data),
sử dụng trong ngôn ngữ đánh dấu SGML and XML.
− Dùng để phân biệt với dữ liệu không phải ký tự dùng cho các
chức năng cấu trúc đặc thù
11
- Ngôn ngữ SGML mạnh cho xây dựng tài liệu có cấu trúc
Phức tạp, phát triển ứng dụng tốn kém
Phải có trình duyệt riêng để đọc
Điều quan trọng để ứng dụng SGML là xây dựng DTD
Ví dụ về ứng dụng:
TEI – Text Encoding Initiative
12
- HTML
HyperText Mark-up Language
− Là một ứng dụng của SGML dùng cho tài liệu WEB
− Đơn giản hoá SGML
− Thẻ HTML là một kiểu DTD nhưng được chấp nhận bởi
cộng đồng sử dụng Web
− Các thẻ HTML được thống nhất toàn cầu (W3C – WWW
Consortium)
13
- Ưu nhược điểm của HTML
Ưu điểm
– Đơn giản
– Có định hướng đến trình bày
– Được đọc bằng những trình duyệt (Browser)
– Được các công ty hỗ trợ phát triển trình duyệt: Internet
Explorer, Netscape Navigator, Mosaic,...
Nhược điểm
– Phải chờ thông qua cho thẻ mới
– Số thẻ hạn chế
14
- Cấu trúc của tài liệu HTML
Dữ liệu
Nhan đề trang Web không hiển thị
Dữ liệu hiển thị
...... Dữ liệu hiển thị
trên màn hình
15
- Thẻ trợ giúp mô tả tài liệu HTML
Thẻ trợ giúp mô tả (còn gọi là thẻ siêu dữ liệu) nằm trong
phần của tài liệu
Hai loại thẻ chính:
– ...........
–
- Ví dụ đánh dấu HTML
Giống lúa lai Trung Quốc và kỹ thuật
gieo trồng
......
17
- Ngôn ngữ đánh dấu mở rộng XML
XML eXtensible Markup Language
− Là một dạng của SGML và được World Wide Web
Consortium (W3C) đề xuất
− Đơn giản hơn SGML
− Linh hoạt hơn HTML
− Hiện được coi là một dạng ngôn ngữ được coi là chủ đạo
trong tạo lập các tài nguyên điện tử
18
- Đặc điểm của XML
− XML là ngôn ngữ đánh dấu tương tự HTML
− Được thiết kế để chứa/trao đổi dữ liệu nhưng không để
trình bày dữ liệu
− Các thẻ XML không được xác định trước. Người dùng tự xác
định các thẻ của mình
− XML được thiết kế để tự mô tả (self-descriptive)
− Tổ chức 3WC gọi XML là:
"một cú pháp thông dụng cho việc biểu thị cấu trúc trong dữ
liệu"
19
- Sự khác biệt giữa XML và HTML
XML không thay thế HTML
XML và HTML được thiết kế cho 2 mục đích khác nhau:
– XML dùng để chứa và chuyển tải dữ liệu. XML định
hướng dữ liệu
– HTML được thiết kế để trình bày dữ liệu
XML không xử lý thông tin; chỉ chứa các thẻ và dữ liệu. Phải
có phần mềm để xử lý.
XML là tệp văn bản không mã hóa
Người dùng tự quy định thẻ cho tài liệu (thí dụ and
).
Không có thẻ XML mặc định
20
nguon tai.lieu . vn