Xem mẫu

  1. MỤC LỤC LỜI CẢM ƠN…………………………………………………………..3 DANH MỤC VIẾT TẮT……………………………………………….4 MỞ ĐẦU 1. Tính cấp thiết của đề tài…………………………………………5 2. Mục đích nghiên cứu…………………………………………….6 3. Đối tƣợng và phạm vi nghiên cứu……………………………….7 4. Phƣơng pháp nghiên cứu ………………………………………..7 5. Bố cục khoá luận ………………………………………………..7 CHƢƠNG 1. TỔNG QUAN VỀ MÃ NGUỒN MỞ GREENSTONE...8 1.1. Một số khái niệm liên quan đến nguồn mở Greenstone …..8  1.1.1. Thƣ viện số ………………………………………..8  1.1.2 Phần mềm mã nguồn mở (open source/open code)…9  1.1.3 Bộ sƣu tập (collection)……… ……………………..10  1.1.4 Siêu dữ liệu (Medata) ……………………………...10  1.1.5. Plugin ……………………………………………… 15  1.1.6 Classifier ( Phân Loại) …………………………….. 16  1.1.7 Duyệt tài liệu (Browser) ……………………………20  1.1.8 Tìm kiếm (Search) ………………………………….21 1.2. Bối cảnh đời của phần mềm mã nguồn mở Greenstone…….22 1.3.Tình hình ứng dụng mã nguồn mở Greenstone trên thế giới hiện nay……………………………………………………………….24 1.4.Sơ lƣợc về mã nguồn mở GREENSTONE………………….30  1.4.1. Greenstone là phần mềm nguồn mở và tự do……....31  1.4.2 Greenstone là phần mềm đa ngôn ngữ……………...31 1.5 Đặc điểm của Greenstone…………………………………... 32 1.6. Yêu cầu phần mềm………………………………………….33 1.7. Tính năng của nguồn mở Greenstone ……………………....35 1.8. Ƣu điểm của nguồn mở Greenstone………………………. .36 1.9. Một số hạn chế của nguồn mở Greenstone ……………….. .38 1
  2. CHƢƠNG 2. THỰC TRẠNG NGHIÊN CỨU, GIẢNG DẠY VÀ ỨNG DỤNG PHẦN MỀM MÃ NGUỒN MỞ GREENSTONE Ở VIỆT NAM …….40 2.1 Thực trạng nghiên cứu và giảng dạy mã nguồn mở Greenstone ở Việt Nam ……………………………………………………………..40 2.2. Thực trạng triển khai ứng dụng nguồn mở Greenstone ở Việt Nam……………………………………………………………...42  2.2.1. Thƣ viện trƣờng Đại Học Khoa Học Tự Nhiên Thành Phố Hồ Chí Minh………………………………….43  2.2.2. Thƣ viện Đại học Ngân Hàng Thành phố Hồ Chí Minh (ĐHNH TP.HCM) ………………………………...53  2.2.3.Thƣ viện ĐHBK TP. HCM………………….57  2.2.4.Thƣ viện Hải Phú (Tỉnh Phú Yên)…………..59  2.2.5.Thƣ viện Trƣờng CBQLGD TP. HCM……...63  2.2.6. Trung tâm học liệu – Đại học Thái Nguyên...66 Chƣơng 3 : NHẬN XÉT VÀ KIẾN NGHỊ………………………….....72 3.1.Nhận xét: …………………………………………………....72  3.1.1 Nhận xét về tính năng và đặc điểm của phần mềm ……………………………………………………..72  3.1.2 Nhận xét về việc triển khai ứng dụng Greenstone ở Việt Nam…………………………………………..73  3.1.3 Nhận xét về kết quả của việc nghiên cứu và giảng dạy nguồn mở Greenstone ở Việt Nam………….....75 3.2 Kiến nghị………………………………………………….....76 KẾT LUẬN …………………………………………………………....78 DANH MỤC TÀI LIỆU THAM KHẢO……………………………....80 2
  3. LỜI CẢM ƠN Để hoàn thành đƣợc khóa luận tốt nghiệp này, tôi xin chân thành cảm ơn Cô giáo hƣớng dẫn, Th.S Nguyễn Thị Trang Nhung đã trực tiếp hƣớn3g dẫn tôi trong suốt thời gian thực hiện đề tài. Tôi cũng xin chân thành cảm ơn các Thầy, Cô giáo trong khoa Thƣ viện – Thông tin đã tận tình giảng dạy và trang bị cho chúng tôi những kiến thức cần thiết, quý báu trong suốt những năm học tại trƣờng. Xin cảm ơn chân thành tới gia đình, bạn bè đã động viên, giúp đỡ tôi hoàn thành Khóa luận này. Mặc dù tôi đã hoàn thành khóa luận với tất cả nỗ lực của bản thân, nhƣng do chƣa có kinh nghiệm trong việc nghiên cứu khoa học cũng nhƣ hạn chế về trình độ hiểu biết nên khóa luận không thể tránh khỏi thiếu sót nhất định về mặt nội dung và hình thức trình bày. Kính mong nhận đƣợc sự cảm thông và chỉ bảo của quý thầy cô và các bạn ! Hà Nội, ngày 20 tháng 05 năm 2011 Sinh viên thực hiện Trần Thị Thanh 3
  4. DANH MỤC TỪ VIẾT TẮT CBQLGD: Cán bộ Quản lý Giáo dục Thành Phố Hồ Chí Minh ĐHKHTN TP. HCM: Đại học Khoa học Tự nhiên Thành Phố Hồ Chí Minh ĐHNH TP. HCM: Đại học Ngân Hàng Thành Phố Hồ Chí Minh ĐHBK TP. HCM: Đại học Bách Khoa Thành Phố Hồ Chí Minh ĐHQG TP.HCM: Đại học Quốc Gia Thành Phố Hồ Chí Minh TP. HCM: Thành Phố Hồ CHí Minh UNESCO: United Nations Educational, Scientific, and Cultural Organization GLI: Greenstone Librarian Interface DLF: Digital Libraries Federation (Liên doàn thƣ viện số thế giới) GNU General Public License FOSS Free/Open Source Software PMMN phần mềm nguồn mở 4
  5. MỞ ĐẦU 1. Tính cấp thiết của đề tài. Sự phát triển nhƣ vũ bão của công nghệ thông tin mang đến nhiều cơ hội và thách thức cho các ngành nghề trong xã hội, trong đó có ngành thƣ viện – thông tin. Chính sự thay đổi nhanh chóng này đã và đang dẫn đến sự bùng nổ thông tin làm thay đổi các hình thức xuất bản, đa dạng và phong phú hơn cả về hình thức và nội dung, cả truyền thống và hiện đại. Một trong những thành tựu mà công nghệ thông tin mang lại là nguồn tài nguyên thông tin đã đƣợc phát hành dƣới dạng số hóa. Việc xây dựng các bộ sƣu tập số giúp cho việc trao đổi nguồn lực thông tin giữa các thƣ viện đƣợc dễ dàng không chỉ trong một quốc gia, các nƣớc trong khu vực mà còn các nƣớc trên thế giới. Số lƣợng tài liệu tăng theo cấp số nhân và việc số hoá tài liệu tạo điều kiện thuận lợi cho con ngƣời tiếp cận với nguồn tri thức của nhân loại nhƣng nó lại gây ra khó khăn cho việc lƣu trữ và bảo quản tài liệu tại các trung tâm thông tin thƣ viện Với bƣớc phát triển này, hình ảnh, vai trò và chức năng của thƣ viện cũng đã thay đổi theo. Có thể thấy từ thƣ viện truyền thống chuyển giao sang thƣ viện điện tử và giờ đây là thƣ viện số. Từ việc ngƣời dùng tin phải trực tiếp tới thƣ viện để khai thác và sử dụng các sản phẩm và dịch vụ của thƣ viện, giờ chỉ cần có máy tính kết nối mạng Internet và tài khoản truy cập họ có thể sử dụng và khai thác thƣ viện ở bất cứ nơi đâu, bất cứ lúc nào. Phát triển thƣ viện số đã và đang là mục tiêu phát triển của nhiều thƣ viện trên thế giới nói chung và Việt Nam nói riêng. Để tổ chức, xây dựng, quản lý và phân phối tốt nguồn thông tin của thƣ viện, đặc biệt khai thác và quản lý nguồn thông tin số hóa, đáp ứng cao nhất nhu cầu thông tin của ngƣời sử dụng, tiết kiệm chi phí và hiệu quả các thƣ viện phải tìm ra các giải pháp hữu ích Một trong những yêu cầu đặt ra đối với các thƣ viện là lựa chọn phần mềm phù hợp để đáp ứng các vấn đề trên. Hiện nay trên thế giới có rất nhiều phần mềm quản 5
  6. lý thƣ viện, ở Việt Nam một số phần mềm do các công ty Việt Nam sản xuât nhƣ Ilip, Libol, Lacviet…cũng đã đƣợc sử dụng phổ biến trong các thƣ viện. Tuy nhiên các phần mềm ở Việt Nam đã ít nhiều cho thấy những hạn chế trong quá trình sử dụng. Gần đây các phần mềm nguồn mở đƣợc sử dụng khá phổ biến trên thế giới đã và đang đƣợc sử dụng ở Việt Nam nhƣ Greenstone, D- space,…nhƣng ở mức độ hạn chế. Với điều kiện kinh tế còn hạn hẹp, ứng dụng công nghệ thông tin vào thƣ viện chƣa cao và đầu tƣ cho các thƣ viện chƣa lớn thì việc lựa chọn phần mềm nguồn mở để xây dựng các bộ sƣu tập số hóa làm cơ sở cho xây dựng thƣ viện số là một lựa chọn hợp lý. Greenstone là một trong những phần mềm mã nguồn mở miễn phí có thể tích hợp vào các phần mềm thƣ viện có sẵn và cho phép các thƣ viện có thể chỉnh sửa để phù hợp với yêu cầu và mục đích của thƣ viện. Thƣ viện Trƣờng Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh (ĐHKHTN TP. HCM) là cơ quan đi đầu sử dụng phần mềm Greenstone và hợp tác với một nhóm chuyên gia công nghệ thông tin để chuyển đổi phần mềm này sang tiếng Việt có tên gọi là HÒN ĐÁ XANH (2004). Tiếp đó thƣ viện Đại học Ngân hàng Thành phố Hồ Chí Minh (ĐHNH TP. HCM) và một số thƣ viện khác cũng đã ứng dụng phần mềm này để xây dựng các bộ sƣu tập số cho thƣ viện mình. Để tìm hiểu kỹ hơn về các tính năng của phần mềm nguồn mở Greenstone trong việc xây dựng và phát triển thƣ viện số tôi đã chọn đề tài “Phần mềm nguồn mở Greenstone và tình hình ứng dụng tại Việt Nam” làm đề tài khóa luận. 2. Mục đích nghiên cứu Mục đích nghiên cứu của đề tài là tìm hiểu về phần mềm nguồn mở thƣ viện số - Greenstone, phân tích những đặc điểm nổi bật của phần mềm này trong việc ứng dựng vào hoạt động thƣ viện. Khảo sát về cách tổ chức, quản lý và khai thác bộ sƣu tập số của một số thƣ viện đã ứng dụng Greenstone tại Việt Nam để làm rõ những tính năng và ứng dụng của phần mềm này. Tác giả sẽ đƣa ra những đề xuất, kiến nghị với mong muốn giới thiệu phần mềm này rộng rãi 6
  7. hơn đến các thƣ viện nhằm nâng cao hiệu quả hoạt động, đặc biệt là xây dựng và phát triển bộ sƣu tập số của hệ thống thƣ viện trong cả nƣớc. 3. Đối tƣợng và phạm vi nghiên cứu: Đối tƣợng nghiên cứu của khóa luận là phần mềm nguồn mở thƣ viện số- Greenstone và thực trạng ứng dụng phần mềm này tại Việt Nam. Phạm vi nghiên cứu là thực trạng nghiên cứu và giảng dạy và ứng dụng phần mềm mã nguồn mở Greenstone tại Việt Nam. Nghiên cứu về vấn đề này để đƣa ra thực trạng triển khai và ứng dụng phần mềm Greenstone và cách thức tổ chức và khai thác tài liệu số hoá của các thƣ viện Việt Nam đang áp dụng phần mềm này. 4. Phƣơng pháp nghiên cứu Trong quá trình thực hiện đề tài, tôi đã tiến hành phƣơng pháp sau: - Phƣơng pháp trực quan - Tham khảo ý kiến chuyên gia - Phân tích, tổng hợp tài liệu 5. Bố cục khoá luận Ngoài các phần mở đầu, kết luận và danh mục tài liệu tham khảo. Khoá luận gồm 3 chƣơng: Chương 1: Tổng quan về nguồn mở Greenstone. Chương 2 : Thưc trạng nghiên cứu, giảng dạy và ứng dụng phần mềm Greenstone tại Việt Nam. Chương 3 : Nhận xét và kiến nghị. 7
  8. CHƢƠNG 1. TỔNG QUAN VỀ MÃ NGUỒN MỞ GREENSTONE 1.1.Một số khái niệm liên quan đến nguồn mở Greenstone 1.1.1. Thư viện số Hiện nay có nhiều định nghĩa khác nhau về thƣ viện số. Dƣới đây là một số định nghĩa tiêu biểu: Khái niệm thƣ viện số của Fox (1993): “thƣ viện số là tập hợp của các máy tính số, các thiết bị máy móc lƣu trữ và trao đổi thông tin cùng với bối cảnh và phần mềm cần thiết để sản xuất và cung cấp các dịch vụ thông tin thƣ viện tƣơng tự nhƣ các thƣ viện truyền thống vẫn làm đối với tài liệu giấy và các loại hình tài liệu truyền thống khác trong qua trình thu thập, biên mục, tìm kiếm và phố biến thông tin… Một thƣ viện số đúng nghĩa và hoàn chỉnh phải bao gồm tất cả các dịch vụ cơ bản của các thƣ viện truyền thống đồng thời tận dụng đƣợc các lợi thế của việc lƣu trữ, tìm kiếm và cung cấp thông tin số hoá” Theo định nghĩa của Liên đoàn Thƣ viện số (1993): “ thƣ viện số là các tổ chức cung cấp các nguồn lực tài nguyên, bao gồm cả các chuyên gia để lựa chọn, cấu trúc, cung cấp khả năng truy cập tới các nguồn tri thức, phân phối, bảo đảm tính vẹn toàn và tính lâu dài của các bộ sƣu tập số để cho một cộng đồng hoặc một tập hợp cộng đồng ngƣời dùng tin xác nhận luôn có thể sử dụng một cách nhanh chóng kịp thời và kinh tế. Theo Micheal Lest (1997): “ thƣ viện số là các bộ sƣu tập thông tin số hóa đƣợc tổ chức. Chúng bao gồm việc cấu trúc và thu thập thông tin là các công việc mà các thƣ viện truyền thống vẫn luôn phải làm và các máy tính có nhiệm vụ trình bày các thông tin số đó. Một thƣ viện số thực sự cũng tạo ra các nguyên tắc quản lý những yếu tố đó cấu thành thƣ viện và các phƣơng thức tổ chức thƣ viện”. 8
  9. Theo Liên đoàn Thƣ viện số Hoa kỳ (1999): “thƣ viện số là cơ quan, tổ chức có các nguồn nhân lực chuyên hóa, để lựa chọn cấu trúc việc truy cập đến diễn giải, phổ biến, bảo quản sự toàn vẹn, đảm bảo sự ổn định trong thời gian dài của sƣu tập các công trình số hóa mà chúng ở dạng sẵn sàng để sử dụng một cách kinh tế cho một hoặc một số cộng đông nhất định Theo Witten và Bainbridge (2003): “thƣ viện số là bộ sƣu tập thông tin một cách có tổ chức, là tập hợp các đối tƣợng dữ liệu số mang tính tập trung, gồm có văn bản, video, âm thanh, cùng với những phƣơng thức để truy cập, khai thác, chọn lọc, tổ chức và bảo trì bộ sƣu tập này”. 1.1.2 Phần mềm mã nguồn mở (open source/open code) Phần mềm mã nguồn mở là phần mềm với mã nguồn đƣợc công bố và sử dụng một giấy phép nguồn mở. Giấy phép này cho phép bất cứ ai cũng có thể nghiên cứu, thay đổi và cải tiến phần mềm, và phân phối phần mềm ở dạng chƣa thay đổi hoặc đã thay đổi (Wikipedia) Theo David Wheeler : “PMNM là những chƣơng trình mà quy trình cấp phép sẽ cho ngƣời dùng quyền tự do chạy chƣơng trình theo bất kỳ mục đích nào, quyền nghiên cứu và sửa đổi chƣơng trình, quyền sao chép và tái phát hành phần mềm gốc hoặc phần mềm đã sửa đổi (mà không phải trả tiền cho những ngƣời lập trình trƣớc)”. PMNM là những phần mềm đã đƣợc cung cấp dƣới cả dạng mã và nguồn. Ngƣời dùng có quyền sửa đổi, cải tiến, phát triển, nâng cấp theo một số nguyên tắc chung nhất định theo điều khoản quy định trong giấy phép PMNM (General Public Licence – GPL) mà không cần xin phép ai - điều mà họ không đƣợc phép làm với Phần mềm nguồn đóng (PMNĐ) hay còn gọi là Phần mềm thƣơng mại. 9
  10. 1.1.3 Bộ sưu tập (collection) Bộ sƣu tập số là một tập hợp các tài liệu hay là các đối tƣợng số đƣợc lựa chọn và đƣợc tổ chức cùng với các siêu dữ liệu mô tả và có ít nhất một giao diện để ngƣời sử dụng truy cập.[20, tr 11] Theo Ian H. Witten, chuyên gia Thƣ viện số ĐH Waikato, New Zealand “Thƣ viện số là tập hợp những bộ sƣu tập thông tin của các đối tƣợng số hoặc đã đƣợc số hóa có tổ chức và tập trung”. Phần mềm nguồn mở Greenstone cho phép tạo lập nhanh chóng những bộ sƣu tập thông tin nhƣ thế, có tổ chức và làm tăng năng lực truy tìm và lƣớt tìm của ngƣời sử dụng để hình thành thƣ viện số. Một bộ sƣu tập thông tin bao gồm nhiều tài liệu dƣới nhiều dạng thức khác nhau: văn bản, âm thanh, hình ảnh, tuy nhiên cung cấp một giao diện đồng nhất qua đó tất cả các tài liệu có thể đƣợc truy cập, mặc dù cách mà tài liệu đó hiển thị sẽ tùy thuộc vào phƣơng tiện và dạng thức của tài liệu đó. Một thƣ viện bao gồm nhiều bộ sƣu tập. Mỗi sƣu tập đƣợc tổ chức theo hình thức khác nhau tùy nội dung tài liệu đƣợc sƣu tầm và tùy theo chủ đề đƣợc quan tâm. Tuy nhiên cách thức xây dựng và hiển thị các bộ sƣu tập là hoàn toàn giống nhau. Bộ sƣu tập có thể xem là đơn vị của một thƣ viện số Greenstone. 1.1.4 Siêu dữ liệu (Medata) Siêu dữ liệu là dữ liệu đi kèm với đối tƣợng thông tin và nó cho phép những ngƣời sử dụng tiềm năng có thể biết trƣớc sự tồn tại cũng nhƣ đặc điểm của đối tƣợng thông tin này [20, tr 1] Gail Hodge (1997) định nghĩa: siêu dữ liệu là "thông tin có cấu trúc mà nó mô tả, giải thích, định vị, hoặc làm cho nguồn tin trở nên dễ tìm kiếm, sử dụng và quản lý hơn. Siêu dữ liệu đƣợc hiểu là dữ liệu về dữ liệu hoặc thông tin về thông tin" 10
  11. Trong thƣ viện truyền thống, ngƣời ta biên mục để tạo nên những biểu ghi thƣ mục nhằm xây dựng hệ thống tra cứu qua mục lục phiếu. Biểu ghi thƣ mục hay mục lục phiếu miêu tả lý lịch của tài liệu: nhan đề, đề mục, tác giả, xuất bản,vv…Khi sử dụng máy tính, biểu ghi thƣ mục này đƣợc biểu thị bằng một dạng thức máy đọc đƣợc (MARC). Cách biên mục này chỉ thể hiện đƣợc dạng thƣ mục tức lý lịch chứ không có toàn văn và đa phƣơng tiện, đƣợc gọi là biên mục theo dạng liên tuyến (analog). Trong môi trƣờng số, dữ liệu đƣợc đóng gói bằng ngôn ngữ XML. Cách biên mục phải thay đổi qua môi trƣờng Web, nghĩa là các dữ liệu thƣ mục phải đƣợc đóng gói, ngƣời ta gọi là biên mục theo dạng kỹ thuật số (digital). Các biểu ghi thƣ mục trở thành siêu dữ liệu thƣ tịch – metadata. Vậy metadata chính là phiếu mục lục miêu tả lý lịch tài liệu đƣợc phát sinh tự động trong môi trƣờng số. Cụ thể metadata là thông tin mô tả cho một tài liệu trong bộ sƣu tập, ví dụ tựa đề tài liệu, tên tác giả, ngày xuất bản,…Nói một cách khác metadata tức là dữ liệu về dữ liệu, phục vụ hai mục đích chính là nhận dạng và mô tả dữ liệu. Nó sẽ đƣợc dùng để di chuyển tới hoặc xác định vị trí dữ liệu khi duyệt hoặc tìm kiếm trên một kho dữ liệu cũng nhƣ thu thập thông tin nhiều hơn về chính dữ liệu đã đƣợc tìm thấy. Phần mềm nguồn mở Greenstone đã sử dụng Chuẩn Dublin Core, nội dung chủ yếu của chuẩn mô tả dữ liệu này gồm 15 trƣờng dữ liệu dùng để mô tả chi tiết các nguồn tài liệu kể cả tóm tắt nội dung với đầy đủ những tiêu đề (nhan đề, tác giả, đề mục) và những điểm truy cập khác. Các yếu tố cơ bản của Dublin Core đều mang thuộc tính lựa chọn và có thể lặp lại. Mỗi yếu tố cũng có một giới hạn những hạn định, thuộc tính nhằm diễn giải chính xác ý nghĩa của các yếu tố. 1) Nhan đề (Title): Nhan đề tài liệu. 2) Tác giả (Creator): Ngƣời hoặc cơ quan chịu tránh nhiệm chính về nội dung trí tuệ của tài liệu. 11
  12. 3) Đề mục (Subject): Chủ đề của nguồn thông tin và đƣợc thể hiện bằng từ vựng có kiểm soát gồm tiêu đề đề mục, số phân loại,... 4) Mô tả (Description): Phần thể hiện nội dung của nguồn thông tin bao gồm cả phần tóm tắt của tƣ liệu văn bản hoặc nội dung của tƣ liệu nghe nhìn 5) Xuất bản (Publisher): Cơ quan, tổ chức chịu trách nhiệm tạo lập, xuất bản nguồn thông tin trong định dạng thực. 6) Tác giả phụ (Contributor): Cá nhân hay tổ chức có những đóng góp về mặt trí tuệ cho tƣ liệu nhƣng không phải là tác giả chính. 7) Ngày tháng (Date): ngày tháng có liên quan đến việc tạo lập, xuất bản hay công bố tƣ liệu. 8) Loại hình (Type): hình thức vật chứa nội dung tƣ liệu 9) Mô tả vật lý (Format): Định dạng vật lý và kích thƣớc của tƣ liệu nhƣ kích cỡ, thời lƣợng,.. Định dạng cũng còn đƣợc dùng để chỉ rõ phần mềm và phần cứng cần thiết để sử dụng tƣ liệu. 10) Định danh tư liệu (Identifier): Là một dãy ký tự hoặc số nhằm thể hiện tính đơn nhất của tƣ liệu nhƣ: URLs và URNs, ISBN, ISSN,... 11) Nguồn gốc (Source): Nguồn gốc mà tƣ liệu đƣợc tạo thành, yếu tố này có thể bao gồm siêu dữ liệu về nguồn thông tin thứ hai nhằm khai thác tƣ liệu hiện hành. 12) Ngôn ngữ (Language): Ngôn ngữ của nội dung tƣ liệu. 13) Liên kết (Relation): Yếu tố này thể hiện những kết nối giữa những nguồn tƣ liệu có liên quan. 14) Nơi chứa (Coverage): Những đặc tính về không gian và/hoặc thời gian của tƣ liệu. Không gian nơi chứa chỉ ra một vùng sử dụng địa danh hoặc 12
  13. toạ độ. Đặc tính thời gian trong yếu tố này chỉ ra khoảng thời gian mà tƣ liệu đề cập tới. 15) Bản quyền (Rights): là thông tin về tình trạng bản quyền. Nếu muốn xem phần toàn văn thì click chuột vào đƣờng liên kết ở thành phần Indentifier đến server – nơi cung cấp bộ sƣu tập. Dƣới đây là hình minh họa các yếu tố của Dublin Core đƣợc sử dụng trong phần Enrich của Greenstone. Hình 1: Giao diện các yếu tố của Dublin Core được sử dụng trong phần Enrich của Greenstone Tiếp theo là hình mô tả siêu dữ liệu thƣ mục với liên kết đến phần toàn văn tài liệu. 13
  14. Hình 2: Mô tả siêu dữ liệu thư mục với liên kết đến phần toàn văn tài liệu. Nếu muốn xem phần toàn văn thì click chuột vào đƣờng liên kết ở thành phần Indentifier đến server – nơi cung cấp bộ sƣu tập. Greenstone dùng các thẻ XML để mô tả thông tin cho tài liệu, ví dụ: Tìm hiểu nguồn mở Greenstone Quy,Quỳnh Các thẻ này có thể: - Đƣợc nhúng trong tài liệu của bộ sƣu tập, ví dụ các thẻ HTML trong tài liệu HTML. - Đƣợc lƣu thành tập tin metadata kèm theo tài liệu. - Đƣợc trích một cách tự động từ một tài liệu nào đó, ví dụ thông tin về tên, kích thƣớc, ngày tạo, ngày hiệu chỉnh,…tập tin tài liệu. [19, tr 10] 14
  15. 1.1.5. Plugin Do nguồn vào có nhiều dạng file tài liệu khác nhau nhƣ pdf. word, text,… nên cần phải có một chƣơng trình để chuyển chúng về một dạng thống nhất của Greenstone. Plugin là chƣơng trình con đƣợc xây dựng để sử dụng trong quá trình xây dựng bộ sƣu tập. Plugin có thể chuyển đƣợc phần lớn các file tài liệu ở các dạng khác nhau thành một dạng thống nhất của Greenstone là XML Hình 3: Giao diện các Plugin Dƣới đây là một số các plugin sử dụng thƣờng xuyên để xử lý các dạng tài liệu tƣơng ứng nhƣ: - TEXTPlug (*.txt, *.text): Xử lý tệp tin text thuần túy. - HTMLPlug (*.htm, *.html; also, .shtml, .shm, .asp, .php, .cgi): Xử lý các file HTML. - WORDPlug (*.doc): Xử lý các tài liệu Word. - PDFPlug (*.pdf): Xử lý tập tin pdf. 15
  16. - PSPlug (*.ps): Xử lý tài liệu PotScript, trích thông tin metadata ngày, tựa đề, số trang. - EMAILPlug (*.email): Xử lý các tập tin chứa E-mail, và xử lý những định dạng email thông thƣờng đƣợc dùng trên Netscape, Eudora, and Unix. Tuy nhiên, Plugin này chƣa xử lý đƣợc các email mã hóa dƣới dạng MINE. - ZIPPlug (.gz, .z, .tgz, .taz, .zip, .tar): Xử lý các file dƣới dạng nén hoặc lƣu trữ nhƣ gzip (.gz, .z, tgz, .taz), bzip (.bz), zip (.zip, .jar) và tar (.tar). - IMAGEPlug (.gzip, .bzip, .zip, .tar,…): Xử lý các tập tin ảnh. Plugin này chỉ dùng trên UNIX. Các plugin xử lý tài liệu độc quyền: Đối với tài liệu độc quyền nhƣ word, pdf, ta dùng các plugin tƣơng ứng là WordPlug, PDFPlug, Các plugin này thực hiện hai thao tác: 1. Chuyển tài liệu nguồn sang dạng html hay plain text 2. Xử lý plugin HTMLPlug hay TEXTPlug chuyển kết quả ở bƣớc 1 sang dạng XML của Greenstone. [19, tr 11] 1.1.6 Classifier ( Phân Loại) Classifier dùng để xây dựng cấu trúc duyệt tài liệu trên web của một bộ sƣu tập. Tƣơng tự các plugin, các classifier đƣợc đặc tả trong tập tin cấu hình collect.cfg của mỗi bộ sƣu tập. 16
  17. Hình 4: Giao diện minh họa về một số classifier Trong phần cuối cùng của quá trình xây dựng bộ sƣu tập (nén và tạo chỉ mục trên tài liệu), các classifier đƣợc script buidcol.pl gọi sẽ lƣu cấu trúc duyệt tài liệu vào cơ sở dữ liệu bộ sƣu tập. Cú pháp: classifier Ví dụ: classifier AZList – metadata Title – buttonnam TitleA-Z Trong dòng đặc tả có một tham số quan trọng là metadata xác định rằng các tài liệu của bộ sƣu tập sẽ đƣợc sắp xếp theo metadata đã đƣợc chỉ ra. Với ví dụ trên, các tài liệu đƣợc sắp xếp theo tựa đề của tài liệu (Title). Tham số buttonname xác định tên nút xuất hiện trên thanh duyệt. Với dòng đặc tả trên, khi ta click vào nút TitleA-Z trên thanh duyệt, các tài liệu của bộ sƣu tập đƣợc liệt kê theo thứ tự từng vùng alphabet. 17
  18. Hình 5: Giao diện minh họa về classifier khi duyệt tài liệu theo trường tác giả Những nút trên thanh duyệt, ngoại trừ nút Search, đƣợc quản lý bởi các classifier. Khi định nghĩa một classifier trong tập tin collect.cfg, những nút liên quan sẽ xuất hiện trên thanh duyệt. Các nhóm classifier: - Nhóm classifier liệt kê tài liệu dƣới dạng danh sách (list): + Classifier AZList: liệt kê tài liệu theo từng vùng alphabet 18
  19. Hình 6. Giao diện liệt kê tài liệu theo dạng AZList + Classifier List: liệt kê tài liệu thành một danh sách sắp thứ tự alphabet + Classifier DateList: liệt kê tài liệu theo từng vùng thời gian Hình 7: Liệt kê tài liệu theo dạng DateList 19
  20. - Nhóm classifier liệt kê tài liệu dƣới dạng phân cấp: + Classifier Hierarchy: liệt kê các tài liệu dƣới dạng phân cấp. [19, tr 22-28] Hình 8: Liệt kê tài liệu dưới dạng phân cấp 1.1.7 Duyệt tài liệu (Browser) Greenstone cho phép định nghĩa trƣớc các cấu trúc để duyệt tài liệu trong mỗi bộ sƣu tập dựa trên những metadata tìm thấy trong bộ sƣu tập đó. Ví dụ, bộ sƣu tập Greenstone Demo cho phép ta duyệt các tài liệu theo metadata “đề mục” 20
nguon tai.lieu . vn