Xem mẫu

  1. TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN, ĐHQGHN KHOA THÔNG TIN – THƢ VIỆN ================== ĐỖ THỊ MẾN CÔNG CỤ TÌM KIẾM GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIỂU CỦA GOOGLE TÓM TẮT KHÓA LUẬN TỐT NGHIỆP NGÀNH : THÔNG TIN - THƢ VIỆN HỆ ĐÀO TẠO : CHÍNH QUY KHÓA HỌC : QH - 2006 – X HÀ NỘI, 2010
  2. MỤC LỤC PHẦN I: MỞ ĐẦU .......................................................................................... 4 1 Tính cấp thiết của đề tài ................................................................................. 4 2 Mục đích nghiên cứu ...................................................................................... 4 3 Tình hình nghiên cứu theo hướng của đề tài .................................................. 5 4 Đối tượng nghiên cứu..................................................................................... 5 5 Phạm vi nghiên cứu ........................................................................................ 5 6 Phương pháp nghiên cứu................................................................................ 6 PHẦN II: NỘI DUNG ..................................................................................... 7 CHƢƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE ....... 7 1.1 Khái quát chung về công cụ tìm kiếm......................................................... 7 1.1.1 Khái niệm công cụ tìm kiếm ................................................................. 7 1.1.2 Phân loại công cụ tìm kiếm ................................................................... 7 1.1.2.1 Căn cứ theo phương thức hoạt động ........................................... 7 1.1.2.2 Căn cứ theo đối tượng tìm kiếm ................................................. 9 1.1.2.3 Căn cứ theo chức năng................................................................ 9 1.1.3 Một số công cụ tìm kiếm thông dụng trên thế giới và Việt Nam ......... 9 1.1.3.1 Các công cụ tìm kiếm thông dụng trên thế giới ......................... 9 1.1.3.2 Các công cụ tìm kiếm thông dụng tại Việt Nam ....................... 10 1.2 Giới thiệu công cụ tìm kiếm Google ......................................................... 10 1.2.1 Lịch sử hình thành và phát triể n của Google ....................................... 10 1.2.1.1 Thời kỳ đầ u ................................................................................ 10 1.2.1.2 Thời kỳ phát triể n....................................................................... 11 1.2.1.3 Lượt truy cập .............................................................................. 15 1.2.1.4 Mục tiêu hướng tới .................................................................... 15 1.2.2 Các bộ phận hợp thành của công cụ tìm kiếm Google ........................ 16 1.2.2.1 Nhện Web................................................................................... 16
  3. 1.2.2.2 Hệ thống chỉ mục ....................................................................... 16 1.2.2.3 Hệ thống chỉ mục chạy thực ...................................................... 17 1.2.3 Cách thức hoạt động của công cụ tìm kiếm ......................................... 17 1.2.4 Hê ̣ thố ng xế p ha ̣ng Pagerank ............................................................... 19 CHƢƠNG 2: TRANG CHỦ GOOGLE VÀ MỘT SỐ DỊCH VỤ TÌM KIẾM TIÊU BIẾU ......................................................................................... 21 2.1 Trang chủ tìm kiế m Google ....................................................................... 21 2.1.1 Giao diện tìm kiếm .............................................................................. 21 2.1.2 Nguyên tắc tìm kiếm ............................................................................ 21 2.1.3 Các tính năng tìm kiếm ........................................................................ 22 2.1.4 Các chức năng chính ............................................................................ 22 2.1.4.1 Chức năng gợi ý từ khóa .......................................................... 22 2.1.4.2 Chức năng tùy chọn hiển thị .................................................... 23 2.1.4.3 Chức năng lịch sử web ............................................................. 24 2.2 Mô ̣t số dich ̣ vu ̣ tim ̀ kiế m tiêu biểu .......................................................... 25 2.2.1 Dịch vụ Google Web Search ................................................................ 25 2.2.1.1 Tìm kiếm đơn giản ................................................................... 29 2.2.1.2 Tìm kiếm nâng cao ................................................................... 31 2.2.2 Dịch vụ Google Images ........................................................................ 35 2.2.2.1 Tìm kiếm đơn giản ................................................................... 35 2.2.2.2 Tìm kiếm nâng cao ................................................................... 37 2.2.3 Dịch vụ Google Videos ........................................................................ 38 2.2.3.1 Tìm kiếm đơn giản .................................................................... 38 2.2.3.2 Tìm kiếm nâng cao .................................................................... 41 2.2.4 Dịch vụ Google Maps ........................................................................... 41 2.2.4.1 Giao diê ̣n ................................................................................... 42 2.2.4.2 Chế đô ̣ hiể n thi ̣của bản đồ ........................................................ 43 2.2.4.3 Mô ̣t số tin ́ h năng khác của Google Maps.................................. 44 2.2.5 Dịch vụ Google Books ............................................................................ 44
  4. 2.2.5.1 Mục tiêu tìm kiếm sách của Google .......................................... 44 2.2.5.2 Cơ sở dữ liệu sách của Google .................................................. 44 2.2.5.3 Nguồn gốc sách .......................................................................... 45 2.2.5.4 Giao diện hiển thị ...................................................................... 46 2.2.5.5 Tìm kiếm đơn giản ..................................................................... 46 2.2.5.6 Tìm kiếm nâng cao .................................................................... 47 2.2.5.7 Tính năng chính ......................................................................... 47 2.2.6 Dịch vụ Google News ............................................................................. 50 2.2.6.1 Tìm kiếm đơn giản ...................................................................... 51 2.2.6.2 Tìm kiếm nâng cao ...................................................................... 51 CHƢƠNG 3: NHẬN XÉT, ĐÁNH GIÁ VÀ TRIỂN VỌNG CỦA CÔNG CỤ TÌM KIẾM GOOGLE TRONG TƢƠNG LAI ....................... 53 3.1 Nhận xét, đánh giá...................................................................................... 53 3.1.1 Ưu điểm ............................................................................................ 53 3.1.2 Hạn chế............................................................................................. 53 3.2 Triển vọng của công cụ tìm kiếm Google trong tương lai ......................... 55 PHẦN III: KẾT LUẬN .................................................................................. 57 TÀI LIỆU THAM KHẢO ................................................................................ 58
  5. PHẦN I: MỞ ĐẦU 1 Tính cấp thiết của đề tài Ngày nay các công cụ tìm kiếm đã trở thành nhu cầu tất yếu cho những người muốn tìm kiếm thông tin trên Internet. Công cụ tìm kiếm là các chương trình phần mềm hoạt động trên Internet giúp định vị những tài nguyên thông tin chung. Phần lớn các công cụ tìm kiếm tìm các trang web và nhiều công cụ tìm kiếm khác còn có thể dùng để tra cứu các phần mềm, hình ảnh, tài liệu đa phương tiện và thông điệp nhóm thông tin. Những thông tin liên quan trong kết quả tìm kiếm vẫn là yếu tố quan trọng hàng đầu đối với người dùng tin. Ngày càng có nhiều người dành thời gian trên các công cụ tìm kiếm với một loạt các câu lệnh tìm kiếm phức tạp kết hợp nhiều từ khóa. Việc sắp xếp thông tin hợp lý có thể giúp tăng gấp đôi hiệu quả tìm kiếm. Trên thế giới hiện nay có rất nhiều công cụ tìm kiếm thông tin, trong đó Google là một trong những công cụ tìm kiếm nổi tiếng, thông dụng và hiệu quả nhất. Theo khảo sát, Google thâu tóm hơn 60% thị phần tìm kiếm. “Nếu như thư viện Alecxandria trước đây được công nhận là nỗ lực đầu tiên của loài người nhằm tập hợp toàn bộ tri thức của nhân loại vào một nơi, thì nỗ lực của chúng ta trong thời đại? Đó chính là Google” (Brewster Kahle - sáng lập viên kiêm chủ tịch tổ chức Internet Archive). Vậy tại sao Google lại là công cụ tìm kiếm được sử dụng phổ biến như vậy? Đề tài khóa luận hướng tới việc tìm hiểu cách thức Google tập hợp, sắp xếp thông tin trên Internet và các dịch vụ chủ yếu của Google hiện nay. 2 Mục đích nghiên cứu Tìm hiểu về Google và các dịch vụ của công cụ tìm kiếm này. Từ đó có cái nhìn sâu sắc hơn về Google, đồng thời đánh giá được những mặt tích
  6. cực cũng như đưa ra một vài nhận xét về ưu điểm, hạn chế và triển vọng phát triển của Google trong tương lai. 3 Tình hình nghiên cứu theo hƣớng của đề tài Trong những năm gần đây, khi Internet bùng nổ và phát triển mạnh mẽ đã có những đề tài nghiên cứu khoa học, khóa luận tốt nghiệp của sinh viên nói chung và sinh viên ngành Thông tin – Thư viện nói riêng tìm hiểu về công cụ tra cứu tìm tin, so sánh giữa các công cụ tìm kiếm trên mạng. Tuy nhiên, vẫn chưa có đề tài nào tìm hiểu chuyên sâu về công cụ tìm kiếm rất nổi tiếng và hiệu quả Google. Chính vì lý do đó, tác giả đã quyết định lựa chọn đề tài “Công cụ tìm kiếm Google và các dịch vụ tìm kiếm tiêu biểu của Google”. Nội dung đề tài vừa thể hiện được tính mới vừa có tính ứng dụng cao để tìm kiếm thông tin ngày càng hiệu quả hơn đồng thời cũng đóng góp một phần vào lý luận chung về công cụ tìm kiếm. 4 Đối tƣợng nghiên cứu - Công cụ tìm kiếm Google. - Một số dịch vụ tìm kiếm chủ yếu của Google bao gồm:  Dịch vụ Google Web  Dịch vụ Google Images  Dịch vụ Google Videos  Dịch vụ Google Maps  Dịch vụ Google News  Dịch vụ Google Books 5 Phạm vi nghiên cứu - Phạm vi không gian: + Trang chủ tìm kiếm Google: http://www.google.com
  7. + Trang chủ tìm kiếm Google tại Việt Nam: http://google.com.vn - Phạm vi thời gian: Công cụ tìm kiếm Google từ khi thành lập đến nay. (Năm 1996 – Tháng 04/2010). 6 Phƣơng pháp nghiên cứu - Phương pháp nghiên cứu, phân tích, tổng hợp tài liệu. - Phương pháp so sánh, đối chiếu. - Phương pháp phỏng vấn sâu.
  8. PHẦN II: NỘI DUNG CHƢƠNG 1 : TỔNG QUAN VỀ CÔNG CỤ TÌM KIẾM GOOGLE 1.1 Khái quát chung về công cụ tìm kiếm 1.1.1 Khái niệm công cụ tìm kiếm Máy truy tìm hay còn gọi là máy tìm tin, máy tìm kiếm (search engine), nghĩa rộng hơn được gọi là công cụ tìm kiếm khởi đầu là một phần mềm nhằm tìm ra các trang trên Internet có nội dung theo yêu cầu của người dùng dựa vào các thông tin hiện có [7]. Như vậy, trữ lượng thông tin của công cụ tìm kiếm thực chất là một cơ sở dữ liệu rất lớn. Để xây dựng được cơ sở dữ liệu, công cụ tìm kiếm sẽ thu thập dữ liệu từ nhiều nguồn khác nhau, bằng nhiều phương pháp để đưa vào cơ sở dữ liệu, mỗi khi người sử dụng đưa ra lệnh tìm kiếm được thể hiện bằng từ khóa, công cụ tìm kiếm sẽ lục tìm trong cơ sở dữ liệu và hiển thị kết quả đáp ứng yêu cầu của người sử dụng. Từ khóa được hiểu là một tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Tập hợp một từ khóa gồm nhiều hơn một chữ (hay một từ) có thể gọi tập hợp các chữ đó là bộ từ khóa. 1.1.2 Phân loại công cụ tìm kiếm 1.1.2.1 Căn cứ theo phương thức hoạt động - Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các phần mềm này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá được bỏ vào là để cho máy truy tìm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau
  9. khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là http://www.google.com. - Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta có thể tận dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá đơn giản, nó không có cơ sở dữ liệu. Khi hoạt động, máy truy tìm ảo sẽ gửi từ khoá đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho thân chủ. Ưu điểm của loại máy truy tìm này là tận dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là "siêu hình" hay "ảo"). Điển hình loại này là MetaCrawler. - Kiểu thư mục đối tượng (máy truy tìm theo phân lớp) (subject directory): Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine) - máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang Web mà mình muốn. Kiểu này dễ cho người truy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự phân loại đôi khi không được đầy đủ và chính xác. Điển hình của loại này là http://www.yahoo.com. - Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web (invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có từ địa chỉ trang Web cụ thể qua các máy truy tìm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng. Đặc biệt, các trang Web nghiên cứu của các đại học hay học viện như http://lii.org, http://www.academicinfo.net và http://infomine.ucr.edu thuộc kiểu này.
  10. Sau này nhiều máy truy tìm hỗ trợ người dùng qua nhiều cách thức khác nhau nên người ta ít thấy ranh giới phân chia của các máy truy tìm nữa mà thay vào đó là các hệ thống máy truy tìm lại bao gồm nhiều kiểu chức năng khác nhau. Chẳng hạn như http://www.yahoo.com không còn đơn thuần là một máy truy tìm theo kiểu thư mục đối tượng mà bên cạnh đó nó cũng cung cấp luôn cả kiểu máy nhện cho người dùng. 1.1.2.2 Căn cứ theo đối tượng tìm kiếm - Tìm kiếm văn bản - Tìm kiếm hình ảnh - Tìm kiếm âm thanh ….. 1.1.2.3 Căn cứ theo chức năng Theo cách phân loại này thì tùy theo đối tượng tìm kiếm sẽ có: - Tìm kiếm địa chỉ trang Web - Tìm kiếm địa chỉ thư điện tử - Tìm kiếm thông tin riêng về một người - Tìm kiếm thông tin về một tổ chức - Tìm kiếm việc làm …. 1.1.3 Một số công cụ tìm kiếm thông dụng trên thế giới và Việt Nam 1.1.3.1 Các công cụ tìm kiếm thông dụng trên thế giới Hiện nay, trên thế giới các công cụ tìm kiếm xuất hiện ngày càng nhiều, trong đó tiêu biểu là: - Alta Vista: http://www.altavista.com - HotBot: http://www.hotbot.com - Google: http://www.google.com
  11. - Lycos : http://www.lycos.com - MSN : http://www.msn.com - Yahoo : http://www.yahoo.com 1.1.3.2 Các công cụ tìm kiếm thông dụng tại Việt Nam Bên cạnh các công cụ tìm kiếm mang tầm cỡ thế giới thì ở các quốc gia, các máy tìm kiếm bản địa cũng ra đời vừa thể hiện được bản sắc văn hóa của đất nước mình vừa có thể hướng tới phục vụ cộng đồng người sử dụng xác định như công cụ tìm kiếm www.baidu.com (Trung Quốc), www.narver.com (Hàn Quốc), www.yandex.com (Nga)… Các công cụ tìm kiếm này trước mắt có thể giành lấy thị trường trong nước, ngoài ra, bằng việc cập nhật công nghệ thông tin có thể mở rộng ra khu vực, châu lục, thế giới. Nằm trong xu thế chung đó, ở Việt Nam cũng xuất hiện các công cụ tìm kiếm khá hữu ích. Tiêu biểu là: - Xalo: http://www.xalo.vn - Bambo: http://bambo.com - Socbay: http://socbay.com - Timnhanh: http://timnhanh.com.vn 1.2 Giới thiệu công cụ tìm kiếm Google 1.2.1 Lịch sử hình thành và phát triển của Google 1.2.1.1 Thời kỳ đầ u Google được biết đến với ban đầu là một công trình nghiên cứu của hai nhà đồng sáng lập là Larry Page và Sergey Brin – hai nghiên cứu sinh của trường đại học Stanford, Mỹ năm 1996. Larry Page và Sergey Brin đưa ra giả thuyết cho rằng một công cụ tìm kiếm dựa vào cách phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn. Đầu tiên giả thuyết này được gọi bằng cái tên là Backrub (Gãi lưng) bởi vì hệ thống này dùng các
  12. liên kết đến để ước tính tầm quan trọng của trang. Theo giả thuyết đó, họ cho rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác sẽ là những trang thích hợp nhất. Gỉa thuyết này đã được thử nghiệm trong nghiên cứu của họ và đó cũng là cơ sở đặt nền móng cho công cụ tìm kiếm Google hiện đại bây giờ. 1.2.1.2 Thời kỳ phát triể n * Giai đoạn 1997 - 1999: Ban đầu, Google sử dụng tên miền www.google.stanford.edu – tên miền thuộc trang web của trường Đại học Stanford, Mỹ. Sau đó, tên miền www.google.com được đăng ký vào ngày 15/9/1997. Năm 1998, dấu hiệu Beta (thử nghiệm) đã xuất hiện trên giao diện tìm kiếm đồng nghĩa với việc Google chính thức đưa công cụ này vào thử nghiệm rộng rãi. Nhưng khi đó, tìm kiếm chủ yếu tập trung vào “stanford search” – tức là tìm kiếm nội dung có liên quan đến trường đại học Stanford.
  13. Hình ảnh giao diện của Google năm 1997 * Giai đoạn từ 1999 đến nay: Năm 1999 đánh dấu bước ngoặt quan trọng khi Google thay đổi chiến lược phát triển. Đó là khi Google nhận ra rằng dịch vụ tìm kiếm web của hãng có thể đứng độc lập, bởi vì tại thời điểm đó tìm kiếm vẫn là một lĩnh vực chưa phát triển. Hình ảnh giao diện của Google năm 1999 Giao diện tìm kiếm của Google vào năm 1999 là một giao diện đơn giản nhất và có ít liên kết nhất trong tất cả các giao diện mà Google đã sử dụng. Tuy nhiên, do chưa được biết đến rộng rãi nên Google vẫn phải đưa
  14. ra lời giải thích “search the web using Google” (có thể dịch: “Google là công cụ tìm kiếm nội dung trên web”). Năm 2000, Google vượt qua Yahoo trở thành công cụ tìm kiếm tốt nhất (best search engine) và dấu hiệu Beta cũng không còn xuất hiện. Google cũng bắt đầu cung cấp cho người dùng dịch vụ tìm kiếm mang tính địa phương hóa tức là cho phép tìm kiếm bằng nhiều ngôn ngữ khác nhau. Năm 2001 Google phát triển thêm nhiều dịch vụ hơn nữa trong đó tiêu biểu là dịch vụ Google Web Directory, Google Groups (hiện tại dịch vụ Google Web Directory không còn tồn tại). Thêm vào đó, để quảng cáo, trên hộp nhập từ khóa tìm kiếm, Google ghi rõ số lượng website mà công cụ tìm kiếm này đã đánh chỉ mục. Vào thời gian này, ngày 4/9/2001, Google nhận được bằng sáng chế cho kỹ thuật sắp xếp trang web Pagerank. Hình ảnh giao diện của Google năm 2001 Năm 2002 là năm phát triển mạnh mẽ của Google khi trang công cụ tìm kiếm này đã trở nên phổ biến hơn trong cộng đồng người dùng web. Và
  15. cũng bắt đầu từ năm 2002 người dùng được chứng kiến một logo Google đẹp và sinh động hơn rất nhiều. Logo được thay đổi tùy theo từng sự kiện lớn trên thế giới hay một ngày lễ nào… Năm 2007, Google đã thay đổi giao diện khi những liên kết trang web trước đây nằm ngay trên hộp nhập từ khóa tìm kiếm thì đã được đẩy lên góc trên cùng bên tay trái. Đồng thời, các dịch vụ mà Google cung cấp cho người dùng cũng trở nên phong phú và đa dạng hơn như Google News, Google Maps, đặc biệt là dịch vụ thư điện tử nổi tiếng Gmail (dịch vụ email trên nền web)... Hình ảnh giao diện của Google năm 2007 Năm 2008 Google đưa ra trình duyệt mã nguồn mở Google Chrome, và Google Translate đã bổ sung thêm tiếng Việt trong dịch vụ dịch tự động và tích hợp ngay trong công cụ tìm kiếm, giúp người dùng nhanh chóng hiểu được cơ bản nội dung trang web trình bày bằng tiếng nước ngoài. Hiện tại, Giao diện của Google có hơn 100 ngôn ngữ khác nhau. Số lượng website được đánh chỉ mục chứa trong cơ sở dữ liệu của Google cũng ngày càng gia tăng nhanh chóng. So với cơ sở dữ liệu ban đầu là 25
  16. triệu trang web năm 1998 thì đến năm 2003, Google đánh chỉ mục cho hơn 3 tỉ website, năm 2004 là 4 tỉ website, năm 2005 là 8 tỉ website. Google đặt địa chỉ tại 1600 Amphitheater Parkway, Mountain View, California, Mỹ - nơi vẫn được gọi là trụ sở đại bản doanh Googleplex. Hiện tại công ty có trên 20.200 nhân viên đến từ nhiều quốc gia khác nhau, giám đốc là tiến sỹ Eric Schmidt. 1.2.1.3 Lƣợt truy cập Ngay từ những ngày đầu thành lập, Google đã phát triển nhanh chóng. Đầu tháng 8/1999, Google phục vụ 3.000 lượt người tìm kiếm một ngày; đến tháng 9/1999, mỗi ngày Google phục vụ 3,5 triệu lượt truy cập, khoảng 65 lượt truy cập mỗi giây. Đến giữa năm 2000, lượt truy cập mỗi ngày tăng lên tới 13 triệu. Tháng 6/2000, Google thay thế dịch vụ tìm kiếm cốt lõi Inktomic của Yahoo. Đầu năm 2004, khi Google đã phát triển mạnh mẽ, công cụ tìm kiếm này đã xử lý trên 80% số lượng tìm kiếm trên Internet qua website www.google.com và các website của khách hàng như Yahoo, AOL, và CNN. Tháng 12/2006, Google là công cụ tìm kiếm được sử dụng nhiều nhất trên mạng với 50,8% thị phần, vượt xa so với Yahoo là 23,6% và Window Live Search là 8,4%. Cũng theo bảng báo cáo thống kê gần đây vào tháng 8 năm 2007 của ComScore Network, Google vượt lên đứng đầu tiên với con số 37 tỷ lượt tìm kiếm, trong khi đó Yahoo đứng vị trí thứ 2 với con số 8,5 tỷ lượt tìm kiếm. 1.2.1.4 Mục tiêu hƣớng tới Tên gọi “Google” là một lối chơi chữ của từ googol, bằng 10 100 . Tên gọi này cũng thể hiện mu ̣c tiêu hướng tới của Google là “Tổ chức, sắ p xế p thông tin trên thế giới và làm cho nó được dễ dàng tiếp cận ”. Do đó, thông tin không chỉ được thu thập, lưu trữ mà còn được sắp xếp, phân loại
  17. khoa học, logic. Điều này vô cùng quan trọng đối với nhu cầu tìm kiếm thông tin chính xác nhất và phù hợp nhất cho người tìm tin. Bởi vì trong khối lượng thông tin đồ sộ và không ngừng gia tăng đó, tìm kiếm đúng thông tin không phải là cái mục đích cuối cùng. Quan điểm nhất quán của Google là thông tin được đánh giá (thông qua hệ thống xếp hạng pagerank) và người sử dụng có thể tìm kiếm, sử dụng, truy cập, tiếp cận nó theo cách thức nhanh nhất, đơn giản nhất có thể. 1.2.2 Các bộ phận hợp thành của công cụ tìm kiếm Google Google là công cụ tìm kiếm theo kiểu máy nhện nên gồm 03 bộ phận cấu thành và phương thức hoạt động như sau: 1.2.2.1 Nhện Web Nhện web (còn gọi là rôbốt phần mềm chuyện biệt, tên khác là bọ tìm kiếm). Đây là một chương trình phần mềm chuyên biệt, có thể nhảy từ đường dẫn này sang đường dẫn khác trên hệ thống mạng toàn cầu World Wide Web. Do đó, nhện web được thường coi như một rôbốt lướt khắp nơi qua các khu vực trên không gian mạng. Nhưng thực tế là nhện web không đi đâu cả, chúng hoạt động cố định trên một máy chủ riêng, từ đó gửi đi một số lượng lớn các truy vấn đến các trang web lên mạng. Nhện web có cấu trúc phức tạp nhưng nguyên tắc hoạt động khá đơn giản: nhện web liên tục quay số tìm kiếm các đường dẫn URL, rồi báo cáo kết quả tìm thấy. Trong các bộ phận của một công cụ tìm kiếm, nhện web là bộ phận giữ vai trò quan trọng nhất, bởi mức độ hoàn thiện của hệ thống chỉ mục phụ thuộc vào số lượng trang web và tần suất duyệt web của nhện web. Các trang kết quả tìm kiếm của mỗi một truy vấn sẽ có nội dung phù hợp hơn khi hệ thống chỉ mục dần hoàn thiện. 1.2.2.2 Hệ thống chỉ mục
  18. Hệ thống chỉ mục là một cơ sở dữ liệu nhưng có quy mô rất lớn. Hệ thống chỉ mục thô giống như một danh mục được sắp xếp theo tên miền: hệ thống chỉ mục liệt kê ra tất cả các trang trên một địa chỉ web, cùng với mọi thông tin thích hợp về những trang này như: các từ, các kết nối, các ký tự trong và xung quanh một kết nối. Hệ thống chỉ mục được tách thành nhiều mảng nhỏ, phụ thuộc vào dữ liệu được xử lý hay chưa và mức độ sẵn sàng của chúng để người tìm kiếm sử dụng. 1.2.2.3 Hệ thống chỉ mục chạy thực Hệ thống chỉ mục chạy thực (hay còn gọi là bộ xử lý thông tin truy vấn) là phần mềm giao diện và tương thích nhằm kết nối các thông tin truy vấn của người sử dụng với hệ thống chỉ mục. Có thể hiểu một cách đơn giản là phần liên kết hai bộ phận của một công cụ tìm kiếm với phần sau bao gồm nhện web, hệ thống chỉ mục và phần trước gồm ứng dụng truy vấn chỉ và giao diện cho người sử dụng. Ba bộ phận này có ảnh hưởng quyết định đến chất lượng và tốc độ của công cụ tìm kiếm, nhưng bên cạnh đó còn có rất nhiều nhân tố khác chi phối đến chất lượng tổng thể của một công cụ tìm kiếm. 1.2.3 Cách thức hoạt động của công cụ tìm kiếm Quy trình tìm kiếm được bắt đầu khi một truy vấn tìm kiếm được đưa ra. Truy vấn ở đây có thể hiểu là các từ khóa, câu hỏi để tìm ra câu trả lời, một trang web, hay về một kiến thức nào đó. Truy vấn này sẽ định hướng đến quy trình tìm kiếm. Quy trình tìm kiếm trang kết quả bắt đầu với nhện web. Dựa trên các truy vấn, các trang web được tìm ra và nhện web đưa các trang này vào hệ thống chỉ mục. Các kết nối trên trang web sẽ được ghi chú lại, sắp xếp và đưa vào các tệp (file) để gửi đi truy vấn. Như vậy với một kết nối mới được tìm ra sẽ có thêm các truy vấn mới, và cứ tiếp tục như vậy cho đến vô cùng.
  19. Nhện web không chỉ tìm ra và lưu vào hệ thống chỉ mục tiêu đề của mỗi trang web mà còn là nội dung của toàn bộ trang web và các loại tệp khác như PDF, các văn bản trong Microsoft Office, âm thanh, hình ảnh và các siêu dữ liệu – thông tin cấu trúc từng trang do chủ trang web cung cấp về các trang và thông tin được duyệt. Nhện web sau khi gửi dữ liệu tìm thấy về hệ thống chỉ mục, các thông tin này được sắp xếp để người tìm kiếm biết đường dẫn URL, và có thể tìm thấy những từ có liên quan đến đường dẫn đó. Đây là một công đoạn rất quan trọng bởi vì bước tiếp theo trong việc tạo ra một hệ thống chỉ mục thông minh là đảo ngược cơ sở dữ liệu – về bản chất, nhằm tạo ra một danh sách các từ liên quan đến đường dẫn URL. Google đã nhận sớm nhận ra cơ sở dữ liệu với khả năng ghi chú lại những mẫu thống kê, và các kết quả của thuật toán là cách tốt nhất nhằm cung cấp kết quả phù hợp với các truy vấn. Qúa trình nhận dạng một hệ thống chỉ mục được coi như một sự phân tích. Thuật toán Pagerank của Google cũng dựa vào cách phân tích này: Pagerank phân tích các liên kết trên một trang web, từ neo xung quanh các liên kết này, và số lượng liên kết ngoài của các trang web, tổng hợp các yếu tố này lại và tìm ra mức độ phù hợp của một trang web với một truy vấn. Và Google thường phân tích dựa trên hơn 100 yếu tố để tìm ra mức độ phù hợp với nội dung trang web với mỗi truy vấn. Trong suốt quá trình phân tích, chỉ mục sẽ tập hợp các thẻ - một loại siêu dữ liệu khác (dữ liệu miêu tả về dữ liệu). Trang web có thể được thẻ chỉ thị để hiển thị theo một ngôn ngữ nhất định hay được chỉ thị để được liệt vào các nhóm trang web có nội dung như thông tin rác, khiêu dâm, hay trang web ít được cập nhật. Và các siêu dữ liệu này là yếu tố then chốt giúp các công cụ tìm được kết quả phù hợp nhất.
  20. Sau khi được phân tích, lưu chỉ mục và đánh dấu bởi các thẻ, các dữ liệu do nhện web đem lại được đổ vào hệ thống chỉ mục chay thực – cơ sở dữ liệu có thể ngay lập tức cung cấp kết quả tìm kiếm cho người dùng . Và đây cũng là hoạt động để kết thúc một quá trình tìm kiếm. Tóm lại, hoạt động của công cụ tìm kiếm gồm ba phần chính. Ba phần này biến đổi tùy theo độ lớn và sự phát triển không ngừng của trang web, đó là nhện web tìm kiếm, lưu dữ liệu vào chỉ mục và đưa ra các trang kết quả tìm kiếm. Đây là một nhiệm vụ không hề đơn giản bởi vì khối lượng tài nguyên thông tin trên mạng là vô cùng lớn thêm vào đó là sự phát triển không ngừng với sự ra đời của các trang web mới, cho nên theo tính toán “Google đã sử dụng hơn 175.000 máy tính cho công việc này. Con số này lớn hơn tổng số máy tính thế giới vào thập niên 1970”.[9] 1.2.4 Hệ thống xếp hạng Pagerank Trước khi tìm hiểu về hệ thống xếp hạng Pagerank, chúng ta cần tìm hiểu về phương pháp trích dẫn và chú giải, thứ ha ̣ng của ngành xuất bản ấn phẩm. Bởi vì phương pháp này đã định hướng đến phương thức hoạt động của Google. Mặt khác, việc sắp xếp thứ hạng các trang web là vô cùng quan trọng đối với các công cụ tìm kiếm. Điều này sẽ sắp xếp các trang web ở các vị trí khác nhau trên trang kết quả. * Trích dẫn: “Là danh mục tài liệu tham khảo hay danh sách các thông tin quan trọng về ấn phẩm đó, cho phép người ta xác định và định vị nó”. (Khái niệm của thư viện đại học Massachusets, Mỹ). * Chú giải: Theo định nghĩa của ngành xuất bản ấn phẩm, chú giải là hành vi bổ sung vào các trích dẫn ghi chú có tính chất mô tả. Vì vậy, chú giải giống như sự đánh giá về tài liệu được trích dẫn.
nguon tai.lieu . vn