Xem mẫu

  1. ISSN 2354-0575 NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG GIÁM SÁT WEBSITE Trần Đỗ Thu Hà, Nguyễn Vinh Quy Trường Đại học Sư phạm Kỹ thuật Hưng Yên Ngày tòa soạn nhận được bài báo: 12/03/2020 Ngày phản biện đánh giá và sửa chữa: 08/05/2020 Ngày bài báo được duyệt đăng: 22/05/2020 Tóm tắt: Các hình thức tấn công web ngày càng đa dạng và thâm hiểm, đòi hỏi các Website cần phải phát hiện sớm những tấn công đó nhằm tìm ra biện pháp khắc phục. Trong bài báo này chúng tôi đề xuất các nghiên cứu tổng quan tình hình an ninh trên website, nghiên cứu một số các lỗ hổng bảo mật web, một số kiểu tấn công phổ biến và cách khắc phục những lỗi này. Dựa trên các nghiên cứu tổng quan, triển khai các phương pháp đảm bảo an ninh Web và áp dụng hàm băm, thuật toán đối sánh chuỗi, cùng với thuật toán cải tiến Rabin Fingerprint để xây dựng một hệ thống giám sát Website nhằm giám sát các thay đổi nội dung các trang web. Từ khoá: Thông tin sưu tầm, phân tích thông tin, đánh giá thông tin. 1. Đặt vấn đề gần 1.000 vụ những kẻ tấn công nước ngoài tấn Sự ra đời của Internet cùng với sự phát triển công vào website Việt Nam, tăng gấp 1,5 lần so với ngày càng mạnh mẽ của nó đã mang lại cho con tháng trước đó. Điều này đặt ra yêu cầu cấp thiết người nói chung và các doanh nghiệp nói riêng rất cần có những giải pháp giúp giám sát các website nhiều tiện ích. Các hoạt động giao dịch trực tuyến 24/7, tăng cường tính bảo mật và cập nhật nhanh về như thương mại điện tử hay thanh toán online ngày trạng thái website của mình, tránh mọi ảnh hưởng càng phổ biến và được thực hiện thông qua các tiêu cực đến hoạt động của doanh nghiệp và tổ ứng dụng Web. Ở bất kỳ đâu, khi một máy tính có chức, cơ quan Nhà nước, đặc biệt là các tấn công nối mạng Internet, con người có thể thực hiện các thay đổi giao diện website mà ít khi được phát hiện giao dịch của mình một cách thuận tiện và nhanh kịp thời, dù hạ tầng công nghệ thông tin (CNTT) chóng. Mọi thông tin của người dùng sẽ được lưu của cơ quan tổ chức đã được trang bị đầy đủ các hệ trên WebServer. Nếu như thông tin đó được sửa đổi thống an ninh thông tin tối tân như hệ thống tường với ý đồ xấu, câu truy vấn cơ sở dữ liệu có thể bị lửa (Firewall), hệ thống chống xâm nhập IPS… thay đổi cấu trúc, từ đó kết quả trả về sẽ khác với ý muốn của người lập trình, hoặc những kẻ mạo 2. Một số kỹ thuật tấn công Website danh có thể đánh cắp thông tin, gây nên những thiệt 2.1. Tấn công XSS (Cross Site Scripting) hại lớn. Có thể thấy việc xây dựng các trang Web Cross-Site Scripting (XSS) là một trong động cho phép xây dựng câu truy vấn từ đầu vào do những kĩ thuật tấn công phổ biến nhất hiện nay, người sử dụng cung cấp, chúng tiềm ẩn nguy cơ mất đồng thời nó cũng là một trong những vấn đề bảo an toàn cao nếu như không có một cơ chế kiểm tra mật quan trọng đối với các nhà phát triển web và dữ liệu đầu vào một cách chặt chẽ. Tóm lại các ứng cả những người sử dụng web [1]. Ngay cả đối với dụng Web luôn luôn tiềm ẩn và có nguy cơ bị tấn những trang như www.fbi.gov, www.yahoo.com... công bởi các kẻ tấn công với ý đồ xấu, vậy nên vấn cũng đã từng bị lỗi XSS. Bất kì một website nào đề bảo mật và phát hiện tấn công thay đổi trên Web cho phép người sử dụng đăng thông tin mà không luôn là cấp thiết. có sự kiểm tra chặt chẽ các đoạn mã nguy hiểm thì Theo Trung tâm ứng cứu khẩn cấp máy tính đều có thể tiềm ẩn các lỗi XSS [2]. Thường thì XSS Việt Nam (VNCERT), chỉ trong tháng 5/2014 có có thể xảy ra ở chỗ nào mà người dùng có thể nhập 70 Khoa học & Công nghệ - Số 26/Tháng 6 - 2020 Journal of Science and Technology
  2. ISSN 2354-0575 dữ liệu vào và sau đó sẽ nhận được một thông báo kể với người dùng bình thường, bằng cách làm quá trả về. Nên thường chúng ta sẽ kiểm tra ở những ô tải tài nguyên của hệ thống. Các kiểu tấn công thuộc đăng nhập (login) đầu vào. Khi nhập một chuỗi kí phương thức này rất đa dạng [6]: - Tấn công chiếm tự nào đó vào xử lý mà kết quả trả về có liên quan dụng tài nguyên (Resource Depletion): bằng cách tới chuỗi đầu vào thì rất có khả năng trang đó bị mắc lạm dụng quá trình giao tiếp của giao thức mạng lỗi XSS [3]. hoặc những gói tin dị thường, kẻ tấn công sẽ chiếm dụng nguồn tài nguyên hệ thống như bộ nhớ (RAM) và bộ vi xử lý (CPU) [7]… khiến cho người dùng chia sẻ không truy xuất được hệ thống do hệ thống không đủ khả năng xử lý. - Tấn công SYN: được xem là một trong những kiểu tấn công DOS kinh điển nhất. Lợi dụng sơ hở của thủ tục TCP khi “bắt tay ba chiều”, mỗi khi máy khách (client) muốn thực hiện kết nối (connection) với máy chủ (server) Hacker sử dụng XSS để lấy các thông tin quan thì nó thực hiện việc bắt tay ba lần (three-ways- trọng: cookie, username, password. Ở đây sử dụng handshake) thông qua các gói tin (packet) [8]. XSS để đánh cắp cookies của nạn nhân (victim). - Cách chèn script: 2.3. Các phương pháp khắc phục + Sử dụng Java script: 2.3.1. Dấu vân tay tài liệu javascript: alert(document.cookie) Thông thường, một dấu vân tay tài liệu được + Dùng file.php: tạo ra bằng cách chọn chuỗi con từ văn bản đó và áp dụng một hàm toán học cho mỗi chuỗi con đã chọn. javascript:location = Hàm này, giống như một hàm băm, tạo ra một giá trị http://utehy.edu.vn/cookie.php?cookie= + băm. Giá trị băm này sau đó được lưu trữ trong một (document.cookie). chỉ mục (index) để truy cập nhanh khi truy vấn. Khi Hàm location để chuyển trình duyệt đến 1 một tài liệu truy vấn (query document) sẽ được so trang khác, lúc đó document.cookie sẽ thay bằng sánh với tập hợp các số nguyên đã được lưu trữ đó, giá trị cookie [4]. Đối với ứng dụng web mã nguồn dấu vân tài liệu cho các truy vấn đó sẽ được tạo ra. mở, bạn có thể tham khảo danh sách các lỗ hổng Đối với mỗi giá trị băm trong dấu vân tay tài liệu, của chương trình của bạn trên các trang web chứa chỉ mục của truy vấn và một danh sách các dấu vân các thông tin về bảo mật như securityfocus.com, tay đối sánh được lấy ra. Số lượng giá trị băm chung securiteam.com... Tuy nhiên nếu các website được giữa dấu vân tay truy vấn và mỗi dấu vân tay trong tự viết mã nguồn thì bạn không thể áp dụng phương tập hợp đã lưu trữ xác định tài liệu tương ứng đó. pháp trên. Trong trường hợp này bạn cần đến các Có một vài phương pháp để lấy dấu vân tay chương trình dò tìm kiếm (scanner) tự động như: tài liệu dựa trên 4 sự biến đổi của các thông số thiết N-Stealth hay AppScan, đây là những chương trình kế sau: quét tìm khá hiệu quả, bạn không chỉ kiểm tra được - Chiến lược lựa chọn (được sử dụng để chọn các lỗi XSS mà nó còn cho phép bạn kiểm tra các các chuỗi con từ tài liệu đã cho). lỗi khác trong website đó, Server đó [5]. Có rất - Kích thước của các chuỗi con (được trích ra nhiều cách để có thể giải quyết vấn đề này như: - từ tài liệu). Chỉ chấp nhận những dữ liệu hợp lệ. - Từ chối nhận - Số lượng giá trị băm (được sử dụng để xây các dữ liệu hỏng. - Liên tục kiểm tra và lọc dữ liệu. dựng một tài liệu dấu vân tay). 2.2. Tấn công từ chối dịch vụ DOS 2.3.2. Thuật toán Rabin Fingerprint Tấn công DOS là một kiểu tấn công mà một Thuật toán Rabin Fingerprint là một trong nhiều người làm cho một hệ thống không thể sử dụng, thuật toán Fingerprint thực hiện khóa công khai sử hoặc làm cho hệ thống đó chậm đi một cách đáng dụng các đa thức trên một trường giới hạn [9]. Khoa học & Công nghệ - Số 26/Tháng 6 - 2020 Journal of Science and Technology 71
  3. ISSN 2354-0575 Thuật toán Rabin Fingerprint điển hình tạo ra một Khởi tạo: giá trị băm từ chuỗi con trong các trang web (web pages), Count=K bởi vì đây là một thuật toán nhanh và dễ để thực thi, và Tr = T[r..r+n-1] nó cũng đi kèm với một phân tích chính xác toán học của H(S) = S(n) + 2*S(n-1) + 4*S(n-2) + … xác suất đụng độ (hai tập tin có dấu vân tay giống +2n-1*S(1) nhau). Do while Count > 0 //Sử dụng Hp(P) = H(P) mod p như là một giá trị Thuật toán được sử dụng trong hệ thống như sau: băm (fingerprint) của P Đầu vào: Tài liệu (trang web công khai) Hp(Tr) = [2*Hp(Tr-1) - (2n mod p) * T(r-1) + Đầu ra: Dấu vân tay tài liệu (các giá trị băm của T(r+n-1)] mod p tài liệu đó) //Tính giá trị băm cho các chuỗi con tiếp theo. Bước 1: Bắt đầu. Until Count = 1 Bước 2: Xử lý văn bản, xoá hết tất cả khoảng trắng Bước 5: Lưu lại tất cả các giá trị băm của văn bản. và các kí tự đặc biệt (như: , %, !, …) từ mã Bước 6: Kết thúc. HTML (mã trang web) để thu được một khối văn bản thuần túy (pure text block). 2.4. Hệ thống giám sát website Bước 3: Chia khối văn bản đã xử lý đó thành các Mục đích chính của hệ thống giám sát website chuỗi con có độ dài K. (Anti Website Defacement System – AWDS) là để // Số lượng chuỗi con có độ dài K và số lượng giá trị phát hiện bất kỳ các cuộc tấn công thay đổi web nào băm (mã băm) bằng (m-K+1), với m là kích thước và phục hồi các tập tin của web đã bị tấn công. Để đạt của tài liệu. được nhiệm vụ này, hệ thống giám sát website được Bước 4: Tính toán giá trị băm đối với mỗi chuỗi con thiết kế và triển khai trên 2 máy chủ (Web-server bằng cách tính H(P) như sau: và AWDS-server) với 5 hệ thống con (subsystem) // H(P) là một tuyến tính trong n (n là độ dài của P) được tích hợp và cơ sở dữ liệu tập trung. 2.5. Đánh giá giúp cho việc đảm bảo thông tin của người gửi và Cả hai vấn đề cần giải quyết trong bài toán là thông tin phía người nhận được bảo toàn từ đó bảo việc lưu trữ thông tin đầu, cuối nhằm đưa ra biên mật được thông tin trên hệ thống [9, 11]. pháp ngăn chặn quá trình tấn công giả lập thông tin từ đó lấy cắp các thông tin trên hệ thống. Phương 3. Kết luận lưu dấu vết giúp ta về cơ bản đảm bảo được thông Bài toán đã trình bày được 2 hình thức tấn tin không có sự can thiệp từ người dung thứ 3. công mạng phổ biến hiện nay là kỹ thuật tấn công Phương pháp sử dụng thuật toán Rabin Fingerprint XSS và DDOS. Trên cơ sở những hiểu biết và lý 72 Khoa học & Công nghệ - Số 26/Tháng 6 - 2020 Journal of Science and Technology
  4. ISSN 2354-0575 luận đã đưa ra chúng tôi cũng đã đề xuất giải pháp hình thức tấn công bằng cách xác nhận chính xác để thực hiện ngăn chặn việc tấn công từ những hình đối tượng gửi thông tin. Hệ thống cần kiểm tra việc thức tấn công mạng phổ biến. với XSS các hacker xuất xứ nguồn gốc tín trước khi trước khi cho phép sử dụng việc giả mạo phiên đăng nhập, thông tin chương trình thực hiện tính toán và gửi phản hồi lại của người dùng trên trình duyệt để tấn công nạn cho nguồn tin đã gửi. Ngoài ra chúng tôi cũng đã nhân (victim). Với phương pháp DDOS hacker sử triển khai được một phần mềm giúp phân tích các dụng phương pháp tấn công ồ ạt làm cho việc phục file log trên máy chủ web để thực hiện phát hiện các vụ khách hàng chân chính bị gián đoạn. hình thức tấn công trên máy chủ. Giải pháp nhóm đưa ra nhằm hạn chế tối đa 2 Tài liệu tham khảo [1]. Jaime Carbonell, Jade Goldstein, The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, In SIGIR-98, Melbourne, Australia, Aug. 1998. [2]. John M Conroy, Judith D Schlesinger, Dianne P O’Leary, Mary Ellen Okurowski, Using HMM and Logis-tic Regression to Generate Extract Summaries for DUC, In DUC 01, Nat’l Inst. of Standards and Technology, 2001. [3]. H. Edmundson, New methods in automatic abstracting, Journal of ACM, 16 (2), pp. 264-285, 1969. [4]. Website: http://en.wikipedia.org/wiki/Multi-document_summarization. [5]. K. Filippova, M. Mieskes, V. Nastase, S. Paolo Ponzetto, M. Strube, Cascaded Filtering for Topic- Driven Multi-Document Summarization, In EML Research gGmbH, 2007. [6]. H. Luhn, The automatic creation of literature abstracts, IBM Journal of Research and Development, 2(2), pp.159-165, 1958. [7]. Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitz, 2000. [8]. Multi-Document Summarization By Sentence Extraction, 2000. [9]. Phan Xuan Hieu, Susumu Horiguchi, Nguyen Le Minh, Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections, In The 17th International World Wide Web Conference, 2008. [10]. Inderjeet Mani and Mark T. Maybury (eds), Advances in Automatic Text Summarization, MIT Press, 1999, ISBN 0-262-13359-8. [11]. B. Hachey, G. Murray, D. Reitter, Query-Oriented Multi-Document Summarization With a Very Large Latent Semantic Space, In The Embra System at DUC, 2005. RESEARCH AND BUILDING A WEBSITE MONITORING SYSTEM Abstract: This article presents an overview of the security situation on the website, researches some of the web security vulnerabilities, some common types of attacks and how to fix these errors. Based on overview studies, implement Web security methods and apply hash functions, string matching algorithms, along with improved Rabin Fingerprint algorithm to build a Website monitoring system to monitor. The content changes web pages. Keywords: Collect information, information analysis, information evaluate. Khoa học & Công nghệ - Số 26/Tháng 6 - 2020 Journal of Science and Technology 73
nguon tai.lieu . vn