Xem mẫu

  1. ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  XÂY DỰNG KHO DỮ LIỆU VÀ OLAP TRÊN DỮ LIỆU CÁC VỤ TAI NẠN GIAO THÔNG TẠI ANH 2005 ­ 2015
  2. LỜI CẢM ƠN    Đầu tiên, nhóm xin gởi lời cảm  ơn chân thành đến cô Đỗ  Thị Minh Phụng   (Giảng viên môn Kho dữ  liệu và OLAP) đã giúp cho nhóm có những kiến   thức cơ  bản làm nền tảng để  thực hiện đề  tài này. Cô đã trực tiếp hướng  dẫn tận tình, sửa chữa và đóng góp nhiều ý kiến quý báu giúp nhóm hoàn   thành tốt báo cáo môn học của mình. Trong thời gian một học kỳ thực hiện   đề tài, nhóm đã vận dụng những kiến thức nền tảng đã tích lũy đồng thời kết  hợp với việc học hỏi và nghiên cứu những kiến thức mới. Từ đó, nhóm vận   dụng tối đa những gì đã thu thập được để  hoàn thành một báo cáo đồ  án tốt  nhất. Tuy nhiên, trong quá trình thực hiện, nhóm không tránh khỏi những   thiếu sót. Chính vì vậy, nhóm rất mong nhận được những sự  góp ý từ  phía  các cô nhằm hoàn thiện những kiến thức mà nhóm đã học tập và là hành   trang để nhóm thực hiện tiếp các đề tài khác trong tương lai. Xin chân thành cảm ơn cô!  
  3. NHẬN XÉT CỦA GIẢNG VIÊN ….……………………………………………………………………... …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………
  4. Mục Lục
  5. CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 1.1 Giới thiệu bộ dữ liệu 1.1.1 Thông tin về bộ dữ liệu Đơn vị cung cấp dữ liệu: Bộ giao thông vận tải vương quốc Anh. Thời gian thu thập dữ liệu: từ năm 2005 đến 2015. Dữ liệu được xuất bản và công khai tại:   https://data.gov.uk/dataset/road­accidents­safety­data 1.1.2 Ý nghĩa của đề tài An toàn giao thông luôn là chủ đề được toàn xã hội quan tâm và  hướng tới xây dựng văn hóa giao thông tiến bộ  nhất để  giảm thiểu  những thiệt hại do tai nạn giao thông gây ra. Ngày nay, xã hội càng phố  biến bấy nhiêu kéo theo là sự  đông đúc trên đường phố  cùng với tai   nạn giao thông ngày càng tăng lên đáng kể. Vì vậy, vấn đề an toàn giao   thông thực sự là một vấn đề quan trọng của nhân loại.            Hiện nay mỗi ngày chúng ta có thể  thống kê được rất nhiều   những vụ  tai nạn giao thông để  lại biết bao hậu quả  đáng buồn. Tại  sao việc an toàn giao thông lại khó đến vậy? Nguyên nhân điều này là  do đâu? Đó là do người dân không chỉ  chủ  quan mà còn thiếu ý thức   trách nhiệm trong khi tham gia giao thông lạn lách, đánh võng, không  đội nón bão hiểm.. Nhất là tình trạng người tham gia giao thông có  nồng độ  cồn vượt quá mức quy định  ảnh hưởng đến sự  tỉnh táo của  tay lái và gây tai nạn. Không ít những trường hợp mà mẹ mất con, con  mất cha, gia đình đau xót, cá nhân mất mát sau những tai nạn như vậy,  
  6. người còn sống cũng ít nhiều để  lại những hậu di chứng về  sau. Đó  đều là mất mát do giao thông gây nên. Để  lại nhiều hậu quả  đau lòng như  vậy, rõ ràng an toàn giao thông  đóng một vai trò quan trọng cho cá nhân và cho xã hội. Việc chấp hành  các nội dung trong điều luật về  an toàn giao thông sẽ  góp phần giảm  thiểu số vụ tai nạn đáng tiếc xảy ra cũng giảm theo và bớt đi phần nào  những nổi đau đớn mất mát mà gia đình và cá nhân phải chịu đựng khi  có một người vì tai nạn giao thông mà mất đi sinh mạng hoặc dị tật cả  đời. Thêm vào đó, giảm thiểu tai nạn giao thông cũng là giảm thiểu chi phí   do việc này gây ra. Đối với một xã hội mà an toàn giao thông được giữ  vững, luật giao thông được chấp nhận, người tham gia giao thông có ý  thức và an toàn thì nhất định là một xã hội ngày càng đi lên. Mỗi chúng  ta để thực hiện được an toàn giao thông thì cần tự xác lập cho mình ý  thức trách nhiệm về  việc chấp hành những quy định khi tham gia giao  thông. Nhưng ngày nay, không thiếu những hành vi coi thường luật giao   thông để  rồi gây ra những hậu quả  đáng tiếc cho gia đình và xã hội.   Những hành vi  ấy nhất định cần có biện pháp xử  lí đích đáng.’Phía  trước tay lái là cuộc sống”. Hãy nhớ khẩu hiệu đó và luôn ý thức trách   nhiệm giữ an toàn giao thông cho người khác ở mọi lúc mọi nơi. 1.2 Mô tả bộ dữ liệu gốc 1.2.1 Mô tả dữ liệu Các vụ tai nạn ô tô ở vương quốc Anh từ năm 2005­ 2015. Link: 
  7. https://www.kaggle.com/silicon99/dft­accident­data 1.2.2 Mô tả thuộc tính File dataset: Accidents0515 Accidents0515: gồm 1.780.653 dòng dữ liệu, 32 thuộc tính. ST Field Name Description Type T 1 Accident_Index Mã vụ tai nạn String Tọa  độ   địa  phương  ở  2 Location_Easting_OSGR String Anh (X) Tọa  độ   địa  phương  ở  3 Location_Northing_OSGR String Anh (Y) 4 Longitude Kinh độ  String 5 Latitude Vĩ độ String 6 Police_Force Đồn cảnh sát Int 7 Accident_Severity Mức độ nghiêm trọng Int Số  phương tiện bị  hư  8 Number_of_Vehicles Int hại liên quan tai nạn 9 Number_of_Casualties Số thương vong Int 10 Date Ngày xảy ra tai nạn Date 11 Day_of_Week Thứ trong tuần int Thời   gian   xảy   ra   tai  12 Time DateTime nạn Tên   khu   vực   địa  13 Local_Authority_(District) Int phương xảy ra vụ việc Tên   đường   chính   xảy  14 Local_Authority_(Highway) String ra tai nạn 15 1st_Road_Class Phân loại đường bộ  Int
  8. 16 1st_Road_Number Số đường Int 17 Road_Type Loại đường Int 18 Speed_limit Tốc độ giới hạn float 19 Junction_Detail Chi tiết giao lộ Int 20 Junction_Control Kiểm soát giao lộ Int 21 2nd_Road_Class Phân loại đường bộ Int 22 2nd_Road_Number Số đường Int Pedestrian_Crossing­ Sự  kiểm soát người đi  23 Int Human_Control bộ qua đường Pedestrian_Crossing­ Cơ   sở   vật   chất   cho  24 Int Physical_Facilities người đi bộ qua đường 25 Light_Conditions Điều kiện ánh sáng Int 26 Weather_Conditions Điều kiện thời tiết Int 27 Road_Surface_Conditions Điều kiện mặt đường Int 28 Special_Conditions_at_Site Điều kiện đặc biệt Int 29 Carriageway_Hazards Mối hiểm họa Int Thành   thị   hoặc   nông  30 Urban_or_Rural_Area Int thông Cảnh   sát   có   tham   gia  Did_Police_Officer_Attend_Sc 31 vào   hiện   trường   tai  Int ene_of_Accident nạn hay không? Khu vực địa lý của vị  32 LSOA_of_Accident_Location String trí xảy ra tai nạn 1.3 Mô tả thuộc tính từng bảng khi tạo sơ đồ hình sao  Bảng Dim_Urban_or_Rural_Area Field Name Description Type Urban_or_Rural_Area Mã thành thị hoặc  int
  9. nông thôn Name_Urban_or_Rural_Area Tên thành thị và  varchar nông thôn Bảng Dim_Accident_Severity Field Name Description Type ID_Accident_Severity Mã mức độ nghiệm  int trọng Accident_Severity Mức độ nghiêm trọng varchar Bảng Dim_Police_Force Field Name Description Type ID_Police_Force Mã đồn cảnh sát int Police_Force Đồn cảnh sát varchar Bảng Dim_Road_Surface_Conditions Field Name Description Type ID_Road_Surface_Condition Mã điều kiện mặt  int s đường Road_Surface_Conditions Điều kiện mặt  varchar đường Bảng Dim_Weather_Conditions Field Name Description Type ID_Weather_Conditions Mã thời tiết int Weather_Conditions Thời tiết varchar Bảng Dim_Light_Conditions Field Name Description Type ID_Light_Conditions Mã điều kiện ánh sáng int Light_Conditions Điều kiện ánh sáng varchar Bảng Dim_Road_Type
  10. Field Name Description Type ID_Road_Type Mã tên đường int Road_Type Tên đường varchar Bảng Dim_Date Field Name Description Type Date_Accident Ngày xảy ra tai  Date nạn Day_Accident Ngày int Month_Accident Tháng int Year_Accident Năm int Bảng Dim_Time Field Name Description Type Time_Accident Thời gian xảy  SmallDateTime ra tai nạn Hour_Accident Giờ int Minutes_Accident Phút int Bảng Fact STT Field Name Description Type 1 Accident_Index Mã vụ tai nạn Varchar 2 ID_Police_Force Đồn cảnh sát Int 3 ID_Accident_Severity Mức độ nghiêm trọng Int Số phương tiện bị hư  4 Number_of_Vehicles Int hại liên quan tai nạn 5 Number_of_Casualties Số thương vong Int 6 Date_Accident Ngày xảy ra tai nạn Date Thời   gian   xảy   ra   tai  7 Time_Accident SmallDateTime nạn 8 ID_Road_Type Loại đường Int 9 Speed_limit Tốc độ giới hạn Float
  11. 10 ID_Light_Conditions Điều kiện ánh sáng Int 11 ID_Weather_Conditions Điều kiện thời tiết Int Điều   kiện   mặt  12 ID_Road_Surface_Conditions Int đường Thành   thị   hoặc   nông  13 Urban_or_Rural_Area Int thông 1.4  Sơ đồ hình sao 1.5 Các câu hỏi truy vấn (15 câu) Câu 1: Thống kê số vụ tai nạn giao thông ở nông thôn, thành thị, cả nước  là bao nhiêu? 
  12. Câu 2: Số lượng xe lớn nhất thiệt hại, số xe thiệt hại nhỏ nhất do điều  kiện bề mặt đường trong năm 2015? Câu 3: Sắp xếp số người thương vong theo chiều tăng dần, theo các năm? Câu 4: Top 3 khung giờ xảy ra nhiều tai nạn nhất?  Câu 5: Top 3 khung giờ xảy ra ít tai nạn nhất? Câu 6: Thống kê tổng số người thương vong xảy ra từ năm 2008 đến  2015 tại mỗi thành phố cùng thời tiết và điều kiện ánh sáng? Câu 7: Số lượng xe lớn nhất và nhỏ nhất thiệt hại do điều kiện bề mặt  đường (Không có Dry ) được sắp xếp theo chiều giảm dần theo số lượng  xe lớn nhất, của năm 2013. Câu 8: Liệt kê 10 đồn cảnh sát ghi nhận tai nạn, có số xe thiệt hại nhiều  nhất, nhưng số thương vong lớn hơn 10000 người.Từ năm 2012 đến năm  2015? Câu 9: Thống kê số thương vong theo từng tháng của năm 2007? Câu 10: Sắp xếp các đồn cảnh sát bắt đầu bằng chữ S theo chiều giảm  dần số vụ tai nạn giao thông, qua các tháng trong năm? Câu 11: Truy vấn 5 loại đường,tổng số xe tai nạn được sắp xếp giảm  dần, lấy bắt đầu từ vị trí thứ 2. Thống kê theo từng năm. Câu 12: Thống kê theo năm, vùng (nông thôn hay thành thị) 5 điều kiện  thời tiết gây ra số lượng vụ tai nạn cao nhất và ngoại trừ vùng  Unallocated Câu 13: Thống kê ở thành phố (Urban) các loại đường, điều kiện ánh  sáng, điều kiện thời tiết được sắp xếp giảm dần theo số vụ tai nạn. Ứng  với tốc độ lớn hơn 30 km/h.
  13. Câu 14: Thống kê các tên đồn cảnh sát có tổng số của những người bị  thương ít nhất là 5000 với mức độ nghiêm trọng  (Dim_Accident_Severity) –filter(sắp xếp tăng dần theo tốc độ lớn nhất). Câu 15: Thống kê theo năm, tháng tổng số xe bị hư hại, số người bị  thương, tổng số vụ tai nạn, tốc độ lớn nhất xảy ra tại các loại đường với  tốc độ lớn nhất là 20­70km/h ,với tổng số lượng vụ tai nạn là lớn hơn  hoặc bằng 5 vụ, mức độ nguy hiểm là tử vong (Fatal).  CHƯƠNG 2: QUÁ TRÌNH SSIS 2.1 Tạo Database trống trong SQL để đổ dữ liệu vào Để tạo Database mới có tên là “Accidents” ta thực hiện như sau: ­ Khởi động SQL Server 2014 Management. ­ Viết câu lệnh CREATE DATABASE Accident_DW. ­ Nhấn Execute.
  14. 2.2 Tạo Project và thiết lập kết nối 2.2.1 Tạo mới “Integration Service Project” ­ Khởi động Visual Studio 2017. ­ Chọn File ­>New­>Project.  ­ Ở Installed, chọn tab Business Intelligence ­> Integration  Services Project.  ­ Đặt tên Project là “SSIS_Accidents”. ­ Nhấn Ok.
  15. 2.2.2 Thêm và cấu hình kết nối tới Database của hệ quản trị  SQL Server  2.2.2.1 Kết nối tới Database “Accident_DW”  ­ Tại phần Solution Explorer, click chuột phải vào folder  Connection Managers, sau đó chọn New Connection Manager  để tiến hành tạo một kết nối mới. ­ Chọn OLEDB, sau đó chọn Add để kết nối tới hệ quản trị  SQL Server.
  16. ­ Chọn New để tiếp tục. ­ Điền tên Server Name, chọn database “Accident_DW” trong  Select or enter a database name. Sau đó nhấn ok để hoàn tất.
  17. ­ Kết nối đã thành công.
  18. 2.3 Quá trình làm sạch dữ liệu ­ Tạo “Data Flow Task”:  Kéo thả công cụ Data Flow Task ở SSIS Toolbox sang vùng làm  việc Control Flow. Sau đó tiến hành đổi tên “Quá trình làm sạch  dữ liệu”:  ­ Click vào tab Data Flow để tiến hành làm sạch dữ liệu:
  19. ­ Kéo thả Flat File Source, Conditional Split, 2 bảng OLE DB   Destination, Sort.  + Đổi tên Flat File Source thành Data Gốc Accident CSV. + Đổi tên 1 bảng OLE DB Destination thành Data Sạch. ­ Kích chuột vào Data Gốc Accident CSV, chọn edit. ­ Tại phần Flat file connection manager, chọn New.
  20. ­ Chọn đường dẫn tới file Accidents0515. Sau đó nhấn OK.