- Trang Chủ
- Công nghệ thông tin
- Tiểu luận môn Kho dữ liệu và OLAP: Xây dựng kho dữ liệu và OLAP trên dữ liệu các vụ tai nạn giao thông tại anh 2005-2015
Xem mẫu
- ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
XÂY DỰNG KHO DỮ LIỆU VÀ OLAP
TRÊN DỮ LIỆU CÁC VỤ TAI NẠN
GIAO THÔNG TẠI ANH 2005 2015
- LỜI CẢM ƠN
Đầu tiên, nhóm xin gởi lời cảm ơn chân thành đến cô Đỗ Thị Minh Phụng
(Giảng viên môn Kho dữ liệu và OLAP) đã giúp cho nhóm có những kiến
thức cơ bản làm nền tảng để thực hiện đề tài này. Cô đã trực tiếp hướng
dẫn tận tình, sửa chữa và đóng góp nhiều ý kiến quý báu giúp nhóm hoàn
thành tốt báo cáo môn học của mình. Trong thời gian một học kỳ thực hiện
đề tài, nhóm đã vận dụng những kiến thức nền tảng đã tích lũy đồng thời kết
hợp với việc học hỏi và nghiên cứu những kiến thức mới. Từ đó, nhóm vận
dụng tối đa những gì đã thu thập được để hoàn thành một báo cáo đồ án tốt
nhất. Tuy nhiên, trong quá trình thực hiện, nhóm không tránh khỏi những
thiếu sót. Chính vì vậy, nhóm rất mong nhận được những sự góp ý từ phía
các cô nhằm hoàn thiện những kiến thức mà nhóm đã học tập và là hành
trang để nhóm thực hiện tiếp các đề tài khác trong tương lai.
Xin chân thành cảm ơn cô!
- NHẬN XÉT CỦA GIẢNG VIÊN
….……………………………………………………………………...
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………
- Mục Lục
- CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI
1.1 Giới thiệu bộ dữ liệu
1.1.1 Thông tin về bộ dữ liệu
Đơn vị cung cấp dữ liệu: Bộ giao thông vận tải vương quốc Anh.
Thời gian thu thập dữ liệu: từ năm 2005 đến 2015.
Dữ liệu được xuất bản và công khai tại:
https://data.gov.uk/dataset/roadaccidentssafetydata
1.1.2 Ý nghĩa của đề tài
An toàn giao thông luôn là chủ đề được toàn xã hội quan tâm và
hướng tới xây dựng văn hóa giao thông tiến bộ nhất để giảm thiểu
những thiệt hại do tai nạn giao thông gây ra. Ngày nay, xã hội càng phố
biến bấy nhiêu kéo theo là sự đông đúc trên đường phố cùng với tai
nạn giao thông ngày càng tăng lên đáng kể. Vì vậy, vấn đề an toàn giao
thông thực sự là một vấn đề quan trọng của nhân loại.
Hiện nay mỗi ngày chúng ta có thể thống kê được rất nhiều
những vụ tai nạn giao thông để lại biết bao hậu quả đáng buồn. Tại
sao việc an toàn giao thông lại khó đến vậy? Nguyên nhân điều này là
do đâu? Đó là do người dân không chỉ chủ quan mà còn thiếu ý thức
trách nhiệm trong khi tham gia giao thông lạn lách, đánh võng, không
đội nón bão hiểm.. Nhất là tình trạng người tham gia giao thông có
nồng độ cồn vượt quá mức quy định ảnh hưởng đến sự tỉnh táo của
tay lái và gây tai nạn. Không ít những trường hợp mà mẹ mất con, con
mất cha, gia đình đau xót, cá nhân mất mát sau những tai nạn như vậy,
- người còn sống cũng ít nhiều để lại những hậu di chứng về sau. Đó
đều là mất mát do giao thông gây nên.
Để lại nhiều hậu quả đau lòng như vậy, rõ ràng an toàn giao thông
đóng một vai trò quan trọng cho cá nhân và cho xã hội. Việc chấp hành
các nội dung trong điều luật về an toàn giao thông sẽ góp phần giảm
thiểu số vụ tai nạn đáng tiếc xảy ra cũng giảm theo và bớt đi phần nào
những nổi đau đớn mất mát mà gia đình và cá nhân phải chịu đựng khi
có một người vì tai nạn giao thông mà mất đi sinh mạng hoặc dị tật cả
đời.
Thêm vào đó, giảm thiểu tai nạn giao thông cũng là giảm thiểu chi phí
do việc này gây ra. Đối với một xã hội mà an toàn giao thông được giữ
vững, luật giao thông được chấp nhận, người tham gia giao thông có ý
thức và an toàn thì nhất định là một xã hội ngày càng đi lên. Mỗi chúng
ta để thực hiện được an toàn giao thông thì cần tự xác lập cho mình ý
thức trách nhiệm về việc chấp hành những quy định khi tham gia giao
thông.
Nhưng ngày nay, không thiếu những hành vi coi thường luật giao
thông để rồi gây ra những hậu quả đáng tiếc cho gia đình và xã hội.
Những hành vi ấy nhất định cần có biện pháp xử lí đích đáng.’Phía
trước tay lái là cuộc sống”. Hãy nhớ khẩu hiệu đó và luôn ý thức trách
nhiệm giữ an toàn giao thông cho người khác ở mọi lúc mọi nơi.
1.2 Mô tả bộ dữ liệu gốc
1.2.1 Mô tả dữ liệu
Các vụ tai nạn ô tô ở vương quốc Anh từ năm 2005 2015.
Link:
- https://www.kaggle.com/silicon99/dftaccidentdata
1.2.2 Mô tả thuộc tính
File dataset: Accidents0515
Accidents0515: gồm 1.780.653 dòng dữ liệu, 32 thuộc tính.
ST
Field Name Description Type
T
1 Accident_Index Mã vụ tai nạn String
Tọa độ địa phương ở
2 Location_Easting_OSGR String
Anh (X)
Tọa độ địa phương ở
3 Location_Northing_OSGR String
Anh (Y)
4 Longitude Kinh độ String
5 Latitude Vĩ độ String
6 Police_Force Đồn cảnh sát Int
7 Accident_Severity Mức độ nghiêm trọng Int
Số phương tiện bị hư
8 Number_of_Vehicles Int
hại liên quan tai nạn
9 Number_of_Casualties Số thương vong Int
10 Date Ngày xảy ra tai nạn Date
11 Day_of_Week Thứ trong tuần int
Thời gian xảy ra tai
12 Time DateTime
nạn
Tên khu vực địa
13 Local_Authority_(District) Int
phương xảy ra vụ việc
Tên đường chính xảy
14 Local_Authority_(Highway) String
ra tai nạn
15 1st_Road_Class Phân loại đường bộ Int
- 16 1st_Road_Number Số đường Int
17 Road_Type Loại đường Int
18 Speed_limit Tốc độ giới hạn float
19 Junction_Detail Chi tiết giao lộ Int
20 Junction_Control Kiểm soát giao lộ Int
21 2nd_Road_Class Phân loại đường bộ Int
22 2nd_Road_Number Số đường Int
Pedestrian_Crossing Sự kiểm soát người đi
23 Int
Human_Control bộ qua đường
Pedestrian_Crossing Cơ sở vật chất cho
24 Int
Physical_Facilities người đi bộ qua đường
25 Light_Conditions Điều kiện ánh sáng Int
26 Weather_Conditions Điều kiện thời tiết Int
27 Road_Surface_Conditions Điều kiện mặt đường Int
28 Special_Conditions_at_Site Điều kiện đặc biệt Int
29 Carriageway_Hazards Mối hiểm họa Int
Thành thị hoặc nông
30 Urban_or_Rural_Area Int
thông
Cảnh sát có tham gia
Did_Police_Officer_Attend_Sc
31 vào hiện trường tai Int
ene_of_Accident
nạn hay không?
Khu vực địa lý của vị
32 LSOA_of_Accident_Location String
trí xảy ra tai nạn
1.3 Mô tả thuộc tính từng bảng khi tạo sơ đồ hình sao
Bảng Dim_Urban_or_Rural_Area
Field Name Description Type
Urban_or_Rural_Area Mã thành thị hoặc int
- nông thôn
Name_Urban_or_Rural_Area Tên thành thị và varchar
nông thôn
Bảng Dim_Accident_Severity
Field Name Description Type
ID_Accident_Severity Mã mức độ nghiệm int
trọng
Accident_Severity Mức độ nghiêm trọng varchar
Bảng Dim_Police_Force
Field Name Description Type
ID_Police_Force Mã đồn cảnh sát int
Police_Force Đồn cảnh sát varchar
Bảng Dim_Road_Surface_Conditions
Field Name Description Type
ID_Road_Surface_Condition Mã điều kiện mặt int
s đường
Road_Surface_Conditions Điều kiện mặt varchar
đường
Bảng Dim_Weather_Conditions
Field Name Description Type
ID_Weather_Conditions Mã thời tiết int
Weather_Conditions Thời tiết varchar
Bảng Dim_Light_Conditions
Field Name Description Type
ID_Light_Conditions Mã điều kiện ánh sáng int
Light_Conditions Điều kiện ánh sáng varchar
Bảng Dim_Road_Type
- Field Name Description Type
ID_Road_Type Mã tên đường int
Road_Type Tên đường varchar
Bảng Dim_Date
Field Name Description Type
Date_Accident Ngày xảy ra tai Date
nạn
Day_Accident Ngày int
Month_Accident Tháng int
Year_Accident Năm int
Bảng Dim_Time
Field Name Description Type
Time_Accident Thời gian xảy SmallDateTime
ra tai nạn
Hour_Accident Giờ int
Minutes_Accident Phút int
Bảng Fact
STT Field Name Description Type
1 Accident_Index Mã vụ tai nạn Varchar
2 ID_Police_Force Đồn cảnh sát Int
3 ID_Accident_Severity Mức độ nghiêm trọng Int
Số phương tiện bị hư
4 Number_of_Vehicles Int
hại liên quan tai nạn
5 Number_of_Casualties Số thương vong Int
6 Date_Accident Ngày xảy ra tai nạn Date
Thời gian xảy ra tai
7 Time_Accident SmallDateTime
nạn
8 ID_Road_Type Loại đường Int
9 Speed_limit Tốc độ giới hạn Float
- 10 ID_Light_Conditions Điều kiện ánh sáng Int
11 ID_Weather_Conditions Điều kiện thời tiết Int
Điều kiện mặt
12 ID_Road_Surface_Conditions Int
đường
Thành thị hoặc nông
13 Urban_or_Rural_Area Int
thông
1.4 Sơ đồ hình sao
1.5 Các câu hỏi truy vấn (15 câu)
Câu 1: Thống kê số vụ tai nạn giao thông ở nông thôn, thành thị, cả nước
là bao nhiêu?
- Câu 2: Số lượng xe lớn nhất thiệt hại, số xe thiệt hại nhỏ nhất do điều
kiện bề mặt đường trong năm 2015?
Câu 3: Sắp xếp số người thương vong theo chiều tăng dần, theo các năm?
Câu 4: Top 3 khung giờ xảy ra nhiều tai nạn nhất?
Câu 5: Top 3 khung giờ xảy ra ít tai nạn nhất?
Câu 6: Thống kê tổng số người thương vong xảy ra từ năm 2008 đến
2015 tại mỗi thành phố cùng thời tiết và điều kiện ánh sáng?
Câu 7: Số lượng xe lớn nhất và nhỏ nhất thiệt hại do điều kiện bề mặt
đường (Không có Dry ) được sắp xếp theo chiều giảm dần theo số lượng
xe lớn nhất, của năm 2013.
Câu 8: Liệt kê 10 đồn cảnh sát ghi nhận tai nạn, có số xe thiệt hại nhiều
nhất, nhưng số thương vong lớn hơn 10000 người.Từ năm 2012 đến năm
2015?
Câu 9: Thống kê số thương vong theo từng tháng của năm 2007?
Câu 10: Sắp xếp các đồn cảnh sát bắt đầu bằng chữ S theo chiều giảm
dần số vụ tai nạn giao thông, qua các tháng trong năm?
Câu 11: Truy vấn 5 loại đường,tổng số xe tai nạn được sắp xếp giảm
dần, lấy bắt đầu từ vị trí thứ 2. Thống kê theo từng năm.
Câu 12: Thống kê theo năm, vùng (nông thôn hay thành thị) 5 điều kiện
thời tiết gây ra số lượng vụ tai nạn cao nhất và ngoại trừ vùng
Unallocated
Câu 13: Thống kê ở thành phố (Urban) các loại đường, điều kiện ánh
sáng, điều kiện thời tiết được sắp xếp giảm dần theo số vụ tai nạn. Ứng
với tốc độ lớn hơn 30 km/h.
- Câu 14: Thống kê các tên đồn cảnh sát có tổng số của những người bị
thương ít nhất là 5000 với mức độ nghiêm trọng
(Dim_Accident_Severity) –filter(sắp xếp tăng dần theo tốc độ lớn nhất).
Câu 15: Thống kê theo năm, tháng tổng số xe bị hư hại, số người bị
thương, tổng số vụ tai nạn, tốc độ lớn nhất xảy ra tại các loại đường với
tốc độ lớn nhất là 2070km/h ,với tổng số lượng vụ tai nạn là lớn hơn
hoặc bằng 5 vụ, mức độ nguy hiểm là tử vong (Fatal).
CHƯƠNG 2: QUÁ TRÌNH SSIS
2.1 Tạo Database trống trong SQL để đổ dữ liệu vào
Để tạo Database mới có tên là “Accidents” ta thực hiện như sau:
Khởi động SQL Server 2014 Management.
Viết câu lệnh CREATE DATABASE Accident_DW.
Nhấn Execute.
- 2.2 Tạo Project và thiết lập kết nối
2.2.1 Tạo mới “Integration Service Project”
Khởi động Visual Studio 2017.
Chọn File >New>Project.
Ở Installed, chọn tab Business Intelligence > Integration
Services Project.
Đặt tên Project là “SSIS_Accidents”.
Nhấn Ok.
- 2.2.2 Thêm và cấu hình kết nối tới Database của hệ quản trị
SQL Server
2.2.2.1 Kết nối tới Database “Accident_DW”
Tại phần Solution Explorer, click chuột phải vào folder
Connection Managers, sau đó chọn New Connection Manager
để tiến hành tạo một kết nối mới.
Chọn OLEDB, sau đó chọn Add để kết nối tới hệ quản trị
SQL Server.
- Chọn New để tiếp tục.
Điền tên Server Name, chọn database “Accident_DW” trong
Select or enter a database name. Sau đó nhấn ok để hoàn tất.
- Kết nối đã thành công.
- 2.3 Quá trình làm sạch dữ liệu
Tạo “Data Flow Task”:
Kéo thả công cụ Data Flow Task ở SSIS Toolbox sang vùng làm
việc Control Flow. Sau đó tiến hành đổi tên “Quá trình làm sạch
dữ liệu”:
Click vào tab Data Flow để tiến hành làm sạch dữ liệu:
- Kéo thả Flat File Source, Conditional Split, 2 bảng OLE DB
Destination, Sort.
+ Đổi tên Flat File Source thành Data Gốc Accident CSV.
+ Đổi tên 1 bảng OLE DB Destination thành Data Sạch.
Kích chuột vào Data Gốc Accident CSV, chọn edit.
Tại phần Flat file connection manager, chọn New.
- Chọn đường dẫn tới file Accidents0515. Sau đó nhấn OK.
nguon tai.lieu . vn