- Trang Chủ
- Báo cáo khoa học
- Báo cáo kết quả thực hiện đề tài cơ sở Cấp viện Cơ học năm 2019: Xây dựng hệ thống thử nghiệm dự báo mực nước trên nền tảng WebGIS bằng mô hình mạng nơron nhân tạo hồi tiếp
Xem mẫu
- VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CƠ HỌC
-----------------------------
BÁO CÁO KẾT QUẢ THỰC HIỆN ĐỀ TÀI CƠ SỞ
CẤP VIỆN CƠ HỌC NĂM 2019
ĐỀ TÀI
XÂY DỰNG HỆ THỐNG THỬ NGHIỆM DỰ BÁO
MỰC NƯỚC TRÊN NỀN TẢNG WEBGIS BẰNG
MÔ HÌNH MẠNG NƠRON NHÂN TẠO HỒI TIẾP
Chủ nhiệm Đề tài: TS. Nguyễn Chính Kiên
HÀ NỘI – 2019
- DANH SÁCH CÁN BỘ THAM GIA THỰC HIỆN ĐỀ TÀI
TT Họ và tên Phòng chuyên môn
Thủy động lực và Giảm nhẹ thiên
1 TS. Nguyễn Chính Kiên
tai trong lưu vực
Thủy động lực và Giảm nhẹ thiên
2 TS. Nguyễn Tiến Cường
tai trong lưu vực
Thủy động lực và Giảm nhẹ thiên
3 ThS. Dương Thị Thanh Hương
tai trong lưu vực
Thủy động lực và Giảm nhẹ thiên
4 ThS. Nguyễn Tuấn Anh
tai trong lưu vực
Thủy động lực và Giảm nhẹ thiên
5 PGS. TS. Trần Thu Hà
tai trong lưu vực
Thủy động lực và Giảm nhẹ thiên
6 ThS. Nguyễn Hồng Phong
tai trong lưu vực
Thủy động lực và Giảm nhẹ thiên
7 TS. Nguyễn Thành Đôn
tai trong lưu vực
Thủy động lực và Giảm nhẹ thiên
8 CN. Trần Thị Thanh Huyền
tai trong lưu vực
- i
MỤC LỤC
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT THƯỜNG SỬ DỤNG ............................. iii
DANH MỤC CÁC BẢNG ............................................................................................... iv
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ .....................................................................v
MỞ ĐẦU .............................................................................................................................1
CHƯƠNG I: MÔ HÌNH MẠNG THẦN KINH NHÂN TẠO HỒI TIẾP, WEBGIS VÀ
CƠ SỞ DỮ LIỆU ...............................................................................................................3
1.1 Mạng thần kinh nhân tạo hồi tiếp ...........................................................................3
1.1.1 Khái niệm về mạng thần kinh nhân tạo ..............................................................3
1.1.2 Khái niệm mạng nơron nhân tạo hồi tiếp ...........................................................4
1.2 Giới thiệu về WebGIS .............................................................................................12
1.2.1 Khái niệm ..........................................................................................................12
1.2.2 Đặc điểm của một hệ thống WebGIS ...............................................................17
1.2.3 Khả năng ứng dụng WebGIS ............................................................................18
1.3 Cơ sở dữ liệu ...........................................................................................................18
1.3.1 Lựa chọn hệ quản trị cơ sở dữ liệu ...................................................................19
1.3.2 Quy trình thiết kế cơ sở dữ liệu ........................................................................21
CHƯƠNG II: XÂY DỰNG HỆ THỐNG DỰ BÁO .....................................................25
2.1 Mođun tính bằng mạng thần kinh nhân tạo hồi tiếp ............................................25
2.1.1 Sơ đồ khối .........................................................................................................25
2.1.2 Giao diện hiển thị kết quả tính toán bằng mođun mạng thần kinh nhân tạo ....26
2.2 Xây dựng cơ sở dữ liệu về thông tin khí tượng thuỷ văn ......................................27
2.2.1 Thiết kế cơ sở dữ liệu .......................................................................................27
2.2.2 Nhập dữ liệu vào cơ sở dữ liệu .........................................................................36
2.2.3 Thống kê kết quả nhập liệu lên cơ sở dữ liệu ...................................................37
2.3 Xây dựng hệ thống thông tin địa lý trực tuyến WebGIS .......................................40
2.3.1 Phương pháp xử lý dữ liệu bản đồ và kết quả ..................................................40
2.3.2 Hệ thống thông tin địa lý trực tuyến .................................................................44
2.4 Xây dựng hệ thống dự báo .....................................................................................46
2.4.1 Cấu trúc của hệ thống dự báo ...........................................................................46
2.4.2 Giao diện của hệ thống dự báo .........................................................................48
2.4.3 Kỹ thuật hỗ trợ ..................................................................................................51
- ii
CHƯƠNG III: THỬ NGHIỆM HỆ THỐNG DỰ BÁO CHO MỘT SỐ LƯU VỰC 52
3.1 Kết quả dự báo mực nước đồng bằng châu thổ sông Hồng .................................52
3.2 Kết quả dự báo mực nước cho lưu vực sông Tích – Bùi ......................................58
3.3 Kết quả dự báo mực nước cho lưu vực sông Tam Kỳ ...........................................63
KẾT LUẬN VÀ KIẾN NGHỊ .........................................................................................67
TÀI LIỆU THAM KHẢO ...............................................................................................68
- iii
DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT THƯỜNG SỬ DỤNG
ANN Artificial Nơron Network - mạng thần kinh nhân tạo
AI Trí tuệ nhân tạo
GA Genetic Algorithm - Giải thuật Di truyền
BP Backpropagation - Giải thuật Lan truyền ngược sai số
LSTMs Long Short Term Memory Networks – Bộ nhớ dài hạn
RNNs Recurrent Neural Networks - Mạng nơron nhân tạo hồi tiếp
RMS Sai số căn quân phương
NSE Chỉ số đánh giá Nash-Sutcliffe
KT Khí tượng
TV Thủy văn
GIS Hệ thống thông tin địa lý
CSDL Cơ sở dữ liệu
KHCN Khoa học công nghệ
VN Việt Nam
- iv
DANH MỤC CÁC BẢNG
Bảng 2.1: Cấu trúc bảng dữ liệu lưu vực sông ..................................................................27
Bảng 2.2: Cấu trúc bảng dữ liệu đê....................................................................................28
Bảng 2.3: Cấu trúc bảng dữ liệu sông ................................................................................29
Bảng 2.4: Cấu trúc bảng dữ liệu công trình .......................................................................29
Bảng 2.5: Cấu trúc bảng dữ liệu mặt cắt sông ...................................................................30
Bảng 2.6: Cấu trúc bảng dữ liệu độ ẩm .............................................................................30
Bảng 2.7: Cấu trúc bảng dữ liệu lưu lượng........................................................................31
Bảng 2.8: Cấu trúc bảng dữ liệu lượng mưa ......................................................................32
Bảng 2.9: Cấu trúc bảng dữ liệu độ mặn ...........................................................................32
Bảng 2.10: Cấu trúc bảng dữ liệu nhiệt độ ........................................................................33
Bảng 2.11: Cấu trúc bảng dữ liệu mực nước .....................................................................33
Bảng 2.12: Cấu trúc bảng dữ liệu trạm thủy văn ...............................................................34
Bảng 2.13: Bảng thống kê dữ liệu được nhập vào hệ thống cơ sở dữ liệu ........................37
Bảng 3.1: Bảng chỉ số NSE các phương án tính cho đồng bằng châu thổ sông Hồng ......57
Bảng 3.2: Bảng chỉ số NSE các phương án tính cho lưu vực sông Tích Bùi ....................62
- v
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
Hình 1.1: Nơron nhân tạo.....................................................................................................3
Hình 1.2: Cấu trúc nơron hồi tiếp ........................................................................................5
Hình 1.3: Mô hình mạng nơron hồi tiếp ..............................................................................5
Hình 1.4: Mạng nơron hồi tiếp có chứa một vòng lặp .........................................................5
Hình 1.5: Tách vòng lặp mạng nơron hồi tiếp .....................................................................6
Hình 1.6: Phụ thuộc dữ liệu các lớp gần kề .........................................................................6
Hình 1.7: Phụ thuộc dữ liệu các lớp không thể ước lượng phía trước .................................6
Hình 1.8: Mođun lặp lại trong 1 RNNs chuẩn chứa 1 lớp đơn. ...........................................7
Hình 1.9: Mođun lặp lại trong 1 LSTMs chứa 4 lớp tương tác. ..........................................7
Hình 1.10: Định hướng phát triển của khoa học GIS ........................................................12
Hình 1.11: Các thành phần của GIS ..................................................................................13
Hình 1.12: Kiến trúc 3 tầng của một hệ thống WebGIS ....................................................15
Hình 1.13: Thông tin vào/ra quy trình thiết kế cơ sở dữ liệu ............................................22
Hình 1.14: Quy trình thiết kế cơ sở dữ liệu .......................................................................22
Hình 2.1: Sơ đồ thuật toán mô hình mạng thần kinh nhân tạo LSTMs .............................25
Hình 2.2: Giao diện hiển thị kết quả tính toán bằng mođun mạng thần kinh nhân tạo và số
liệu thực đo.........................................................................................................................26
Hình 2.3: Nhập dữ liệu mực nước vào hệ quản trị CSDL .................................................36
Hình 2.4: Bản đồ lưu vực sông toàn lãnh thổ Việt Nam ...................................................38
Hình 2.5: Bản đồ cao độ một phần vùng châu thổ sông Hồng ..........................................39
Hình 2.6: Bản đồ đường giao thông ...................................................................................39
Hình 2.7: Bản đồ chia ô vùng đồng bằng châu thổ sông Hồng .........................................41
Hình 2.8: Bản đồ chia ô ruộng lưu vực Tích Bùi...............................................................42
Hình 2.9: Bản đồ chia ô ruộng lưu vực Tam Kỳ ...............................................................43
Hình 2.10: Bản đồ mạng lưới trạm trên toàn lãnh thổ Việt Nam ......................................44
Hình 2.11: Bản đồ các lưu vực sông trên hệ thống thông tin địa lý trực tuyến .................45
Hình 2.12: Danh sách các lưu vực sông trên hệ thống thông tin địa lý .............................45
- vi
Hình 2.13: Các trạm có sự tác động đến trạm thủy văn Hà Nội ........................................46
Hình 2.14: Sơ đồ hoạt động hệ thống dự báo trực tuyến ...................................................47
Hình 2.15: Giao diện hiển thị các hệ thống sông Việt Nam ..............................................48
Hình 2.16: Bản đồ WebGIS vùng đồng bằng châu thổ sông Hồng ...................................49
Hình 2.17: Bản đồ WebGIS lưu vực sông Tích – Bùi .......................................................50
Hình 2.18: Bản đồ WebGIS lưu vực sông Tam Kỳ ...........................................................50
Hình 3.1: Vị trí địa lý vùng đồng bằng châu thổ sông Hồng – Thái Bình .........................53
Hình 3.2: Bản đồ vùng đồng bằng châu thổ sông Hồng ....................................................54
Hình 3.3: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2015 đến 15/9/2015
............................................................................................................................................55
Hình 3.4: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2016 đến 15/9/2016
............................................................................................................................................55
Hình 3.5: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2017 đến 15/9/2017
............................................................................................................................................56
Hình 3.6: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2018 đến 15/9/2018
............................................................................................................................................56
Hình 3.7: Đồ thị mực nước thực đo và dự báo trạm Hà Nội từ ngày 15/6/2019 đến 15/9/2019
............................................................................................................................................57
Hình 3.8: Phạm vi nghiên cứu thuộc lưu vực sông Tích – Bùi .........................................58
Hình 3.9: Bản đồ lưu vực sông Tích Bùi ...........................................................................59
Hình 3.10: Đồ thị mực nước thực đo và dự báo trạm Ba Thá từ ngày 15/6/2015 đến
15/9/2015 ...........................................................................................................................60
Hình 3.11: Đồ thị mực nước thực đo và dự báo tại trạm Ba Thá từ 15/6/2016 đến 15/9/2016
............................................................................................................................................60
Hình 3.12: Đồ thị mực nước thực đo và dự báo tại trạm Ba Thá từ 15/6/2017 đến 15/9/2017
............................................................................................................................................61
Hình 3.13: Đồ thị mực nước thực đo và dự báo tại trạm Ba Thá từ 15/6/2018 đến 15/9/2018
............................................................................................................................................61
Hình 3.14: Đồ thị mực nước thực đo và dự báo tại trạm Ba Thá từ 15/6/2019 đến 15/9/2019
............................................................................................................................................62
Hình 3.15: Phạm vi nghiên cứu của lưu vực sông Tam Kỳ ...............................................64
- vii
Hình 3.16: Bản đồ lưu vực sông Tam Kỳ ..........................................................................64
Hình 3.17: Đồ thị mực nước thực đo và dự báo tại trạm Tam Anh năm 2001 ..................65
Hình 3.18: Đồ thị mực nước thực đo và dự báo tại trạm Tam Anh năm 2017 ..................65
- 1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong những năm gần đây, các hiện tượng thiên tai xảy ra thường xuyên và có xu
thế cực đoan hơn. Việc đo đạc, dự báo, cảnh báo lũ lụt là một hoạt động hết sức quan
trọng và có ý nghĩa thiết thực giúp cho các ngành sản xuất cũng như ổn định đời sống
của người dân cả nước. Dự báo thuỷ văn, thủy lực là công việc dự báo trước cho tương
lai một cách có khoa học về trạng thái biến đổi các yếu tố thuỷ văn, tuy nhiên sự
biến đổi này là một quá trình tự nhiên phức tạp, chịu tác động của rất nhiều yếu tố.
Tính biến động của các yếu tố này phụ thuộc vào cả không gian và thời gian nên
gây khó khăn rất lớn cho quá trình dự báo, tìm ra được mối liên quan giữa các
yếu tố. Thêm vào đó, do thiếu các trạm quan trắc cần thiết và thiếu sự kết hợp giữa các
ngành liên quan cho nên dữ liệu quan trắc thực tế thường là không đầy đủ, không mang
tính chất đại diện.
Hiện nay, có rất nhiều phương pháp dự báo đã được đưa ra dựa trên mô hình vật
lý và toán học, kết quả của các mô hình nói trên đã đạt được một số thành công
đáng ghi nhận. Tuy nhiên, các mô hình đều có những ưu và nhược điểm nhất định,
vấn đề tìm kiếm phương pháp đủ tốt, đáp ứng các yêu cầu thực tế giải quyết bài toán
dự báo thuỷ văn, thủy lực vẫn là nội dung nghiên cứu thời sự hiện nay. Một hướng
tiếp cận mới bằng cách sử dụng mô hình mạng thần kinh nhân tạo hồi tiếp để dự báo các
yếu tố thủy văn, thủy lực.
Bên cạnh đó, cùng với sự phát triển của công nghệ đám mây, phương thức phát
triển phần mềm đã có sự chuyển dịch từ hình thức cài đặt máy tính (SaaP - Software as
a Product) được chuyển lên nền tảng đám mây (SaaS - Software as a Service). So với
SaaP, SaaS vượt trội hơn hẳn ở 4 điểm: người dùng truy cập được ở mọi nơi, mọi thiết
bị; có thể mở rộng nâng cấp linh hoạt theo nhu cầu (tính toán + ứng dụng); người dùng
(nhà quản lý + nhà khoa học + người sử dụng kết quả) cộng tác với nhau trên cùng một
môi trường và quy trình triển khai dễ dàng nhanh chóng. Hệ thống được xây dựng dưới
dạng trực tuyến nhằm cung cấp thông tin cho người dùng mọi nơi, mọi lúc bằng nhiều
loại thiết bị khác nhau và các kết quả đầu ra được hiển thị trực quan qua các biểu đồ và
bản đồ GIS.
2. Mục đích nghiên cứu
- Mạng nơron nhân tạo hồi tiếp, cơ sở dữ liệu và WebGIS,
- Xây dựng hệ thống thử nghiệm dự báo mực nước trên nền tảng WebGIS.
- 2
3. Phương pháp nghiên cứu
- Phân tích, thống kê và tính toán các tư liệu thu thập được,
- Mô hình hóa bài toán dự báo bằng việc xây dựng hệ thống dự báo trực tuyến
trên nền WebGIS bằng ngôn ngữ C#.
- 3
CHƯƠNG I
MÔ HÌNH MẠNG THẦN KINH NHÂN TẠO HỒI TIẾP,
WEBGIS VÀ CƠ SỞ DỮ LIỆU
1.1 Mạng thần kinh nhân tạo hồi tiếp
1.1.1 Khái niệm về mạng thần kinh nhân tạo[5]
Mạng nơron nhân tạo, Artificial Neural Network (ANN) gọi tắt là mạng nơron, là
một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơron sinh
học. Nó được tạo nên từ một số lượng lớn các phần tử (gọi là phần tử xử lý hay nơron)
kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc như một thể
thống nhất để giải quyết một vấn đề cụ thể nào đó.
Một nơron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng
nơron. Cấu trúc của một nơron được mô tả ở hình 1.1 bên dưới đây:
Hình 1.1: Nơron nhân tạo
Các thành phần cơ bản của một nơron nhân tạo bao gồm:
- Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu
này thường được đưa vào dưới dạng một vec-tơ m chiều.
- Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số (gọi là trọng số
liên kết – Synaptic weight). Trọng số liên kết giữa tín hiệu vào thứ j với nơron
k thường được kí hiệu là wjk. Thông thường, các trọng số này được khởi tạo
một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục
trong quá trình học mạng.
- 4
- Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào
với trọng số liên kết của nó. Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng
này thường được đưa vào như một thành phần của hàm truyền.
- Hàm truyền (Transfer function) – còn gọi là Hàm kích hoạt (Activation
function): Hàm này được dùng để giới hạn phạm vi đầu ra của mỗi nơron.
Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho. Thông thường,
phạm vi đầu ra của mỗi nơron được giới hạn trong đoạn [0,1] hoặc [-1, 1].
Các hàm truyền rất đa dạng được liệt kê trong bảng 1.1, có thể là các hàm
tuyến tính hoặc phi tuyến. Việc lựa chọn hàm truyền nào là tuỳ thuộc vào
từng bài toán và kinh nghiệm của người thiết kế mạng.
- Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là một
đầu ra.
Như vậy tương tự như nơron sinh học, nơron nhân tạo cũng nhận các tín hiệu đầu
vào, xử lý (nhân các tín hiệu này với trọng số liên kết, tính tổng các tích thu được rồi gửi
kết quả tới hàm truyền), và cho một tín hiệu đầu ra (là kết quả của hàm truyền).
1.1.2 Khái niệm mạng nơron nhân tạo hồi tiếp
* Mạng nơron hồi tiếp RNNs
Mạng nơron nhân tạo được xây dựng để mô phỏng lại cách hoạt động của bộ não
con người. Đối với mạng nơron thông thường, mỗi sự kiện đầu vào x được xử lý một
cách độc lập và đưa ra đầu ra y tương ứng mà không có sự trao đổi thông tin thu thập
được tại mỗi đầu vào x trong mạng.
Tuy nhiên, bộ não con người hoạt động một cách phức tạp hơn thế nhiều với sự
kết hợp của nhiều dạng thông tin và sự kiện với nhau để đưa ra kết luận cuối cùng. Bộ
não lưu giữ những thông tin trong quá khứ và sử dụng chúng để xử lý những thông tin
đang tiếp nhận. Đây là một quá trình phức tạp mà những mạng nơron bình thường không
thể mô phỏng lại được.
Mạng nơron nhân tạo hồi tiếp (Recurrent Neural Networks - RNNs) ra đời nhằm
mô tả quá trình liên kết các sự kiện đó. Một trong những yêu cầu khi xây dựng RNNs là
dựa trên ý tưởng rằng chúng có thể kết nối thông tin trước với nhiệm vụ hiện tại, bằng
việc sử dụng các hàm trễ lưu trữ dữ liệu trong khoảng thời gian nhất định.
- 5
Hình 1.2: Cấu trúc nơron hồi tiếp
Hình 1.3: Mô hình mạng nơron hồi tiếp
Mạng nơron hồi tiếp là một mạng nơron có chứa một vòng lặp bên trong nó.
Hình 1.4: Mạng nơron hồi tiếp có chứa một vòng lặp
Trong hình trên, A là mạng nơron hồi tiếp. Nó nhận một đầu vào xt , tiến hành xử
lý và đưa ra đầu ra ht . Điểm đặc biệt của A là nó sẽ lưu lại giá trị của ht để sử dụng cho
đầu vào tiếp theo.
Có thể coi một mạng nơron hồi tiếp là một chuỗi những mạng con giống hệt nhau,
mỗi mạng sẽ truyền thông tin nó vừa xử lý cho mạng phía sau nó. Nếu ta tách từng vòng
lặp xử lý trong A ra thành từng mạng con theo cách suy nghĩ như trên thì ta sẽ có một
mạng có kiến trúc như sau:
- 6
Hình 1.5: Tách vòng lặp mạng nơron hồi tiếp
Chuỗi lặp lại các mạng này chính là phân giải của mạng nơron hồi tiếp, các vòng
lặp khiến chúng tạo thành một chuỗi danh sách các mạng sao chép nhau. Chuỗi lặp của
mạng nơron hồi tiếp vẫn nhận đầu vào và có đầu ra giống với mạng nơron thông thường.
* Vấn đề phụ thuộc lâu dài
Hình 1.6: Phụ thuộc dữ liệu các lớp gần kề
Nhưng khi khoảng cách thời gian giữa các tập dữ liệu tăng lên, RNNs không thể
học để kết nối các thông tin đó. Về lý thuyết, RNNs hoàn toàn có khả năng xử lý các
"phụ thuộc lâu dài" như vậy. Một người có thể cẩn thận chọn các tham số để giải quyết
các vấn đề của dạng này. Nhưng trên thực tế, RNNs dường như không thể học được
chúng do không thể ước lượng được “độ dài phụ thuộc”.
Hình 1.7: Phụ thuộc dữ liệu các lớp không thể ước lượng phía trước
- 7
* Mạng LSTMs
LSTMs (Long Short Term Memory Networks) được giới thiệu bởi Hochreiter &
Schmidhuber (1997), sau đó đã được cải tiến và phổ biến bởi rất nhiều người trong ngành.
Chúng hoạt động cực kì hiệu quả trên nhiều bài toán khác nhau nên dần đã trở nên phổ biến
như hiện nay.
LSTMs được thiết kế để tránh được vấn đề độ dài phụ thuộc (long-term dependency).
Việc nhớ thông tin trong suốt thời gian dài là đặc tính mặc định của chúng, chứ ta không cần
phải huấn luyện nó để có thể nhớ được. Tức là ngay nội tại của nó đã có thể ghi nhớ được
mà không cần bất kì can thiệp nào.
Mọi mạng hồi tiếp đều có dạng là một chuỗi các mođun lặp đi lặp lại của mạng nơron
truyền thống. Với mạng RNNs chuẩn, các mođun này có cấu trúc rất đơn giản, thường là
một tầng hàm kích hoạt tanh.
Hình 1.8: Mođun lặp lại trong 1 RNNs chuẩn chứa 1 lớp đơn.
LSTMs cũng có kiến trúc dạng chuỗi như vậy, nhưng các mođun trong nó có cấu
trúc khác với mạng RNNs chuẩn. Thay vì chỉ có một tầng mạng nơron, chúng có tới 4
tầng tương tác với nhau một cách rất đặc biệt.
Hình 1.9: Mođun lặp lại trong 1 LSTMs chứa 4 lớp tương tác.
- 8
Ở sơ đồ trên, mỗi một đường mang một véc-tơ từ đầu ra của một nút tới đầu vào
của một nút khác. Các hình tròn biểu diễn các phép toán như phép cộng véc-tơ, nhân
liên hợp, còn các chữ nhật được biểu thị các hàm kích hoạt trong từng nơron. Các đường
hợp nhau kí hiệu việc kết hợp, còn các đường rẽ nhánh ám chỉ nội dung của nó được sao
chép và chuyển tới các nơi khác nhau.
* Ý tưởng chính của LSTMs
Chìa khóa của LSTMs là trạng thái tế bào (cell state) - chính đường chạy thông
ngang phía trên của sơ đồ hình vẽ.
Trạng thái tế bào là một dạng giống như băng chuyền. Nó chạy xuyên suốt tất cả
các mắt xích (các nút mạng) và chỉ tương tác tuyến tính đôi chút. Vì vậy mà các thông
tin có thể dễ dàng truyền đi thông suốt mà không sợ bị thay đổi.
LSTMs có khả năng bỏ đi hoặc thêm vào các thông tin cần thiết cho trạng thái tế
bào, chúng được điều chỉnh cẩn thận bởi các nhóm được gọi là cổng (gate).
Các cổng là nơi sàng lọc thông tin đi qua nó, chúng được kết hợp bởi một tầng
mạng sigmoid và một phép nhân.
Tầng sigmoid sẽ cho đầu ra là một số trong khoảng [0, 1], mô tả có bao nhiêu thông
tin có thể được thông qua. Khi đầu ra là 0 thì có nghĩa là không cho thông tin nào qua
cả, trong khi đầu ra là 1 thì có nghĩa là cho tất cả các thông tin đi qua nó.
Một LSTMs gồm có 3 cổng như vậy để duy trì và điều hành trạng thái của tế bào.
- 9
* Bên trong của LSTMs
Bước đầu tiên của LSTMs là quyết định xem thông tin nào cần bỏ đi từ trạng thái
tế bào. Quyết định này được đưa ra bởi tầng sigmoid gọi là “tầng cổng quên” (forget
gate layer). Nó sẽ lấy đầu vào là ht-1 và xt rồi đưa ra kết quả là một số trong khoảng [0,
1] cho mỗi số trong trạng thái tế bào Ct-1. Đầu ra là 1 thể hiện rằng nó giữ toàn bộ thông
tin lại, còn 0 chỉ rằng toàn bộ thông tin sẽ bị bỏ đi.
Bước tiếp theo là quyết định xem thông tin mới nào ta sẽ lưu vào trạng thái tế bào.
Việc này gồm 2 phần. Đầu tiên là sử dụng một tầng sigmoid được gọi là “tầng cổng
vào” (input gate layer) để quyết định giá trị nào ta sẽ cập nhật. Tiếp theo là một tầng tanh
tạo ra một véc-tơ cho giá trị mới Čt nhằm thêm vào cho trạng thái. Trong bước tiếp theo,
ta sẽ kết hợp 2 giá trị đó lại để tạo ra một cập nhập cho trạng thái.
Giờ là lúc cập nhập trạng thái tế bào cũ Ct-1 thành trạng thái mới Ct. Ở các bước
trước đó đã quyết định những việc cần làm, nên giờ ta chỉ cần thực hiện là xong.
Ta sẽ nhân trạng thái cũ với ft để bỏ đi những thông tin ta quyết định quên lúc
trước. Sau đó cộng thêm it∗Čt . Trạng thái mới thu được này phụ thuộc vào việc ta quyết
định cập nhập mỗi giá trị trạng thái ra sao.
- 10
Cuối cùng, ta cần quyết định xem ta muốn đầu ra là gì. Giá trị đầu ra sẽ dựa vào
trạng thái tế bào, nhưng sẽ được tiếp tục sàng lọc. Đầu tiên, ta chạy một tầng sigmoid
để quyết định phần nào của trạng thái tế bào ta muốn xuất ra. Sau đó, ta đưa nó trạng
thái tế bào qua một hàm kích hoạt tanh để có giá trị nó về khoảng [-1, 1], và nhân nó với
đầu ra của cổng sigmoid để được giá trị đầu ra ta mong muốn.
* Các biến thể của bộ nhớ dài hạn
Những đặc tính vừa mô tả ở trên là của một LSTMs bình thường, tuy nhiên không
phải tất cả các LTSMs đều giống như vậy. Thực tế, các bài báo về LTSMs đều sử dụng
một phiên bản hơi khác so với mô hình LTSMs chuẩn. Sự khác nhau không lớn, nhưng
chúng giúp giải quyết phần nào đó trong cấu trúc của LTSMs.
Một dạng LTSMs phổ biến được giới thiệu bởi Gers & Schmidhuber (2000) được
thêm các đường kết nối “peephole connections”, làm cho các tầng cổng nhận được giá
trị đầu vào là trạng thái tế bào.
- 11
Hình trên mô tả các đường được thêm vào mọi cổng, nhưng cũng có những bài
báo chỉ thêm cho một vài cổng mà thôi.
Một biến thể khác là nối 2 cổng loại trừ và đầu vào với nhau. Thay vì phân tách
các quyết định thông tin loại trừ và thông tin mới thêm vào, ta sẽ quyết định chúng cùng
với nhau luôn. Ta chỉ bỏ đi thông tin khi mà ta thay thế nó bằng thông tin mới đưa vào.
Ta chỉ đưa thông tin mới vào khi ta bỏ thông tin cũ nào đó đi.
Một biến thể khá thú vị khác của LSTMs là Gated Recurrent Unit, hay GRU được
giới thiệu bởi Cho, et al. (2014). Nó kết hợp các cổng loại trừ và đầu vào thành một cổng
“cổng cập nhật” (update gate). Nó cũng hợp trạng thái tế bào và trạng thái ẩn với nhau
tạo ra một thay đổi khác. Kết quả là mô hình của ta sẽ đơn giản hơn mô hình LSTMs
chuẩn và ngày càng trở nên phổ biến.
Trên đây chỉ là một vài biến thế được chú ý nhiều nhất, thực tế có rất nhiều các
biến thể khác nhau của LSTMs như Depth Gated RNNs của Yao, et al. (2015). Cũng có
những biến thể mà chiến lược xử lý phụ thuộc xa hoàn toàn khác như Clockwork RNNs
của Koutnik, et al. (2014).
Greff, et al. (2015) phân tích nhiều biến thể của mạng LSTMs và so sánh cũng như
đưa ra các biến thể tốt nhất cho các bài toán khác nhau. Ngoài ra, Jozefowicz, et al.
(2015) thậm chí còn thử hàng chục nghìn kiến trúc RNNs khác nhau và tìm ra một vài
mô hình LSTMs tốt nhất cho một số loại bài toán.
nguon tai.lieu . vn