Xem mẫu
- 1
- Bài 9:
Mạng hồi quy
2
- Nội dung
• Bài toán dự đoán chuỗi
• Mạng hồi quy thông thường
• Lan truyền ngược theo thời gian (BPTT)
• Mạng LSTM và GRU
• Một số áp dụng
3
- Bài toán dự đoán chuỗi
4
- Bài toán dự đoán chuỗi
• Trước giờ, ta chỉ tập trung vào vấn đề dự đoán với đầu
vào và đầu ra kích thước cố định
• Chuyện gì sẽ xảy ra nếu đầu vào và đầu ra là một
chuỗi có kích thước thay đổi?
5
- Phân lớp văn bản
• Phân loại sắc thái (sentiment): phân loại bình luận một
nhà hàng hay một bộ phim hay một sản phẩm là tích
cực hay tiêu cực
• “The food was really good” - “Thức ăn rất ngon”
• “Máy hút bụi bị hỏng trong vòng hai tuần”
• “Bộ phim có những phần buồn tẻ, nhưng tổng thể là rất đáng
xem”
• Cần dùng đặc trưng gì và mô hình phân loại gì để giải
quyết bài toán này?
6
- Phân loại sắc thái
• “The food was really good”
Classifier
Trạng thái ẩn
“Memory” h5
“Context”
h1 h2 h3 h4
“The” “food” “was” “really” “good”
Recurrent Neural Network (RNN)
7
- Mô hình ngôn ngữ
8
- Mô hình ngôn ngữ
• Character RNN
9
Image source
- Character RNN
Kí tự đầu ra yi
Lớp đầu ra (biến
đổi tuyến tính +
𝑝 𝑦! , 𝑦" , … , 𝑦#
softmax) #
= & 𝑝(𝑦$ |𝑦! , … , 𝑦$&! )
$%!
#
≈ & 𝑃' (𝑦$ |ℎ$ )
Trạng thái ẩn hi $%!
Mã hóa One-hot xi
Ký tự đầu vào
10
- Sinh mô tả bức ảnh
• Cho một bức ảnh, cần sinh ra một câu mô tả nội dung
bức ảnh
“The dog is hiding”
11
- Sinh mô tả bức ảnh
“The” “dog” “is” “hiding” “STOP”
Bộ phân loại Bộ phân loại Bộ phân loại Bộ phân loại Bộ phân loại
h1 h2 h3 h4 h5
h0 h1 h2 h3 h4
CNN “START” “The” “dog” “is” “hiding”
12
- Dịch máy
https://translate.google.com/
13
- Dịch máy
• Nhiều đầu vào – nhiều đầu ra (hay còn gọi là
sequence to sequence)
“Matches” “Nature” “is”
“Correspondances” “La” “nature”
14
- Tổng hợp các loại dự đoán
Phân Sinh mô Phân Phân loại
Dịch máy video
lớp tả ảnh loại sắc mức
ảnh thái câu frame
15
- Mạng hồi quy thông thường
16
- Mạng hồi quy
Recurrent Neural Network (RNN)
Đầu ra tại thời điểm t yt
Bộ phân loại
Hồi quy:
Trạng thái ẩn tại
thời điểm t ht ℎ! = 𝑓" (𝑥! , ℎ!#$ )
new function input at old
Lớp ẩn state of W time t state
Dữ liệu vào tại thời điểm t xt
17
- Duỗi (unroll) RNN
y3
y2
Bộ phân loại
y1 h3
Bộ phân loại h3
h2 Lớp ẩn
Bộ phân loại h2
h1 h1 Lớp ẩn
x3
Lớp ẩn t=3
x2
h0 t=2
x1
t=1
18
- RNN thông thường
ht
ℎ- = 𝑓. (𝑥- , ℎ-/0 )
W
𝑥-
= tanh 𝑊 ℎ
-/0
ht-1 xt
J. Elman, Finding structure in time, Cognitive science 14(2), pp. 179–211, 1990
19
- RNN thông thường
ht
ℎ- = 𝑓. (𝑥- , ℎ-/0 )
W
𝑥-
= tanh 𝑊 ℎ
-/0
ht-1 xt
𝑒 ! − 𝑒 "!
𝜎 𝑎 tanh 𝑎 = !
𝑒 + 𝑒 "!
tanh 𝑎 = 2𝜎 2𝑎 − 1
20
Image source
nguon tai.lieu . vn