- Trang Chủ
- Kĩ thuật Viễn thông
- Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản
Xem mẫu
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Nâng cao chất lượng gom cụm kết quả tìm
kiếm video sử dụng kết hợp đặc trưng âm
thanh, đặc trưng thị giác và thông tin văn bản
Nguyễn Quang Phúc, Nguyễn Thị Anh Thư, Ngô Đức Thành, Lê Đình Duy, Nguyễn Hoàng Tú Anh
Phòng Thí nghiệm Truyền thông Đa phương tiện
Đại học Công nghệ Thông tin, ĐHQG-HCM
Thành phố Hồ Chí Minh, Việt Nam
Email: {phucnq,thunta,thanhnd,ldduy,anhnht}@uit.edu.vn
Tóm tắt—Bài báo này đề xuất phương pháp sử dụng loại, chủ đề khác nhau và gây khó khăn trong việc tìm
kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông kiếm. Trường hợp xấu hơn xảy ra khi kết quả của các
tin văn bản để nâng cao chất lượng gom cụm kết quả tìm chủ đề khác áp đảo chủ đề mà người dùng quan tâm.
kiếm video. Mặc dù hướng tiếp cận kết hợp đa đặc trưng
Trong kịch bản như vậy, việc gom cụm kết quả tìm kiếm
đã được giới thiệu trong các lớp bài toán như tìm kiếm
video (video retrieval), phân lớp video (video classification) video là cần thiết nhằm giúp người dùng dễ dàng xác
nhưng đóng góp chính của bài báo này là phân tích ưu định video cần tìm. Nói cách khác, thay vì phải duyệt
điểm của từng loại đặc trưng cụ thể làm cơ sở cho việc kết qua một danh sách phẳng kết quả tìm kiếm gồm nhiều
hợp đa đặc trưng và là công trình đầu tiên sử dụng kết video thuộc nhiều chủ đề trộn lẫn với nhau thì người
hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin dùng được cung cấp một cái nhìn trực quan hơn thông
văn bản đi kèm video để giải quyết bài toán gom cụm kết
quả tìm kiếm video. Các thí nghiệm được tiến hành trên
qua kết quả gom cụm video theo từng chủ đề cụ thể.
kết quả tìm kiếm video của YouTube với phương pháp kết Qua đó, người dùng có thể dễ dàng xác định được video
hợp đề xuất cho kết quả tốt hơn so với việc chỉ áp dụng mà họ quan tâm một cách nhanh chóng và bỏ qua các
từng loại đặc trưng riêng lẻ trong quá trình gom cụm cụm video không thích hợp.
video. Tóm lại, với một danh sách video trả về từ kết quả
Từ khóa—gom cụm video, đặc trưng âm thanh, đặc tìm kiếm của một truy vấn bất kỳ trên các kênh video
trưng thị giác, độ tương tự kết hợp.
trực tuyến, bài toán gom cụm kết quả tìm kiếm video là
xác định các video có nội dung tương tự nhau và gom
I. GIỚI THIỆU
chúng lại trong cùng một cụm. Dữ liệu đầu vào và đầu
Ngày nay, với sự phát triển mạnh mẽ của công nghệ ra của bài toán được minh họa trực quan ở Hình 1. Đầu
truyền thông và kỹ thuật số cùng với sự bùng nổ của vào là danh sách video trả về từ kết quả tìm kiếm video
mạng Internet, số lượng video được chia sẻ trên Web trên Web, đầu ra là các cụm video.
ngày càng nhiều. Để tìm kiếm video trên Web, người Gom cụm kết quả tìm kiếm trên Web được nghiên cứu
dùng phải cung cấp từ khóa tìm kiếm trên các công cụ rộng rãi trước đây. Các công trình chủ yếu tập trung vào
tìm kiếm video (ví dụ như YouTube, Google Video). Kết dữ liệu văn bản (phổ biến là gom cụm trang Web) [6],
quả tìm kiếm được trình bày như một danh sách phẳng [8], [9] và dữ liệu hình ảnh [3], [5], [11]. Gần đây, có
với các video được xếp theo độ liên quan với từ khóa một số công trình nghiên cứu gom cụm kết quả tìm kiếm
truy vấn. Để tìm được video mong muốn, người dùng video [1], [7], [12]. So với dữ liệu dạng văn bản hay hình
phải “tốn công” duyệt qua toàn bộ danh sách. Hơn nữa, ảnh thì dữ liệu video có cấu trúc phức tạp hơn. Nội
các kết quả tìm kiếm là rất đa đạng và thường bị phân dung của video chứa đựng đồng thời các đặc trưng về
mảnh hoặc bị chi phối bởi các video không phù hợp âm thanh (audio), thị giác (visual) hay văn bản (textual).
(đặc biệt trong những trường hợp như người dùng gửi Điều này đặt ra nhiều thách thức trong việc biểu diễn
truy vấn quá ngắn hoặc truy vấn mơ hồ do tính đa nghĩa và so khớp video. Trong [12], tác giả biểu diễn video
của từ khóa truy vấn). dựa trên đặc trưng thị giác. Cụ thể, mỗi frame được biểu
Giả định người dùng đang quan tâm tới một vấn đề diễn thành một véc tơ đặc trưng trong không gian màu
cụ thể nhưng không đưa ra được từ khóa phù hợp. Do HSV (Hue Saturation Value). Sau đó, video được biểu
đó, kết quả tìm kiếm video trả về có thể thuộc nhiều thể diễn bởi một véc tơ đặc trưng được tính bằng cách lấy
130
ISBN: 978-604-67-0635-9 130
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
khai thác nội dung ngữ nghĩa được trích xuất từ thông tin
văn bản đi kèm video có thể giúp gom các video tương
đồng ngữ nghĩa về cùng một cụm. Do đó, đặc trưng thị
giác và thông tin văn bản đi kèm video sẽ hỗ trợ, bổ
sung cho nhau để biểu diễn video một cách hiệu quả
giúp nâng cao chất lượng gom cụm video. Tuy nhiên,
việc tận dụng nội dung ngữ nghĩa của thông tin văn bản
đi kèm video sẽ thực sự hiệu quả khi chúng được mô tả
đúng với nội dung thực sự của video. Dữ liệu video trên
các kênh video trực tuyến thường được tải lên bởi nhiều
người dùng, các thông tin văn bản đi kèm video cũng
được người dùng khai báo. Trong thực tế, vì những mục
đích riêng (ví dụ như thu hút lượt xem) hoặc do cảm
nhận chủ quan, người dùng có thể mô tả các thông tin
Hình 1. Minh họa trực quan dữ liệu đầu vào và đầu ra cho bài toán văn bản đi kèm không đúng với nội dung thực sự của
gom cụm kết quả tìm kiếm video. video. Trong những trường hợp tương tự như vậy, chúng
tôi tin rằng việc khai thác kết hợp đặc trưng âm thanh
được trích xuất trực tiếp từ nội dung video (ví dụ như
trung bình tất cả các véc tơ biểu diễn cho các frame của
những video về ca nhạc thường có các âm thanh như
video. Độ tương đồng giữa các video được quy về việc
tiếng reo hò, tiếng vỗ tay; những video đua xe thì âm
tính khoảng cách giữa các véc tơ biểu diễn chúng. Với
thanh đi kèm là tiếng động cơ xe, ...) sẽ góp phần cải
hướng tiếp cận này thì tính ngữ nghĩa trong thông tin
thiện chất lượng gom cụm video.
văn bản đi kèm video (ví dụ như tiêu đề (title), mô tả
Để làm rõ những phân tích trên, một ví dụ minh họa
(description), các thẻ từ khóa (tags)) không được xem
được thể hiện ở Hình 2. Trong ví dụ này, cả bốn video
xét. Trong [1], [7], các tác giả đã khai thác các thông
đều giới thiệu về “xe hơi” nên sẽ được gom vào cùng
tin được trích xuất từ đặc trưng thị giác và thông tin văn
một cụm. Video 1 và video 3 có thể hiện thị giác tương
bản đi kèm video nhằm cải thiện chất lượng gom cụm
đối giống nhau nên việc khai thác đặc trưng thị giác sẽ
video. Tuy nhiên, các phương pháp rút trích đặc trưng
giúp gom 2 video này với nhau. Tuy nhiên, video 2 và
biểu diễn video được sử dụng vẫn còn khá đơn giản và
video 4 có thể hiện thị giác khác so với video 1 và video
hiệu quả của từng loại đặc trưng trong quá trình gom
3. Khi đó, việc tận dụng thông tin văn bản đi kèm video
cụm video chưa được phân tích rõ ràng.
cùng với đặc trưng âm thanh được trích xuất từ nội dung
Trong bài báo này, chúng tôi tập trung vào việc phân
video (như tiếng động cơ xe) sẽ giúp gom video 2 và
tích ưu điểm của từng loại đặc trưng cụ thể làm cơ sở
video 4 vào chung cụm với video 1 và video 3.
cho việc kết hợp đa đặc trưng. Từ đó, đề xuất phương
Từ những phân tích trên, chúng tôi đề xuất mô hình
pháp kết hợp đặc trưng âm thanh, đặc trưng thị giác và
kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông
thông tin văn bản đi kèm video nhằm nâng cao chất
lượng gom cụm video.
Các mục tiếp theo của bài báo được tổ chức như sau:
mục II giới thiệu phương pháp kết hợp đặc trưng đề
xuất, mục III trình bày các thực nghiệm, mục IV thảo
luận về hướng phát triển.
II. PHƯƠNG PHÁP ĐỀ XUẤT
A. Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị
giác và thông tin văn bản
Theo quan sát trực quan, các video có nội dung tương
tự nhau thường có thể hiện thị giác (sự xuất hiện của
các đối tượng, hình ảnh) giống nhau. Vì vậy, việc sử
dụng đặc trưng thị giác để gom cụm video sẽ trở nên
hiệu quả. Tuy nhiên, với sự đa dạng của dữ liệu video
trên Web, những video thuộc cùng một chủ đề có thể có Hình 2. Minh họa cụm bốn video thuộc chủ đề “xe hơi” từ danh sách
những đối tượng và hình ảnh khác nhau. Khi đó, việc kết quả tìm kiếm video của truy vấn “Aston”.
131
131
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hình 3. Mô hình kết hợp đặc trưng âm thanh, đặc trưng thị giác và Hình 5. Minh họa quá trình tính độ tương tự video dựa trên đặc trưng
thông tin văn bản giải quyết bài toán gom cụm kết quả tìm kiếm video. thị giác (SIFT) được biểu diễn theo mô hình BoW.
tin văn bản đi kèm video nhằm nâng cao chất lượng
gom cụm video (xem Hình 3). bao gồm các bước chính là phát hiện và mô tả các điểm
đặc trưng. Các điểm đặc trưng sẽ được phát hiện và mô
B. Trích xuất đặc trưng, biểu diễn và so khớp video
tả trên từng frame của mỗi video. Để phát hiện các điểm
1) Đặc trưng âm thanh (Audio): Như đã phân tích đặc trưng, chúng tôi sử dụng bộ phát hiện đặc trưng phổ
ở trên, đặc trưng âm thanh đóng một vai trò quan biến Hessian-Affine [10]. Với mỗi đặc trưng, một véc
trọng trong quá trình gom cụm video. Trong bài báo tơ 128 chiều được tạo ra từ bộ mô tả SIFT. Như vậy,
này, chúng tôi sử dụng MFCC (Mel-Frequency Cepstral mỗi frame của video sẽ được biểu diễn bao gồm một
Coefficients) [13] như là một loại đặc trưng âm thanh tập các véc tơ đặc trưng 128 chiều. Video được biểu
được trích xuất từ video. Mượn ý tưởng từ mô hình BoW diễn bằng tập hợp tập các véc tơ đặc trưng biểu diễn
(Bag-of-Words) trong biểu diễn dữ liệu văn bản, sau khi cho từng frame.
đặc trưng âm thanh (biểu diễn dạng tập các véc tơ) được
trích xuất từ tập dữ liệu video, quá trình gom cụm các Tương tự như quá trình biểu diễn video với đặc trưng
đặc trưng tạo từ điển được tiến hành. Cuối cùng, mỗi âm thanh, chúng tôi cũng sử dụng mô hình BoW để biểu
video sẽ được biểu diễn bởi một véc tơ đặc trưng với diễn và tính độ tương tự video theo đặc trưng thị giác.
số chiều tương ứng với số từ trong từ điển. Độ tương tự Quá trình tính độ tương tự video dựa trên đặc trưng thị
giữa các video được tính là khoảng cách giữa các véc giác được thể hiện ở Hình 5.
tơ đại diện chúng. Quá trình tính độ tương tự video dựa 3) Thông tin văn bản (Textual): Thông tin văn bản đi
trên đặc trưng âm thanh được thể hiện ở Hình 4. kèm video (ví dụ như tiêu đề (title), mô tả (description),
các thẻ từ khóa (tags)) góp phần quan trọng thể hiện nội
dung ngữ nghĩa video giúp cải thiện chất lượng gom cụm
video. Tuy nhiên, vấn đề đặt ra là thông tin văn bản có
ý nghĩa tương tự nhau nhưng có thể được diễn đạt với
nhiều từ ngữ khác nhau (điều này chủ yếu là do tính linh
hoạt vốn có của ngôn ngữ tự nhiên cho phép người dùng
thể hiện cùng một nội dung nhưng với các ngôn từ khác
nhau). Trong bài báo này, chúng tôi đề xuất sử dụng từ
điển WordNet [2] để tính độ tương tự ngữ nghĩa giữa
Hình 4. Minh họa quá trình tính độ tương tự video dựa trên đặc trưng các từ thể hiện trong thông tin văn bản đi kèm video.
âm thanh (MFCC) được biểu diễn theo mô hình BoW.
Sau khi nghiên cứu rộng rãi một số phương pháp,
2) Đặc trưng thị giác (Visual): Để tăng độ chính xác chúng tôi đề xuất sử dụng phương pháp của Li để tính
so khớp video thì một trong những yêu cầu quan trọng độ tương tự ngữ nghĩa giữa các từ, phương pháp này có
là các điểm đặc trưng cục bộ (local keypoint features) sự tương quan tốt nhất với sự đánh giá của con người về
được rút trích từ các frame phải bất biến với những biến mức độ tương tự ngữ nghĩa giữa các từ như được trình
đổi về độ sáng, tỉ lệ co giãn, phép xoay, .... Một trong bày trong báo cáo [15].
những phương pháp rút trích và mô tả các đặc trưng cục Độ tương tự giữa các video dựa trên thông tin văn
bộ đáp ứng yêu cầu trên được sử dụng phổ biến nhất bản đi kèm sử dụng từ điển WordNet được thể hiện ở
hiện nay là Scale-Invariant Feature Transform (SIFT) [4] Hình 6.
132
132
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Bảng I
BỘ DỮ LIỆU VIDEO THỬ NGHIỆM
Truy vấn Số video Số chủ đề
1. Aston 82 4
2. Cobra 92 5
3. Jaguar 86 4
4. Leopard 95 5
5. Lion 89 4
6. Lotus 91 6
Hình 6. Minh họa quá trình tính độ tương tự video dựa trên thông tin 7. Mustang 83 5
văn bản đi kèm sử dụng từ điển WordNet. 8. Scorpion 90 6
9. Venus 89 7
10. Viper 87 5
C. Gom cụm video
Quá trình gom cụm video dựa trên sự kết hợp đặc
trưng âm thanh, đặc trưng thị giác và thông tin văn bản B. Phương pháp đánh giá
được thực hiện qua 3 bước sau: Để đánh giá chất lượng gom cụm video. Chúng tôi
Bước 1. Độ tương tự giữa các video theo từng đặc sử dụng 2 độ đo phổ biến là Entropy và Purity [14].
trưng cụ thể sẽ được tính theo các phương pháp được Entropy của mỗi cụm phản ánh sự phân tán video
trình bày ở mục trước đó. thuộc các chủ đề trong mỗi cụm, giá trị Entropy đánh
Bước 2. Với hai video bất kỳ X và Y , độ tương tự giá chất lượng gom cụm tổng thể được tính là trung bình
kết hợp đa đặc trưng được tính theo công thức sau: cộng của tất cả các Entropy của các cụm. Với tập dữ
liệu gồm n video thuộc k loại (chủ đề) được gán nhãn
Sim (X, Y ) = wi ∗ Simi (X, Y ) (1) thủ công, ký hiệu là Cj , j = 1, ..., k và thuật toán gom
mỗi đặc trưng i cụm n video vào k cụm Pi với i = 1, ..., k. Entropy
đánh giá chất lượng gom cụm toàn cục cho tất cả các
trong đó, Sim (X, Y ) là độ tương tự kết hợp đa đặc cụm được tính toán theo công thức sau:
trưng giữa hai video X và Y , Simi (X, Y ) là độ tương ni nij nij
tự giữa hai video X và Y theo đặc trưng i, wi là trọng Entropy = − log (2)
n n i ni
số của đặc trưng i. i j
Bước 3. Áp dụng thuật toán gom cụm dữ liệu để thực trong đó ni là số video trong cụm Pi , nij là số video
hiện gom cụm video dựa trên độ tương tự kết hợp đa trong cụm Pi thuộc chủ đề Cj và n là tổng số video
đặc trưng. trong tất cả các cụm.
Kết quả gom cụm là hoàn hảo nếu mỗi cụm chỉ chứa
III. THỰC NGHIỆM video thuộc cùng một chủ đề duy nhất. Khi đó, giá trị
Entropy sẽ bằng không. Nói một cách tổng quát, giá trị
A. Bộ dữ liệu video Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn.
Purity phản ánh độ tinh khiết của các cụm. Purity của
Chúng tôi sử dụng phần mềm mã nguồn mở TubeKit1
một cụm được xác định dựa trên số video thuộc chủ đề
để tải dữ liệu video thực từ YouTube thông qua YouTube
mà xuất hiện nhiều nhất trong cụm đó. Purity đánh giá
API. Chúng tôi tải về khoảng 80 đến 100 video (thời
chất lượng gom cụm toàn cục cho tất cả các cụm được
lượng mỗi video từ 2 đến 10 phút) cho mỗi truy vấn và
tính toán theo công thức sau với các ký hiệu có ý nghĩa
thực hiện loại bỏ một số video biệt lập, ít liên quan đến
tương tự như trong công thức tính Entropy:
truy vấn tìm kiếm. Sự loại bỏ này là hợp lý bởi vì chúng
ni nij
tôi đang thử nghiệm tính năng hậu xử lý gom cụm kết P urity = (maxj ) (3)
quả tìm kiếm video chứ không phải là tìm kiếm chính i
n ni
xác của một công cụ tìm kiếm video. Ngược lại với Entropy, giá trị Purity càng lớn thì cho
Thí nghiệm được tiến hành trên bộ dữ liệu gồm 884 kết quả gom cụm tốt hơn.
video của 10 truy vấn với các từ khóa khác nhau. Thông
tin chi tiết về bộ dữ liệu video được mô tả ở Bảng I. C. Cài đặt thực nghiệm
Nhằm mục đích so sánh, đánh giá kết quả gom cụm
1 www.tubekit.org video với phương pháp đề xuất, chúng tôi tiến hành cài
133
133
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
đặt các thí nghiệm sau:
• A (Audio): Gom cụm video dựa trên độ tương tự
theo đặc trưng âm thanh.
• V (Visual): Gom cụm video dựa trên độ tương tự
theo đặc trưng thị giác.
• T (Textual): Gom cụm video dựa trên độ tương tự
theo thông tin văn bản đi kèm video.
• A-V-T (Audio-Visual-Textual) (hướng tiếp cận của
chúng tôi): Gom cụm video dựa trên độ tương tự
kết hợp đặc trưng âm thanh, đặc trưng thị giác và
theo thông tin văn bản đi kèm video.
Để xem xét sự tương quan giữa các đặc trưng trong
mô hình kết hợp, chúng tôi thử nghiệm phương pháp kết
hợp đặc trưng đề xuất với các bộ trọng số khác nhau
Hình 7. Kết quả gom cụm video được đánh giá theo Entropy.
ứng với từng đặc trưng được thể hiện trong Bảng II.
Bảng II
TRỌNG SỐ KẾT HỢP CÁC ĐẶC TRƯNG tương tự nhau (thuộc cùng chủ đề) thường có những đối
Âm tượng hình ảnh cụ thể và âm thanh tương tự nhau. Tuy
Trọng Thị giác Văn bản
thanh
(Visual) (Textual)
Tổng nhiên, kết quả thí nghiệm cũng cho thấy rằng mỗi đặc
số
(Audio) trưng đều có ưu thế riêng đối với mỗi bộ dữ liệu video
tsA 0.60 0.30 0.10 1.00 của từng truy vấn. Phương pháp kết hợp đa đặc trưng
tsB 0.35 0.50 0.15 1.00 của chúng tôi (A-V-T) được thử nghiệm với các bộ trọng
tsC 0.20 0.60 0.20 1.00 số khác nhau cho mỗi đặc trưng đều cho kết quả gom
cụm video tốt hơn so với các phương pháp sử dụng từng
Để gom cụm video, chúng tôi sử dụng thuật toán K- đặc trưng riêng lẻ (A), (V), (T). Điều này chứng minh
Medoids (một thuật toán gom cụm phổ biến) vì hai lý tính hiệu quả của việc kết hợp đặc trưng âm thanh, đặc
do sau: (i) trọng tâm của cụm là một đối tượng cụ thể trưng thị giác và thông tin văn bản đi kèm video trong
(tâm thật), (ii) độ tương tự giữa các đối tượng chỉ cần quá trình gom cụm video. Phương pháp A-V-T (tsA), A-
tính một lần (điều này là phù hợp với đầu vào là độ đo V-T (tsB) cho kết quả gom cụm video tốt nhất (đạt giá
tương tự kết hợp đa đặc trưng giữa các video được xử trị Entropy thấp nhất chứng minh xác suất phân bố các
lý tính toán trước đó). video thuộc cùng một chủ đề vào các cụm khác nhau là
Đối với bài toán gom cụm tổng quát thì số cụm được thấp nhất). Điều này cho thấy rằng trong chiến lược kết
khai báo linh động bởi người dùng. Số cụm càng ít thì hợp đa đặc trưng giải quyết bài toán gom cụm kết quả
tỷ lệ các đối tượng khác nhau được gom về cùng một tìm kiếm video thì đặc trưng âm thanh và đặc trưng thị
cụm càng cao, số cụm càng nhiều thì tỷ lệ các đối tượng giác chiếm ưu thế hơn so với thông tin văn bản đi kèm
giống nhau được gom vào các cụm khác nhau càng lớn. video.
Trong bài báo này, để công bằng trong việc đánh giá Kết quả thể hiện ở Hình 8 cho thấy phương pháp A-V-
giữa các phương pháp thực nghiệm, chúng tôi tiến hành T (tsA), A-V-T (tsB) cũng cho kết quả gom cụm video
thử nghiệm thuật toán gom cụm với số cụm đầu vào tốt nhất (đạt giá trị Purity cao nhất chứng minh tỉ lệ
tương ứng với số chủ đề của mỗi truy vấn. phân bố những video thuộc cùng một chủ đề vào cùng
một cụm là cao nhất).
D. Kết quả thực nghiệm Minh họa kết quả trực quan gom cụm video được thể
Kết quả gom cụm video ứng với các truy vấn khác hiện ở Hình 9.
nhau đánh giá theo Entropy và Purity được thể hiện ở Kết quả gom cụm video thể hiện ở Hình 9 bao gồm
Hình 7 và Hình 8. 6 cụm video liên quan đến truy vấn “Scorpion”. Cụm
Kết quả thể hiện ở Hình 7 cho thấy trên hầu hết các 1 bao gồm những video ca nhạc thể hiện bởi ban nhạc
bộ dữ liệu video của các truy vấn, phương pháp sử dụng Scorpions. Cụm 2 bao gồm những video liên quan đến
đặc trưng âm thanh (A) và đặc trưng thị giác (V) cho động vật (con bọ cạp). Cụm 3 bao gồm những video
kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp game. Cụm 4 gồm những video giới thiệu về mũ bảo
hơn) so với phương pháp sử dụng thông tin văn bản hiểm thương hiệu Scorpion. Cụm 5 gồm những video
đi kèm (T). Điều này cho thấy xu hướng những video tập Yoga (Scorpion Pose). Cụm 6 gồm những video liên
134
134
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
thấy rằng phương pháp kết hợp đề xuất giúp cải thiện
chất lượng gom cụm video so với các phương pháp sử
dụng từng đặc trưng riêng lẻ.
Hướng phát triển tiếp theo là có thể khai thác thêm
các thông tin được trích xuất từ đặc trưng chuyển động
(motion features) của video. Thử nghiệm và đánh giá
kết quả gom cụm video dựa trên việc kết hợp các bộ
đặc trưng khác nhau nhằm xây dựng bộ đặc trưng phù
hợp cho bài toán gom cụm kết quả tìm kiếm video.
LỜI CẢM ƠN
Nghiên cứu được tài trợ bởi Đại học Quốc gia Thành
phố Hồ Chí Minh (ĐHQG-HCM) trong khuôn khổ Đề
tài mã số C2015-26-02.
Hình 8. Kết quả gom cụm video được đánh giá theo Purity.
TÀI LIỆU THAM KHẢO
[1] A. Hindle, J. Shao, D. Lin, J. Lu and R. Zhang, “Clustering Web
Video Search Results Based on Integration of Multiple Features,”
In WWW, pp. 53-73, 2011.
[2] C. Fellbaum, ed., “WordNet: An electronic lexical database,”
Language, Speech, and Communication. MIT Press, Cambridge,
USA, 1998.
[3] D. Cai, X. He, Z. Li, W.Y. Ma, J.R. Wen, “Hierarchical clustering
of www image search results using visual, textual and link
information,” In ACM Multimedia, pp. 952-959, 2004.
[4] D. G. Lowe, “Distinctive Image Features from Scale-Invariant
Keypoints,” International Journal of Computer Vision, 60, 2, pp.
91-110, 2004.
[5] F. Jing, C. Wang, Y. Yao, K. Deng, L. Zhang, W.Y. Ma, “Igroup:
web image search results clustering,” In ACM Multimedia, pp.
377-384, 2006.
[6] G. Mecca, S. Raunich, A. Pappalardo, “A new algorithm for
clustering search results,” Data Knowl, Eng.62(3), pp. 504-522,
2007.
[7] H. Huang, Y. Lu, F. Zhang, and S. Sun, “A multi-modal clustering
method for web videos,” In Trustworthy Computing and Services,
pp. 163-169, 2013.
[8] H. Zeng, Q. He, Z. Chen, W. Ma, and J. Ma, “Learning to cluster
web search results,” In Proceedings of ACM SIGIR ’04, 2004.
Hình 9. Minh họa trực quan một phần kết quả gom cụm video với [9] J. Park, X. Gao, and P. Andreae, “Query directed web page
truy vấn “Scorpion”. clustering using suffix tree and wikipedia links,” In Advanced
Data Mining and Applications, pp. 91-99, 2012.
[10] K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J.
Matas, F. Schaffalitzky, T. Kadir, and L. Van Gool, “A comparison
quan đến một loại xe chuyên dụng thu hoạch gỗ thông of affine region detectors,” International journal of computer
(Ponsse Scorpion). Từ kết quả trực quan gom cụm video, vision, vol. 65, no. 1-2, pp. 43-72, 2005.
[11] M. Rege, M. Dong, and J. Hua, “Clustering Web Images with
chúng tôi quan sát thấy rằng đa số các video thuộc cùng Multi-modal Features,” In Proceedings of the 15th International
chủ đề đều được gom trong cùng một cụm. Thông qua Conference on Multimedia, pp. 317-320, 2007.
kết quả gom cụm video, người dùng có thể xác định [12] S. Liu, M. Zhu, Q. Zheng, “Mining similarities for clustering
web video clips,” In CSSE (4), pp. 759-762, 2008.
được những video mà họ quan tâm một cách dễ dàng [13] U. Srinivasan, S. Pfeiffer, S. Nepal, M. Lee, L. Gu, S. Barrass,
hơn thay vì phải duyệt qua một danh sách phẳng các kết “A Survey of Mpeg-1 Audio, Video and Semantic Analysis
quả tìm kiếm như trước đây. Techniques,” Multimedia Tools and Applications, 27(1), pp. 105-
141, 2005.
[14] Y. Zhao, G. Karypis, “Criterion functions for document clus-
IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN tering: experiments and analysis,” Technical Report TR01-40,
Department of Computer Science, University of Minnesota, 2001.
Trong bài báo này, chúng tôi đề xuất phương pháp kết [15] Y.H. Li, Z. Bandar and D. McLean, “An approach for measuring
hợp đặc trưng âm thanh, đặc trưng thị giác được trích semantic similarity using multiple information sources,” IEEE
xuất trực tiếp từ nội dung video cùng với các thông tin Transactions on Knowledge and Data Engineering, vol. 15, no.
4, pp. 871-882, 2003.
văn bản đi kèm video dựa trên những phân tích về ưu
điểm của từng loại đặc trưng. Kết quả thí nghiệm cho
135
135
nguon tai.lieu . vn