Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00052 PHÂN LỚP, ĐỊNH DANH CHÈO VÀ QUAN HỌ Chu Bá Thành 1,2, Trịnh Văn Loan 1,2, Nguyễn Hồng Quang 2 1 Khoa Công nghệ Thông tin - Đại học Sư phạm Kỹ thuật Hưng Yên 2 Viện Công nghệ Thông tin & Truyền thông - Đại học Bách khoa Hà Nội Thanhcb.fit@utehy.edu.vn, Loantv@soict.hust.edu.vn, Quangnh@soict.hust.edu.vn TÓM TẮT: Với sự tăng trưởng mạnh mẽ của các cơ sở dữ liệu âm nhạc kỹ thuật số, việc phân loại tự động âm nhạc theo thể loại có tầm quan trọng rất lớn trong việc tự động hoá quá trình lưu trữ, tìm kiếm và truy xuất dữ liệu âm nhạc. Việt Nam là một quốc gia đa dân tộc, với nền văn hoá lâu đời, giàu bản sắc, do đó dân ca Việt Nam rất đa dạng và phong phú. Trong các loại hình dân ca Việt Nam, có hai loại hình dân ca phổ biến và có số làn điệu phong phú hơn cả đó là Chèo và Quan họ. Bài báo trình bày một phương pháp phân lớp và định danh làn điệu Chèo và Quan họ sử dụng mô hình GMM (Gaussian Mixture Model) với tham số của mô hình là các hệ số MFCC (Mel Frequency Cepstral Coefficients) kết hợp với năng lượng. Kết quả cho thấy có sự phân lớp tương đối rõ ràng giữa hai loại hình dân ca này, trung bình tỷ lệ định danh đúng tăng theo số thành phần Gauss và rất khả quan. Từ khóa: Định danh, phân lớp, âm nhạc, Quan họ, Chèo, GMM, MFCC. I. GIỚI THIỆU Dân ca của mỗi nước, mỗi dân tộc hay của mỗi vùng, mỗi miền đều có âm điệu, phong cách riêng biệt. Sự khác nhau này tùy thuộc vào môi trường sống, hoàn cảnh địa lý và đặc biệt là ngôn ngữ. Dân ca Việt Nam là một thể loại âm nhạc cổ truyền Việt Nam do chính người dân sáng tác trong quá trình lao động, sinh hoạt và được truyền miệng qua nhiều thế hệ nên thường có nhiều dị bản và phần lớn đều không rõ tác giả. Những làn điệu dân ca được sáng tác ở khắp các vùng, miền nên rất đa dạng về giai điệu và phong phú về nội dung. Việt Nam là một quốc gia đa dân tộc với nền văn hóa lâu đời, do đó dân ca Việt Nam rất phong phú, đa dạng. Kho tàng dân ca Việt Nam bao gồm nhiều vùng miền, nhiều thể loại: Ở Bắc Bộ có Quan họ Bắc Ninh, Chèo, hát Xoan, hát Ví, hát Trống quân, hát Dô,…; ở Trung Bộ có hát Ví dặm, Hò Huế, Lý Huế, hát Sắc bùa,…; ở Nam Bộ có các điệu Lý, điệu Hò, nói thơ,…; ở miền núi phía Bắc có dân ca của đồng bào Thái, H' Mông, Mường,…; vùng Tây Nguyên có dân ca của các dân tộc Gia Rai, Ê Đê, Ba Na, Xơ Đăng,… mỗi nơi đều có bản sắc riêng. Trong các loại hình dân ca kể trên, hai loại hình dân ca Chèo và Quan họ có số làn điệu phong phú hơn cả. Bài báo sẽ trình bày các bước phân lớp giữa hai thể loại này. Phần II giới thiệu tổng quan về phân lớp các thể loại dân ca trên thế giới. Phần III giới thiệu thông tin về bộ dữ liệu của hai loại hình dân ca Chèo và Quan họ cùng bộ công cụ sử dụng để phân lớp và định danh. Kết quả thử nghiệm phân lớp được trình bày trong phần IV. Phần cuối cùng là kết luận và hướng nghiên cứu tiếp theo. II. KHÁI QUÁT VỀ ĐỊNH DANH ÂM NHẠC Các nghiên cứu ngoài nước liên quan trực tiếp đến khai thác dữ liệu âm nhạc rất đa dạng và đã được thực hiện từ rất nhiều năm theo các hướng khác nhau như: Phân loại âm nhạc theo thể loại; định danh nghệ sĩ, ca sĩ; phát hiện cảm xúc, tâm trạng; nhận biết nhạc cụ; tìm kiếm âm nhạc tương đồng… Tuy nhiên, nghiên cứu về phân loại âm nhạc theo thể loại là vấn đề phức tạp và khó giải quyết, nhưng có giá trị quan trọng cả trong nghiên cứu và các ứng dụng được thương mại hóa. Mặc dù các nghiên cứu về khai phá dữ liệu âm nhạc đã được thực hiện từ rất lâu song vẫn chỉ diễn ra nhỏ lẻ, chưa có một tổ chức hay diễn đàn chính thống nào dành cho những người nghiên cứu về âm nhạc. Dựa trên các nghiên cứu đã và đang được tiến hành từ khắp nơi trên thế giới, Hội thảo quốc tế về trích chọn thông tin âm nhạc ISMIR (International Symposium on Music Information Retrieval) chính thức được tổ chức lần đầu tiên vào ngày 23- 25/10/2000 tại Massachusetts, Mỹ. Kể từ đó Hội thảo này được tổ chức thường niên và là diễn đàn nghiên cứu hàng đầu thế giới về xử lý, tìm kiếm, tổ chức và trích xuất các thông tin liên quan trực tiếp đến âm nhạc. Một trong những bài báo được trích dẫn nhiều nhất trong lĩnh vực phân loại âm nhạc theo thể loại là của Tzanetankis và cộng sự [1], [2] và bộ dữ liệu được sử dụng rộng rãi nhất cũng là của George Tzanetankis có tên GTZAN [3]. Bộ dữ liệu này chứa 1000 trích đoạn bài hát, mỗi trích đoạn có độ dài 30s của 10 thể loại âm nhạc (Blues, Classical, Country, Disco, Hiphop, Jazz, Metal, Pop, Reggae, Rock), mỗi thể loại gồm100 trích đoạn. Kết quả cho thấy, các nghiên cứu được tiến hành từ năm 2002 đến 2010 trên bộ dữ liệu GTZAN có độ chính xác nhận dạng tăng từ 61,0% đến 93,7%. Nghiên cứu đầu tiên với dữ liệu dân ca được Wei Chai và Barry Vercoe [4] thuộc phòng thí nghiệm truyền thông đa phương tiện - Viện công nghệ Massachusetts, Mỹ thực hiện vào năm 2001. Bộ dữ liệu thử nghiệm gồm 187 làn điệu dân ca Ailen, 200 làn điệu dân ca Đức và 104 làn điệu dân ca Áo. Bộ dữ liệu này được trích từ (1) bộ sưu tập dân ca Essen (Đức) của Helmut Schaffrath và (2) bộ sưu tập âm nhạc Ailen của Donncha Ó Maidín. Các tác giả đã sử dụng công cụ HMM (Hidden Markov Model) với tỷ lệ dữ liệu được chia ngẫu nhiên cho phần huấn luyện và nhận dạng
  2. 396 PHÂN LỚP, ĐỊNH DANH CHÈO VÀ QUAN HỌ là 70% và 30%. Kết quả cao nhất phân lớp hai lớp giữa tổ hợp các thể loại nhạc Ailen - Đức, Ailen - Áo và Đức - Áo lần lượt là 75,0%, 77,0% và 66,0%. Kết quả phân lớp giữa 3 thể loại nhạc có độ chính xác cao nhất là 63,0%. Đến năm 2015, Nikoletta Bassiou và cộng sự [5] đã thử nghiệm phân loại âm nhạc dân gian Hy Lạp thành 2 thể loại dùng kỹ thuật phân tích tương quan chính tắc (CCA - Canonical Correlation Analysis) giữa lời bài hát và âm thanh. Dữ liệu thử nghiệm gồm 98 bài hát từ Pontus và 94 bài hát từ Asia Minor. Dữ liệu cho huấn luyện và nhận dạng được chia theo tỷ lệ 75% và 25%. Thực nghiệm phân loại sử dụng phương pháp đánh giá chéo, kết quả nhận dạng đúng trung bình của 5 lần thử nghiệm là 97,02%. Rajesh, Betsy và D. G. Bhalke [6] đã tiến hành phân lớp thể loại dân ca Tamil (miền nam Ấn Độ). Bộ dữ liệu gồm có 216 (103 bài hát truyền thống + 113 bài hát dân ca) trích đoạn bài hát dân ca với độ dài mỗi đoạn là 30s. Dữ liệu huấn luyện cho mỗi loại là 70 trích đoạn và dữ liệu nhận dạng cho mỗi loại lần lượt là 33 và 43 trích đoạn còn lại. Thử nghiệm nhận dạng với KNN đạt được độ chính xác 66,23%, với bộ phân lớp SVM độ chính xác đạt được 84,21%. Tại Việt Nam có công trình nghiên cứu về phân loại âm nhạc theo thể loại của nhóm tác giả Phan Anh Cang và Phan Thượng Cang [7], các tác giả đã tiến hành thử nghiệm trên bộ dữ liệu GTZAN, sử dụng phép biến đổi Wavelet rời rạc để trích chọn các đặc trưng liên quan đến nhịp điệu. Các đặc trưng trích chọn được gồm 19 đặc trưng về âm sắc, 6 đặc trưng nhịp điệu và 5 đặc trưng cao độ. Kết quả thử nghiệm dùng bộ phân lớp KNN (với k = 4) cho kết quả phân lớp trung bình cao nhất đạt 83,5%. Như đã trình bày ở trên, các nghiên cứu về phân loại âm nhạc theo thể loại trên thế giới đã được thực hiện rất nhiều. Tuy nhiên, đối với các thể loại âm nhạc Việt Nam nói chung và đặc biệt là dân ca Việt Nam nói riêng chưa có một công bố chính thức nào về kết quả nghiên cứu dựa trên phương diện xử lý tín hiệu để phân lớp các thể loại âm nhạc này. III. BỘ DỮ LIỆU VÀ MÔ HÌNH DÙNG CHO THỬ NGHIỆM 3.1. Bộ dữ liệu dùng cho thử nghiệm Trong kho tàng dân ca Việt Nam, Chèo và Quan họ là hai thể loại dân ca phong phú nhất về mặt giai điệu. Theo thống kê trong [8], có 213 làn điệu dân ca Quan họ. Soạn giả Mai Thiện thống kê từ [9], [10], [11], [12], [13] cùng với một số ghi chép thực tế của mình đã thống kê được190 làn điệu Chèo. Đối với nghiên cứu của bài báo này, dữ liệu thử nghiệm gồm 1000 file âm thanh của 50 làn điệu thuộc hai loại hình dân ca Chèo và Quan họ, mỗi loại hình 500 file. Trong mỗi loại hình dân ca có 25 làn điệu, mỗi làn điệu gồm 20 file, các file đều được lấy mẫu ở tần số 16kHz và 16 bit cho một mẫu. Dữ liệu thử nghiệm nói trên được tổ chức như sau. Với mỗi làn điệu, tên file được lưu theo cấu trúc „„CH hoặc QH_Chữ cái đầu trong tên làn điệu-thứ tự file.wav‟‟. Trong đó, CH là ký hiệu của Chèo còn QH là ký hiệu của Quan họ. Ví dụ, đối với làn điệu Quan họ „„Ăn ở trong rừng‟‟ sẽ có tên viết tắt lần lượt từ QH_AOTR-01.wav đến QH_AOTR-20.wav. Bảng 1. Ký hiệu của các làn điệu Chèo và Quan họ TT Tên viết tắt Tên làn điệu Chèo Tên viết tắt Tên làn điệu Quan họ 01 CH_BT Bình thảo QH_BBBD Buôn bấc buôn dầu 02 CH_CG Cấm giá QH_BDMT Bèo dạt mây trôi 03 CH_CP Chinh phụ QH_BQ Ba quan 04 CH_CCHV Chức cẩm hồi văn QH_CD Còn duyên 05 CH_CNGM Con nhện giăng mùng QH_CTVTVT Cổ tay vừa trắng vừa tròn 06 CH_DD Đò đưa QH_CTX Cây trúc xinh 07 CH_DL Đào liễu QH_CVGCTQ Chuông vàng gác cửa tam quan 08 CH_DLMC Đào lý một cành QH_DBBMCG Đôi bên bác mẹ cùng già 09 CH_DPPC Duyên phận phải chiều QH_DCSC Đối ca Sông Cầu 10 CH_DTBT Đường trường bắn thước QH_DQNB Đêm qua nhớ bạn 11 CH_DTTD Đường trường tiếng đàn QH_GDCC Gió đưa cây cải 12 CH_DTTK Đường trường thu không QH_GTGM Giăng thanh gió mát 13 CH_DTTN Đường trường trên non QH_LGD Lý giao duyên 14 CH_DTVT Đường trường vị thủy QH_LVDC Lòng vẫn đợi chờ 15 CH_DXN Du xuân QH_MN Mười nhớ 16 CH_DX Dương xuân QH_NGMD Nguyệt gác mái đình 17 CH_LL Lới lơ QH_NMKN Nhớ mãi khôn nguôi 18 CH_LNC Luyện năm cung QH_NODHLV Người ơi đến hẹn lại về
  3. Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang 397 19 CH_NTQT Nón thúng quai thao QH_NQNL Nhất quế nhị lan 20 CH_QG Quá giang QH_SCLK Se chỉ luồn kim 21 CH_QM Quạt màn QH_SMAD Súc miệng ấm đồng 22 CH_QTVD Quân tử vu dịch QH_TETCHL Tìm em trong chiều hội Lim 23 CH_SQC Sắp qua cầu QH_TPTN Tương phùng tương ngộ 24 CH_TV Tò vò QH_TRBMSTC Trên rừng ba mươi sáu thứ chim 25 CH_XX Xẩm xoan QH_VBM Vui bốn mùa Thực nghiệm phân loại tự động được thực hiện theo phương pháp đánh giá chéo, trong đó 80% dữ liệu được dùng cho huấn luyện, còn 20% dữ liệu được dùng cho nhận dạng. Dữ liệu dùng cho huấn luyện và nhận dạng là độc lập với nhau. Kết quả nhận dạng cuối cùng là trung bình của 5 lần thử nghiệm. 3.2. Mô hình sử dụng Đã có nhiều bộ phân lớp được sử dụng trong phân loại âm nhạc theo thể loại như KNN (K-Nearest Neighbors) [14], [15], SVM (Support Vector Machine) [16], [17], [18] ANN (Artificial Neural Networks) [19], [20], [21], LDA (Linear Discriminant Analysis) [22], [23], [24], SRC (Sparse Representation-based Classifier) [25], [26]. Mô hình Gauss hỗn hợp (GMM - Gaussian Mixture Model) [27] đã được sử dụng nhiều trong các nghiên cứu về nhận dạng người nói [28], [29], [30], [31], định danh ngôn ngữ [32], [33], định danh phương ngữ [34],… Trong lĩnh vực trích chọn thông tin âm nhạc (MIR - Music Information Retrieval) mô hình này cũng được sử dụng rộng rãi và đã có nhiều bài báo thuộc MIR sử dụng mô hình GMM [35], [36], [37], [38], [39]. Trong bài báo này, mô hình GMM được sử dụng để phân lớp và định danh các làn điệu Chèo và Quan họ. Xuất phát từ hàm mật độ Gauss N (x | k , k ) với: 1 1 1 1 (3.1) N (x | k , k ) exp (x k ) k (x k ) (2 ) | k |1/2 D /2 2 Trong đó: x là vector dữ liệu chứa tập các vector tham số đặc trưng (mỗi phần tử của tập có kích thước ), k 1..M (M là số thành phần Gauss), k là trung bình và k là ma trận hiệp phương sai của dữ liệu tương ứng. Mô hình GMM có thể được xem là xếp chồng tuyến tính của các phân bố Gauss như sau [27]: K p(x ) k N (x | k , k ) (3.2) k 1 M Với k là các trọng số của hỗn hợp thoả mãn điều kiện k 1. k 1 Mô hình GMM đầy đủ được mô tả bởi bộ 3 tham số k , k , k . Để phân lớp hoặc định danh một làn điệu đã được mô hình hoá bởi , cần xác định khả hiện (likelihood) N p ( x, ) p( x n | ) (3.3) n 1 Với N là số lượng vector đặc trưng và cũng là số lượng khung của file âm thanh cho một làn điệu nào đó. Trên thực tế, là hàm phi tuyến nên cần dùng giải thuật EM (Expectation Maximization) [27] để xác định sao cho log p(x | ) đạt cực đại. IV. KẾT QUẢ THỬ NGHIỆM 4.1. Bộ tham số dùng cho thử nghiệm Dữ liệu dùng cho huấn luyện và nhận dạng được xử lý, trích chọn đặc trưng với việc dùng công cụ Spro [40] để có bộ tham số đặc trưng gồm 60 hệ số (19 MFCCs + năng lượng = 20, đạo hàm bậc nhất và bậc hai của 20 hệ số này). Bộ công cụ ALIZE [41], [42] được sử dụng để thực hiện mô hình GMM dùng cho phân lớp và định danh. Bộ tham số này sẽ được đưa vào mô hình GMM để huấn luyện và nhận dạng với số thành phần Gauss thay đổi theo luỹ thừa 2: . 4.2. Kết quả và bàn luận Thử nghiệm được chia thành hai trường hợp là phân lớp sơ bộ và phân lớp chi tiết - định danh. Trong phân lớp sơ bộ, dữ liệu đưa vào nhận dạng được phân vào một trong hai lớp Chèo hoặc Quan họ. Đối với phân lớp chi tiết, dữ
  4. 398 PHÂN LỚP, ĐỊNH DANH CHÈO VÀ QUAN HỌ liệu sẽ được định danh là làn điệu nào trong Chèo và Quan họ. Ma trận sai nhầm khi thực hiện phân lớp sơ bộ ứng với các thành phần Gauss M được cho trong Bảng 2. Bảng 2. Ma trận sai nhậm đối với phân lớp sơ bộ theo các giá trị của M M = 16 M = 32 M = 64 M = 128 M = 256 M = 512 M = 1024 M = 2048 M = 4096 CH QH CH QH CH QH CH QH CH QH CH QH CH QH CH QH CH QH CH 418 82 426 74 436 64 445 55 456 44 455 45 456 44 460 40 469 31 QH 106 394 94 406 84 416 74 426 66 434 78 422 68 432 59 441 64 436 Bảng 3 là thống kê tỷ lệ nhận dạng đúng trong phân lớp sơ bộ đối với hai loại hình dân ca Chèo và Quan họ với số thành phần Gauss M thay đổi như trong Bảng 2. Tỷ lệ nhận dạng đúng phụ thuộc vào sự thay đổi của M và đạt 93,8% đối với loại hình Chèo và 87,2% với loại hình Quan họ khi M = 4096. Bảng 3. Tỷ lệ nhận dạng đúng trong phân lớp sơ bộ với các giá trị của M M 16 32 64 128 256 512 1024 2048 4096 Chèo 83,60% 85,20% 87,20% 89,00% 91,20% 91,00% 91,20% 92,00% 93,80% Quan họ 78,80% 81,20% 83,20% 85,20% 86,80% 84,40% 86,40% 88,20% 87,20% Kết quả của quá trình phân lớp sơ bộ sẽ được dùng làm thông tin phục vụ cho phân lớp chi tiết. Thử nghiệm cũng được tiến hành với số thành phần Gauss M thay đổi từ 16 đến 4096 theo luỹ thừa 2. Ma trận sai nhầm đối với định danh các làn điệu Chèo với giá trị đầu tiên của M được cho trong Bảng 4. Bảng 4. Ma trận sai nhầm trong định danh làn điệu Chèo với M = 16
  5. Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang 399 Bảng 5. Ma trận sai nhầm trong định danh làn điệu Quan họ với M = 16 Bảng 4 là ma trận sai nhầm đối với thử nghiệm định danh dùng M = 16 cho làn điệu Chèo. Từ bảng này ta thấy, tỷ lệ nhận dạng đúng cao nhất đối với làn điệu CH_DTTD đạt 100% và thấp nhất là làn điệu CH_DXN đạt 40,0%. Làn điệu CH_CCHV bị nhận nhầm sang làn điệu CH_DL với tỷ lệ cao nhất là 95,0%. Hầu hết các làn điệu được thử nghiệm đều có sự nhận nhầm lẫn sang nhau. Tuy nhiên, số lượng làn điệu nhận nhầm chủ yếu dưới 40,0% của tổng số các làn điệu. Tỷ lệ định danh đúng trung bình là 67.8%. Ma trận sai nhầm đối với thử nghiệm định danh làn điệu Quan họ với cùng giá trị M = 16 được cho trong Bảng 5. Trong thử nghiệm này, các làn điệu Quan họ có tỷ lệ định danh đúng 100% là QH_CVGCTQ và làn điệu QH_VBM, làn điệu có tỷ lệ định danh đúng thấp nhất là QH_CTX đạt 45,0%. Tỷ lệ định danh đúng trung bình là 78,0%, cao hơn so với định danh các làn điệu Chèo với cùng hệ số M. Bảng 6. Ma trận sai nhầm định danh làn điệu Chèo với M = 4096
  6. 400 PHÂN LỚP, ĐỊNH DANH CHÈO VÀ QUAN HỌ Kết quả thử nghiệm định danh làn điệu Chèo và Quan họ với M = 4096 được cho trong Bảng 6 và Bảng 7. Bảng 6 là ma trận sai nhầm của định danh các làn điệu Chèo. Các làn điệu đều có tỷ lệ định danh đúng khá cao, cao nhất là các làn điệu CH_DTTD và CH_LNC đạt 100%. Làn điệu CH_CNGM có tỷ lệ định danh đúng thấp nhất cũng đạt 65,0%. Trung bình tỷ lệ định danh đúng trong trường hợp này là 81,6%. Bảng 7. Ma trận sai nhầm định danh làn điệu Quan họ với M = 4096 Bảng 7 là ma trận sai nhầm đối với thử nghiệm định danh làn điệu Quan họ dùng số thành phần Gauss M = 4096. Có nhiều làn điệu đạt tỷ lệ định danh đúng 100% như QH_CVGCTQ, QH_DBBMCG, QH_DCSC, QH_NMKN, QH_TETCL và QH_VBM. Tuy nhiên, có làn điệu chỉ đạt tỷ lệ định danh đúng là 50,0% như QH_CTX. Hầu hết các làn điệu đều có sự nhận nhầm lẫn sang nhau, đặc biệt làn điệu QH_NGMD có tỷ lệ nhận nhầm sang các làn điệu QH_CVGCTQ, QH_DQNB và QH_GDCC với tỷ lệ nhận nhầm cao nhất là 70,0%. Tuy vậy, tỷ lệ định danh đúng trung bình trong trường hợp này lại cao hơn so với trường hợp định danh các làn điệu Chèo sử dụng cùng hệ số M và đạt 85,6 %. Hình 1 là tổng hợp kết quả định danh đúng trung bình trong thử nghiệm phân lớp chi tiết các làn điệu Chèo và Quan họ với số thành phần Gauss M thay đổi theo quy luật . Đối với các làn điệu Chèo, tỷ lệ định danh đúng trung bình gần như tăng tuyến tính theo giá trị của M. Còn với các làn điệu Quan họ, tỷ lệ định danh đúng trung bình không thay đổi trong hai giá trị đầu của M. Với hai giá trị tiếp theo của M, tỷ lệ định danh đúng trung bình giảm đi, nhưng từ giá trị M = 256, tỷ lệ định danh đúng trung bình tăng lên theo M và đạt 85,6% khi M = 4096 so với 76,6 % khi M = 128. Hình 1. Kết quả thử nghiệm phân lớp chi tiết với số thành phần Gauss
  7. Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang 401 4.3. So sánh với một số phương pháp khác Trong một nghiên cứu khác của nhóm tác giả đã được công bố [43], thử nghiệm định danh được thực hiện trên bộ dữ liệu gồm 100 trích đoạn của 10 làn điệu dân ca Quan họ Bắc Ninh dùng các phương pháp SMO, MultiLayer Perceptron, MultiClass Classifier. Tỷ lệ nhận dạng đúng trung bình như trong Bảng 8 [43]. Bảng 8. Tổng hợp kết quả thử nghiệm định danh với SMO, MultiLayer Perceptron và MultiClass Classifier Multilayer MultiClass Phương pháp SMO Perceptron Classifier Trung bình tỷ lệ 89% 86% 71% định danh đúng Từ Hình 1 và Bảng 8, tỷ lệ định danh đúng trung bình cao nhất đạt 85,6% khi dùng GMM (M = 4096) trên bộ dữ liệu Quan họ còn thấp hơn so với trung bình tỷ lệ định danh đúng trong hai phương pháp dùng SMO và MultiLayer Perceptron. Tuy nhiên, việc so sánh này chỉ mang tính tương đối, do kích thước bộ dữ liệu và số lượng tham số sử dụng trong các phương pháp định danh là khác nhau. Cụ thể: Bộ dữ liệu sử dụng trong hai phương pháp SMO và MultiLayer Perceptron chỉ bao gồm 100 trích đoạn của 10 làn điệu dân ca Quan họ, mỗi làn điệu 10 file. Trong khi đó, mô hình GMM thử nghiệm trên bộ dữ liệu của hai loại hình dân ca Chèo và Quan họ, mỗi loại hình dân ca có 500 trích đoạn của 25 làn điệu, mỗi làn điệu 20 file. Các phương pháp SMO, MultiLayer Perceptron đều sử dụng đầy đủ 384 hệ số, được trích rút từ bộ công cụ OpenSMILE, trong khi phương pháp GMM chỉ sử dụng 60 hệ số. Với mô hình GMM, việc trích chọn các tham số được thực hiện theo từng khung, trong khi đó SMO, MultiLayer Perceptron, MultiClass Classifier lấy thống kê 384 hệ số cho toàn bộ mỗi file. V. KẾT LUẬN Bài báo đã trình bày các kết quả thử nghiệm sử dụng mô hình GMM để thực hiện hai bài toán. Bài toán thứ nhất là thực hiện phân lớp sơ bộ các làn điệu là thuộc về Chèo hay Quan họ còn bài toán thứ hai là phân lớp chi tiết để định danh làn điệu nào của Chèo hay Quan họ.Tất cả các thử nghiệm đều được tiến hành với số thành phần Gauss M thay đổi theo luỹ thừa 2, từ M = 16 đến M = 4096. Trong thử nghiệm phân lớp sơ bộ, có sự phân định rõ rệt giữa hai loại hình dân ca Chèo và Quan họ, tỷ lệ định danh đúng cao nhất đối với Chèo đạt 93,8% và Quan họ cũng đạt 87,2% với giá trị của M = 4096. Đối với phân lớp chi tiết, khi M = 4096 tỷ lệ định danh đúng trung bình của Quan họ cao hơn so với Chèo. Tỷ lệ nhận dạng đúng trung bình của các làn điệu đạt được ở mức khả quan so với một số hệ thống phân loại âm nhạc đã được thực hiện như [1], [2], [4], [6], [7]. Có thể nói các kết quả của thử nghiệm được trình bày trong bài báo cho thấy tham số của mô hình GMM cần phải được lựa chọn như thế nào để phù hợp cho việc định danh các làn điệu Chèo và Quan họ của Việt Nam. Hướng nghiên cứu tiếp theo là chuẩn hoá hệ thống cơ sở dữ liệu này và thử nghiệm định danh theo độ dài thay đổi của dữ liệu nhận dạng. VI. LỜI CẢM ƠN Nghiên cứu này được tài trợ bởi Trung tâm Nghiên cứu Ứng dụng Khoa học và Công nghệ - Trường Đại học Sư phạm Kỹ thuật Hưng Yên, với đề tài mang mã số UTEHY.T027.P1819.01. Nhóm tác giả xin chân thành cảm ơn Quý Trung tâm về sự hỗ trợ này. VII. TÀI LIỆU THAM KHẢO [1] George, Tzanetakis, Essl Georg, and Cook Perry. “Automatic musical genre classification of audio signals”. Proceedings of the 2nd international symposium on music information retrieval, Indiana. 2001. [2] G. Tzanetakis and P. Cook. Musical genre classification of audio signals. IEEE Transactions on Speech and Audio Processing, 10(5):293-302, 2002. [3] http://marsyasweb.appspot.com/download/data_sets/ [4] Chai, Wei, and Barry Vercoe. “Folk music classification using hidden Markov models”. Proceedings of International Conference on Artificial Intelligence. Vol. 6. No. 6.4. sn, 2001. [5] Bassiou, Nikoletta, Constantine Kotropoulos, and Anastasios Papazoglou-Chalikias. “Greek folk music classification into two genres using lyrics and audio via canonical correlation analysis”. Image and Signal Processing and Analysis (ISPA), 2015 9th International Symposium on. IEEE, 2015. [6] Rajesh, Betsy, and D. G. Bhalke. “Automatic genre classification of Indian Tamil and western music using fractional MFCC”. International Journal of Speech Technology 19.3 (2016): 551-563. [7] Phan Anh Cang, Phan Thượng Cang. “Phân loại nhạc theo thể loại dùng phép biến đổi Wavelet rời rạc”. Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR'9)”, 2016.
  8. 402 PHÂN LỚP, ĐỊNH DANH CHÈO VÀ QUAN HỌ [8] Lê Danh Khiêm, Hoắc Công Huynh, Lê Thị Chung. Không gian văn hoá Quan họ. Nxb. Trung tâm VHTT tỉnh Bắc Ninh, 2006. [9] Hoàng Kiều. Tìm hiểu các làn điệu Chèo cổ. Nxb. Sân khấu - Nhà hát Chèo Việt Nam, 2001. [10] Bùi Đức Hạnh. 150 làn điệu Chèo cổ. Nxb. Văn hoá dân tộc, 2006. [11] Hoàng Kiều, Hà Hoa. Những làn điệu Chèo cổ chọn lọc. Nxb. Văn hoá thông tin, 2007. [12] Nguyễn Thị Tuyết. Giáo trình hát chèo. Nxb. Đại học Sân khấu Điện ảnh Hà Nội, 2000. [13] Nguyễn Thị Tuyết. Tình dậu mà tình ơi. Nxb. Đại học Sân khấu Điện ảnh Hà Nội, 2007. [14] T. Cover and P. Hart. “Nearest neighbor pattern classification”. IEEE Trans. Inf. Theory, vol. 13, no. 1, pp. 21-27, 1967. [15] Sazaki, Yoppy. “Rock Genre Classification using K-Nearest Neighbor”. ICON-CSE 1.1 (2015): 81-84. [16] Fu, Zhouyu, et al.. “A survey of audio-based music classification and annotation”. IEEE transactions on multimedia 13.2 (2011): 303-319. [17] B. E. Boser, I. Guyon, and V. Vapnik. “A training algorithm for optimal margin classifiers” in Proc. ACM Conf. Computational Learning Theory, 1992, pp. 144-152. [18] A. Meng and J. Shawe-Taylor. “An investigation of feature models for music genre classification using the support vector classifier” in Proc. Int. Conf. Music Information Retrieval, 2005. [19] N. Scaringella and G. Zoia. “On the modelling of time information for automatic genre recognition systems in audio signals” in Proc. Int. Conf. Music Information Retrieval, 2005. [20] P. Hamel, S. Wood, and D. Eck. “Automatic identification of instrument classes in polyphonic and poly- instrument audio” in Proc. Int. Conf. Music Information Retrieval, 2009. [21] A. Berenzweig, B. Logan, D. Ellis, and B. Whitman. “A large-scale evaluation of acoustic and subjective music similarity measures” in Proc. Int. Conf. Music Information Retrieval, 2003. [22] T. Li, M. Ogihara, and Q. Li. “A comparative study of content-based music genre classification” in Proc. SIGIR, 2003. [23] C. H. Lin, J. L. Shih, K. M. Yu, and H. S. Lin. “Automatic music genre classification based on modulation spectral analysis of spectral and cepstral features”. IEEE Trans. Multimedia, vol. 11, no. 4, pp. 670-682, 2009. [24] G. Agostini, M. Longari, and E. Pollastri. “Musical instrument timbres classification with spectral features”. EURASIP J. Appl. Signal Process., vol. 2003, no. 1, pp. 5-14, 2003. [25] I. Panagakis, E. Benetos, and C. Kotropoulos. “Music genre classification: A multilinear approach”. in Proc. Int. Conf. Music Information Retrieval, 2008. [26] J. Bergstra, N. Casagrande, D. Erhan, D. Eck, and B. Kegl. “Aggregate features and ada boost for music classification”. Mach. Learn., vol. 65, no. 2-3, pp. 473-484, 2006. [27] Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer, 2013. [28] Stuttle, Matthew Nicholas. A Gaussian mixture model spectral representation for speech recognition. Diss. University of Cambridge, 2003. [29] Bagul, S. G., and R. K. Shastri. “Text independent speaker recognition system using gmm”. International Journal of Scientific and Research Publications 2.10 (2012): 1-5. [30] Kumar, G. Suvarna, et al.. “Speaker recognition using GMM”. International Journal of Engineering Science and Technology 2.6 (2010): 2428-2436. [31] Reynolds, D. and Rose, R. [1995]. Robust text-independent speaker identification using gaussian mixture speaker models. IEEE Transactions on Speech and Audio Processing, vol. 3(1): pp. 72-83. [32] Dustor, Adam, and Pawel Szwarc. “Application of GMM models to spoken language recognition”. Mixed Design of Integrated Circuits & Systems, 2009. MIXDES'09. MIXDES-16th International Conference. IEEE, 2009. [33] Sarmah, Kshirod, and Utpal Bhattacharjee. “GMM based Language Identification using MFCC and SDC Features”. International Journal of Computer Applications 85.5 (2014). [34] Phạm Ngọc Hưng. “Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm”. Luận án Tiến sỹ - Đại học Bách khoa Hà Nội, 2017. [35] Markov, Konstantin, and Tomoko Matsui. “Music genre and emotion recognition using Gaussian processes”. IEEE access 2 (2014): 688-697. [36] Eggink, Jana, and Guy J. Brown. “A missing feature approach to instrument identification in polyphonic music”. Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP'03). 2003 IEEE International Conference on. Vol. 5. IEEE, 2003.
  9. Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang 403 [37] Heittola, T. and Klapuri, A. [2002]. Locating segments with drums in music signals. In Proceeding of the 3rd International Conference on Music Information Retrieval. pp. 271-272. [38] Marolt, M. [2004]. Gaussian mixture models for extraction of melodic lines from audio recordings. In Proceedings of the 2004 International Conference on Music Information Retrieval. [39] Thiruvengatanadhan, R., and P. Dhanalakshmi. “Indexing and Retrieval of Music using Gaussian Mixture Model Techniques”. International Journal of Computer Applications 148.3 (2016). [40] http://www.irisa.fr/metiss/guig/spro/spro-4.0.1/spro_1.html#SEC1 [41] Jean-Franҫois Bonastre, Frédéric Wils (2005) ALIZE, A FREE TOOLKIT FOR SPEAKER RECOGNITION. IEEE International Conference, pp. I 737 - I 740. [42] Tommie Gannert (2007). A Speaker Verification System under the Scope: Alize. Stockholm, Sweden School of Computer Science and Engineering. [43] Chu Bá Thành, Trịnh Văn Loan, Nguyễn Hồng Quang. “Định danh tự động một số làn điệu dân ca Việt Nam”. Kỷ yếu Hội thảo quốc gia lần thứ XIX: Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông (@), pp.92- 97, 2016. CLASSIFICATION AND IDENTIFICATION OF CHEO AND QUAN HO BAC NINH FOLK SONGS Chu Ba Thanh, Trinh Van Loan, Nguyen Hong Quang ABSTRACT: With the growth of digital music databases, automatic genre classification is of great importance in automating the process of storing, searching and retrieving music data. Vietnam is a multi-ethnic country, with a rich culture, rich in identity, so the Vietnamese folk are various and rich. Among the types of folk songs in Vietnam, Cheo and Quan ho are two popular folk types with the number of richer tunes. The paper presents a method of classifying and identifying the Cheo and Quan ho tunes using the Gaussian Mixture Model (GMM) with the model parameters being the MFCC (Mel Frequency Cepstral Coefficients) combined with energy. The results show that there is a relatively clear classification between the two types of folk, the average exact score increases by the number of Gaussian components and is very satisfactory.
nguon tai.lieu . vn