Xem mẫu

  1. HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ Nghệ Thông Thông TinTin (ECIT (ECIT 2015) 2015) Kỹ Thuật Tra Cứu Ảnh Cây Dược Liệu Dựa Vào Nội Dung Phục Vụ Cho Phát Hiện, Quản Lý Và Khai Thác Nguyễn Văn Huân và Nguyễn Văn Tảo Trường Đại Học Công Nghệ Thông Tin và Truyền Thông – Đại Học Thái Nguyên Email: nvhuan@ictu.edu.vn, nvtao@ictu.edu.vn Abstract—Bài báo này đề xuất việc nghiên cứu và áp dụng kỹ lá cây được nhận dạng sẽ được trích đường viền đặc trưng sau thuật tra cứu ảnh về cây dược liệu theo nội dung sử dụng dấu đó so sánh với các mẫu lá cây có trong cơ sở dữ liệu. hiệu nhị phân của ảnh như xác định véc tơ đặc trưng, biểu diễn Tuy nhiên, khi số lượng ảnh được lưu trữ trở nên rất lớn thì và trích rút đặc trưng và tính độ tương tự nhằm hỗ trợ cho công vấn đề đặt ra là phải có những phương pháp tổ chức cơ sở dữ tác tìm kiếm, nhận dạng và phát hiện về cây dược liệu. Đồng thời, liệu ảnh tốt cùng với những kỹ thuật tra cứu, tra cứu ảnh hiệu đề xuất cài đặt ứng dụng thực nghiệm có sử dụng kỹ thuật tra cứu ảnh cây dược liệu vào phục vụ cho việc quản lý, khai thác và quả, có độ chính xác cao và có hiệu năng tốt mới đáp ứng được duy trì một cách có hiệu quả các nguồn cây dược liệu của Việt nhu cầu ngày càng cao của con người. Việc xây dựng các hệ Nam. Kết quả đề xuất này sẽ góp phần giúp cho các nhà quản lý, thống tra cứu ảnh là rất cần thiết. Trong thực tế, bài toán tra nhà dược liệu có được một công cụ hữu ích nhằm theo dõi, thống cứu ảnh số có rất nhiều ứng dụng quan trọng. Ví dụ trong lĩnh kê, nhận dạng và quản lý cây dược liệu một cách hiệu quả. vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ ký đã được lưu trữ sẵn có thể thực hiện rất nhanh và chính Keywords- Cây dược liệu, Véc tơ đặc trưng, Tính độ tương tự, xác nếu có được một phần mềm so sánh mẫu chữ ký tốt. Các Đo khoảng cách. ứng dụng phức tạp hơn như so sánh mẫu vân tay, tra cứu ảnh tội phạm v.v... là những bài toán tra cứu ảnh được áp dụng I. GIỚI THIỆU trong ngành khoa học hình sự. Cây thuốc (cây dược liệu) có một vai trò quan trọng đối với Phần còn lại của bài báo được tổ chức như sau: trong phần đời sống của mỗi con người, đặc biệt trong chăm sóc sức khỏe. II, chúng tôi trình bày kỹ thuật đề xuất. Trong phần III, chúng Ngày nay, cây dược liệu đã được con người phát hiện, nhận tôi đưa ra kết quả thực nghiệm. Phần IV đánh giá kết quả và dạng và khai thác trên cơ sở công dụng của chúng đối với đời phân tích lý thuyết. Cuối cùng, chúng tôi kết luận bài báo sống chúng ta, đặc biệt là cây dược liệu đem lại giá trị kinh tế trong phần V. cao. Tuy nhiên hiện nay, nguồn cây dược liệu đang ngày càng II. KỸ THUẬT TRA CỨU ẢNH CÂY DƯỢC LIỆU bị cạn kiệt do nhiều nguyên nhân. Việc ứng dụng Công nghệ thông tin vào quản lý các loài cây dược liệu đã được phát hiện THEO NỘI DUNG DỰA VÀO DẤU HIỆU NHỊ PHÂN không còn là mới, tuy nhiên ứng dụng vào phát hiện và tra cứu, Trong bài báo sử dụng kỹ thuật tra cứu ảnh cây dược liệu theo cụ thể là kỹ thuật xử lý ảnh [3] hiện nay không có nhiều. nội dung dựa vào dấu hiệu nhị phân và vector đặc trưng. Liên quan tới vấn đề cây dược liệu và nhận dạng lá cây có - Dựa vào dấu hiệu nhị phân: một số công trình, bài báo trong và ngoài nước đã nghiên cứu Việc lưu trữ các đặc trưng của ảnh có thể sẽ tốn rất nhiều vấn đề này như công trình nghiên cứu của tác giả Đỗ Tất Lợi không gian lưu trữ. Để giảm bớt việc tiêu tốn không gian lưu [4] cây dược liệu có vai trò rất quan trọng đối với cuộc sống trữ, tác giả sử dụng dấu hiệu nhị phân, là các chuỗi bit nhị phân của mỗi chúng ta, nó là nguyên liệu để chăm sóc sức khỏe con có kích thước được xác định trước đại diện cho sự phân bố màu người và góp phần phát triển kinh tế. Trong công trình nghiên sắc của một hình ảnh. Khi ta tra cứu ảnh, giả định rằng dấu cứu của tác giả cũng đã chỉ ra nhiều loài cây dược liệu với hiệu nhị phân của hình ảnh được lưu trữ tuần tự trong một tập những công dụng quan trọng. Trong các công trình nghiên cứu tin. Để xử lý một tra cứu, tập tin được quét và tất cả các dấu của nhóm tác giả K. Lee và cộng sự [8], A. Bhardwaj và cộng hiệu nhị phân của hình ảnh được so sánh với dấu hiệu nhị phân sự [1], C. Sari [2] đã sử dụng kỹ thuật nhận dạng dựa vào của các hình ảnh tra cứu bằng cách sử dụng một số liệu tương đường viền và hình dạng của lá để nhận dạng lá cây. Kết quả tự cũng được xác định. Các hình ảnh được so sánh sẽ được lấy bài báo đã nhận dạng và phát hiện với khoảng gần 2000 lá của ra và xếp hạng theo tương đồng với hình ảnh truy vấn. 32 loài cây khác nhau. Công trình nghiên cứu của nhóm tác giả Hệ thống tra cứu ảnh dựa vào dấu hiệu nhị phân gồm hai pha. Patil và cộng sự [10] đã sử dụng kỹ thuật nhận dạng ảnh dựa Pha thứ nhất, tạo cơ sở dữ liệu đặc trưng. Các ảnh trong cơ sở vào mầu, cấu trúc và hình dạng của ảnh. Một cơ sở dữ liệu ảnh dữ liệu được xác định để lấy các vector đặc trưng, các đặc gồm các thông tin như trên được tạo và ảnh cần nhận dạng sẽ trưng được trích rút thành một cơ sở dữ liệu đặc trưng. Pha thứ được trích rút các đặc trưng và so sánh với những ảnh mẫu hai, truy vấn cơ sở dữ liệu. Khi ảnh cây dược liệu cần truy vấn trong cơ sở dữ liệu ảnh. Kết quả nghiên cứu của nhóm tác giả được đưa vào hệ thống, nó sẽ được xác định vector đặc trưng và J. Du và cộng sự [6], [5,7,9] đã sử dụng kỹ thuật phân lớp các được đối sánh với các đặc trưng của các ảnh cây dược liệu mẫu. lá cây. Các lá cây mẫu được phân lớp và lưu vào cơ sở dữ liệu, ISBN: 978-604-67-0635-9 353 353
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hình 1. Kiến trúc của kỹ thuật tra cứu ảnh cây dược liệu sử dụng dấu hiệu nhị phân Trong đó, pos( BQj ), pos( B I ) là các vị trí của các bit được j Các đặc trưng của ảnh lá cây dược liệu truy vấn được so sánh với các đặc trưng của tất cả các ảnh lá của cây dược liệu mẫu thiết lập trong chuỗi dấu hiệu nhị phân của ảnh Q và I (hay các sử dụng độ đo tương tự. Vì thế, ba quá trình quan trọng trong bin được thiết lập) bin Bj của hình ảnh Q và I. hệ thống tra cứu ảnh theo nội dung sử dụng dấu hiệu nhị phân 1 2 3 là: xác định vector đặc trưng; biểu diễn, trích rút đặc trưng và Ta có pos( B A = 2, pos( B A ) = 1,và pos( B A ) = 8. Tuy tính độ tương tự. nhiên phương pháp này không mạnh mẽ và không thể hiện - Đo độ tương tự: được sự khác biệt rõ ràng của các ảnh. Để minh họa cho thuật Khi ta đưa một ảnh lá cây dược liệu vào để thực hiện tra cứu, toán ta xét dấu hiệu nhị phân của ba ảnh A, B và C. đầu tiên ảnh đầu vào cũng được xác định chuỗi dấu hiệu nhị Ta thấy mật độ màu (cột thứ hai trong bảng), hình ảnh A và C phân của nó. Tiếp theo chuỗi đó sẽ được so sánh với tập các là tương tự như nhau hơn so với hình ảnh A và B. Tuy nhiên, chuỗi dấu hiệu nhị phân của tập ảnh lá cây dược liệu mẫu. Nó chúng ta có: d0(A, B) = (4 - 4) + (4-4) + (5 - 3) = 2 và d0 (A, là cơ bản của việc tính toán độ tương tự giữa các chuỗi dấu C) = (4 - 3) + (4-3) + (5-5) = 2, điều này cho thấy rằng cả ảnh hiệu nhị phân của hình ảnh lá cây dược liệu truy vấn được B và C đều có giá trị như nhau tương tự như ảnh A, do đó trái người dùng chỉ định và tất cả các hình ảnh lá cây dược liệu ngược với trực giác. Nhưng nếu chúng ta bình phương khoảng mẫu khác. Ngay từ đầu, tôi sử dụng các phương pháp sau đây cách giữa các bộ số nhị phân, chúng ta có thể có thấy được sự để tính độ tương tự giữa ảnh truy vấn và ảnh mẫu: khác biệt rõ ràng của các hình ảnh. Và khoảng cách giữa các n bộ số nhị phân là: d 0 (Q, I ) ( pos( BQj ) pos( BIj ) j 1 (1) 354 354
  3. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Bảng 1. Chuỗi dấu hiệu nhị phân minh họa sự giống và khác nhau của ảnh Bin màu sắc Mật độ màu Dấu hiệu nhị phân được thiết b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 lập Ảnh A c1/B1A 30% 0 0 0 1 0 0 0 0 0 0 2 c2/B A 30% 0 0 0 1 0 0 0 0 0 0 c3/B3A 40% 0 0 0 0 1 0 0 0 0 0 Ảnh B c1/B1B 39% 0 0 0 1 0 0 0 0 0 0 2 c2/B B 39% 0 0 0 1 0 0 0 0 0 0 3 c3/B B 22% 0 0 1 0 0 0 0 0 0 0 Ảnh C 1 c1/B C 29% 0 0 1 0 0 0 0 0 0 0 c2/B2C 29% 0 0 1 0 0 0 0 0 0 0 3 c3/B C 42% 0 0 0 0 1 0 0 0 0 0 Thuật toán tính độ tương tự giữa hai ảnh Q và I: III. KẾT QUẢ THỰC NGHIỆM Đầu vào: Các chuỗi dấu hiệu nhị phân của ảnh Q và I Bài toán đặt ra là khi người sử dụng cung cấp một ảnh lá cây Đầu ra: Khoảng cách d(Q, I) dược liệu cần tra cứu. Hệ thống có nhiệm vụ tìm kiếm trong dữ liệu ảnh lá cây dược liệu đã có và đưa ra kết quả là tỷ lệ độ j Tìm Pos( BQ ) và Pos( B I ) j tương đồng của ảnh cần truy vấn với các ảnh trong cơ sở dữ liệu ảnh. j j Pos( BQ ) và Pos( B I ) là các vị trí của các bit được Ban đầu, ảnh lá cây dược liệu mẫu sẽ được tiền xử lý (bởi công đoạn tiền xử lý) để trích rút các véc tơ đặc trưng. Công thiết lập trong chuỗi dấu hiệu nhị phân của ảnh Q và I (hay đoạn tra cứu nhận dạng ảnh lá cây dược liệu được truy vấn từ các bin được thiết lập) bin Bj của hình ảnh Q và I. người sử dụng thông qua giao diện đồ họa, trích rút các véc tơ Tính khoảng cách d(Q, I) đặc trưng từ ảnh truy vấn, so sánh với các cụm đặc trưng của ảnh lá cây dược liệu mẫu trong cơ sở dữ liệu ảnh và trả về các n ảnh có độ tương tự lớn nhất với ảnh truy vấn. j [pos ( BQ ) – pos ( B I )]2 - Công đoạn tiền xử lý được thực hiện như sau: j d(Q, I)= (2) j 1 Thông qua bước này, ảnh truy vấn sẽ được loại bỏ những thông tin nhiễu hay những thông tin không cần thiết. Tập ảnh Return d(Q, I). thô ban đầu được xử lý lưu trữ dưới các định dạng .JPG, .JPEG, hay .GIF để giảm độ lớn dung lượng khi lưu vào cơ sở Nhận xét: Bằng cách sử dụng các khoảng cách tương tự thu dữ liệu ảnh. Kích thước của ảnh cũng được giảm xuống còn được, các thiết lập hình ảnh sau đó được sắp xếp lại đối với 1x1 cm. Tại công đoạn này ảnh được truy vấn sau loại bỏ khoảng cách tăng dần của các ảnh lá cây dược liệu mẫu (so nhiễu sẽ được trích rút vector đặc trưng của ảnh và biểu diễn với hình ảnh truy vấn) và ảnh nào có khoảng cách tương tự so hình ảnh dưới dạng chuỗi dấu hiệu nhị phân. với ảnh truy vấn nhỏ nhất, nó chính là ảnh giống với ảnh truy Hình 2 dưới đây sẽ minh họa quá trình tiền xử lý ảnh, cụ thể: vấn nhất. với các tập ảnh thô thu nhận được bằng cách sử dụng máy ảnh, Trước khi ảnh lá cây dược liệu được cho vào cơ sở dữ liệu ảnh scanner,… Sau đó, chúng ta sử dụng các công cụ như và ảnh truy vấn, ảnh lá cây sẽ được tiền xử lý. Ảnh lá cây dược Photoshop, Paint,… xử lý các ảnh thô về các ảnh tinh với kích liệu thu được ở giai đoạn thu nhận ảnh vẫn còn nhiều “nhiễu” thước 1x1 cm để phục vụ cho quá trình nhận dạng và tra cứu làm cho quá trình nhận dạng ảnh và quản lý phức tạp gây chậm sau này. hệ thống, do đó cần phải xử lý trước khi trích rút các đặc trưng. 355 355
  4. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hình 2. Tiền xử lý ảnh dữ liệu - Công đoạn tra cứu được thực hiện như sau: Người sử dụng cung cấp cho hệ thống ảnh truy vấn thông qua Chuỗi dấu hiệu nhị phân của ảnh truy vấn sẽ được so sánh với giao diện đồ họa. Sau đó hệ thống phân đoạn ảnh truy vấn chuỗi dấu hiệu nhị phân của các ảnh trong cơ sở dữ liệu. Kết thành các vùng ảnh và trích rút các véc tơ đặc trưng của các quả trả về là tập các ảnh có độ tương tự với ảnh truy vấn nhất. ảnh. Tập ảnh kết quả được phân hạng theo thứ tự giảm dần của độ tương tự. Hình 3. Hiển thị kết quả tra cứu Hình 3 ở trên cho biết, với ảnh nguồn đưa vào (Source) và ảnh Đồng thời, hiển thị ra kết quả là các ảnh đích được sắp xếp theo thứ tự từ ảnh có độ chính xác cao đến độ chính xác thấp hơn so đích – kết quả cần tìm (Destination). Sau đó, thực hiện tra cứu, với ảnh nguồn. trong quá trình thực hiện tra cứu, hệ thống sẽ hiện thị ra độ tương tự giữa hai ảnh nguồn và đích dưới dạng biểu đồ. 356 356
  5. HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) IV. ĐÁNH GIÁ KẾT QUẢ thấy độ chính xác ứng với số lượng ảnh nguồn là 20; 30; Chương trình thử nghiệm được xây dựng dựa trên kỹ thuật tra 50 sẽ cho kết quả tương ứng là 52%; 50%; 45%. Như vậy, cứu ảnh sử dụng dấu hiệu nhị phân của màu. Với kết quả của kỹ với kết quả này khẳng định là độ chính xác của kết quả thuật tra cứu này sẽ góp phần giúp cho các nhà quản lý, nhà truy vấn là tương đối cao nghiên cứu dược liệu có những giải pháp nhận dạng, xử lý và Nhận xét: Qua ba nhóm dữ liệu cuả ba nhóm nguồn ảnh thử phát hiện những cây dược liệu quý một cách nhanh chóng, hiệu nghiệm đầu vào trên, cho thấy qua những lần thử nghiệm khác quả trên cơ sở những đặc trưng, đặc tính và công dụng của nhau với số lượng ảnh nguồn đầu vào tăng dần khác nhau thì chúng. kết quả cho thấy độ chính xác trong kết quả nhận dạng, tra cứu Ảnh lá cây dược liệu đầu vào được thực hiện với các loài cây sẽ giảm dần. như Rau má, Ráy, Diệp hạ châu,… Mỗi ảnh cần truy vấn sẽ được thực hiện tối thiểu 3 lần tương ứng với số lượng ảnh lá V. KẾT LUẬN cây dược liệu nguồn đầu vào lần lượt là 20, 30 và 50 lá. Bảng 2. Kết quả thực hiện truy vấn Cây dược liệu là một trong những loài cây không chỉ có vai trò hết sức quan trọng trong chăm sóc sức khỏe cho con người, Lần Số lượng ảnh Kết quả động vật,… mà còn đem lại giá trị kinh tế cao cho đất nước. STT Ảnh đầu vào Nhằm tìm kiếm, khai thác, sử dụng, bảo vệ, quản lý, duy trì và thử nguồn (%) phát triển một cách hiệu cây dược liệu của Việt Nam. Trong bài báo này, chúng tôi đã nghiên cứu và đề xuất áp dụng kỹ 1 20 98 thuật tra cứu ảnh dựa vào nội dung sử dụng dấu hiệu nhị phân và véc tơ đặc trưng vào thực hiện truy vấn ảnh lá cây dược liệu. 1 2 Rau má 30 98 Kết quả của bài báo đã đánh giá được tỷ lệ phần trăm độ tương tự khi thực hiện truy vấn ảnh lá cây dược liệu đối với kho dữ 3 50 97 liệu ảnh mẫu được xây dựng thông qua các công đoạn từ việc thu thập ảnh, tiền xử lý đến thực hiện trích chon các đặc trưng 1 20 54 của ảnh. Kết quả của bài báo có thể giúp cho các nhà quản lý xem xét và áp dụng vào quy trình quản lý, bảo tồn các loài cây 2 2 Ráy 30 53 quý hiếm đặc biệt là các loài cây dược liệu quý một cách hiệu quả hơn. 3 50 47 Kết quả của bài báo đã được cài đặt, thử nghiệm và đánh giá thông qua hệ thống phần mềm và kết quả cho thấy độ chính 1 20 52 xác cao, bước đầu đã thấy khả quan. 3 2 Diệp hạ châu 30 50 TÀI LIỆU THAM KHẢO [1] A. Bhardwaj, M. Kaur, and A. Kumar, “Recognition of plants by Leaf Image 3 50 45 using Moment Invariant and Texture Analysis”, International Journal of Innovation and Applied Studies, Vol. 3, No. 1, pp. 237-248, 2013. Kết quả truy vấn là tỷ lệ phần trăn độ tương đồng của ảnh truy [2] C. Sari. (2013), “Shape Based Leaf Recognition”, Proceedings of Sistem ve Kontrol Mühendisli˘gi Bölümü. vấn với cơ sở dữ liệu ảnh nguồn. Tỷ lệ phần trăm càng lớn có [3] Đỗ Năng Toàn, Phạm Việt Bình, Xử lý ảnh (Nhà xuất bản Khoa học và nghĩa là ảnh cây dược liệu cần truy vấn càng giống với bộ ảnh kỹ thuật), 2008. dữ liệu đầu vào. [4] Đỗ Tất Lợi, Những cây thuốc và vị thuốc Việt Nam, NXB Y Học, 2004. Trong bảng 2. Minh họa độ chính xác của kết quả thử nghiệm [5] H. Ehsanirad and S. Kumar Y, “Leaf recognition for plant classification using GLCM and PCA methods”, Oriental Journal of Computer Science trên ba nhóm dữ liệu đầu vào: & Technology, Vol. 3, No 1, pp. 36-38, 2010. - Nhóm 1: Ảnh đầu vào là Rau má với ba lần thử nghiệm [6] J. Du, X. Wang and G. Zhang, “Leaf shape based plant species recognition”, Applied Mathematics and Computation, Vol. 185, No với số lượng ảnh nguồn khác nhau. Kết quả cho thấy độ 2007, pp. 883-893, 2007. chính xác ứng với số lượng ảnh nguồn là 20; 30; 50 sẽ cho [7] J. Chaki and R. Parekh, “Plant Leaf Recognition using Shape based kết quả tương ứng là 98%; 98%; 97%. Như vậy, với kết Features and Neural Network classifiers”, International Journal of quả này khẳng định là độ chính xác của kết quả truy vấn là Advanced Computer Science and Applications, Vol. 2, No. 10, 2011. tương đối cao. [8] K. Lee, K. Hong, “Advanced Leaf Recognition based on Leaf Contour and Centroid for Plant Classification”, International Journal of Bio- - Nhóm 2: Ảnh đầu vào là Ráy với ba lần thử nghiệm với số Science and Bio-Technology, Vol. 5, No. 2, 2012. lượng ảnh nguồn khác nhau. Kết quả cho thấy độ chính [9] N.Valliammal and Dr.S.N.Geethalakshmi, “Automatic Recognition xác ứng với số lượng ảnh nguồn là 20; 30; 50 sẽ cho kết System Using Preferential Image Segmentation For Leaf And Flower Images”, Computer Science & Engineering: An International Journal quả tương ứng là 54%; 53%; 47%. Như vậy, với kết quả (CSEIJ), Vol.1, No.4, 2011. này khẳng định là độ chính xác của kết quả truy vấn là cao. [10] S. R Raj, V. R Patil, P.S Jaiswal, N. Subhash, Plant regeneration from leaf explants of mature sandalwood (Santalum album L.) trees under in - Nhóm 3: Ảnh đầu vào là Diệp Hạ Châu với ba lần thử vitro conditions. In Vitro Cell. Dev. Biol. Plant 49, 216–222, 2013. nghiệm với số lượng ảnh nguồn khác nhau. Kết quả cho 357 357
nguon tai.lieu . vn