Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00019 ĐỊNH NGHĨA MỘT SỐ CHỈ SỐ CHUYÊN MÔN CHO CÁC NHÀ KHOA HỌC LÀM NHIỆM VỤ ĐÁNH GIÁ NGANG HÀNG TRONG CÁC HỘI NGHỊ CHUYÊN NGÀNH Trần Hồng Diệp, Nguyễn Văn Cường Trường ĐH Lâm nghiệp Việt Nam TOM TẮT. Việc tổ chức các hội nghị khoa học, hội nghị chuyên ngành đang là một giải pháp đặc biệt hữu hiệu đáp ứng nhu cầu công bố các phát kiến khoa học của các nhà nghiên cứu trên thế giới ngày nay. Việc xem xét và chấp nhận các bản thảo gửi đến hội nghị thông thường được thực hiện bởi Ủy ban chương trình của hội nghị đó. Như vậy, ban chương trình này có tầm ảnh hưởng quyết định đến chất lượng của hội nghị. Thực tế cho thấy, gọi các chuyên gia nghiên cứu để thành lập các Ủy ban chương trình hàng năm vẫn là một nhiệm vụ rất khó khăn và nặng nề cho chức Giáo sư - Chủ tịch Ủy ban chương trình, để trả lời câu hỏi: Những nhà nghiên cứu nào là thích đáng hơn cả về chuyên môn để trở thành thành viên của Ủy ban chương trình của một hội nghị sắp diễn ra? Trong nghiên cứu của mình, chúng tôi bước đầu tìm kiếm một phương pháp mô hình hóa nhằm định nghĩa một vài chỉ số về mặt chuyên môn khoa học trên các nhà nghiên cứu với tiêu chí xếp hạng sự phù hợp của họ đối với nhiệm vụ làm thành viên Ủy ban chương trình của hội nghị đang xét. I. GIỚI THIỆU Chúng ta có gì làm “thước” để đo xem: chuyên môn khoa học của một nhà khoa học là gì, khác hay giống chuyên môn của một nhà khoa học khác. Hoặc là đo đếm sự uyên thâm của nhà nghiên cứu này là bao nhiêu, nhiều hay ít hơn của một nhà nghiên cứu khác cùng lĩnh vực? Vấn đề tương tự cũng xảy ra khi so sánh và “cân đo” nội dung chuyên môn của các đối tượng chuyên môn khác như các bài báo khoa học, các nhà xuất bản hay các trường đại học... Dù rằng vô cùng khó để đánh giá một cách đầy đủ, nhất là chúng ta mong muốn việc đánh giá này được thực hiện bằng một hệ thống tự động. Tuy thế, trong mọi lĩnh vưc chuyên môn, người ta luôn mong muốn có thể đánh giá một cách định lượng để phân loại hay xếp hạng các đối tượng này. Ngày nay, mong muốn này đã hoàn toàn có cơ sở để thực hiện, dựa trên sự phát triển mạnh mẽ của các phương pháp thu hồi thông tin (IR - Information Retrieval) và sự đầy đủ thông tin từ rất nhiều các thư viện số trên internet. Lĩnh vực Tìm kiếm chuyên gia (ER - Expertise Retrieval) và Scientometrie là một hướng nghiên cứu phát triển mạnh mẽ khoảng trên chục năm lại đây, nghiên cứu giải quyết vấn đề này. Theo đó, một trong các nhiệm vụ quan trọng của nó là phát hiện các chỉ số đánh giá (Indicators - Scientometric Indicators) cho mỗi trường hợp cụ thể. Lấy ví dụ về chỉ số Hirsch nổi tiếng [6]. Mặc dù trong các nghiên cứu sau này, các nhà khoa học cũng đã chỉ ra rằng chỉ số này tồn tại những bất cập làm sai lệch thước đo đánh giá. Nhưng cho đến nay chỉ số Hirsch vẫn được cộng đồng các nhà khoa học toàn thế giới coi là thước đo căn bản nhất đo sự cống hiến và uy tín chuyên môn của các nhà nghiên cứu. Bên cạnh đó, các nghiên cứu này cũng chỉ ra rằng mỗi chỉ số đưa ra đều chỉ có một phạm vi đánh giá khá hạn chế. Có nghĩa là, để phát hiện chỉ số đánh giá cho mỗi mục đích đánh giá càng cụ thể, càng hẹp thì hiệu quả đánh giá của chỉ số đó càng cao (chỉ số cục bộ). Chúng ta đều biết rằng sự đọc các nghiên cứu đã công bố là tiền đề quan trọng cho các nhà nghiên cứu tiếp tục các phát minh khoa học. Nghĩa là các phát kiến của các nhà nghiên cứu càng được thẩm định tốt và nhanh chóng đưa đến cộng đồng, càng thúc đẩy sự phát triển của khoa học. Đây chính là tác động quan trọng của các hệ thống xuất bản, công bố các công trình khoa học như tạp chí chuyên ngành hay các hội nghị khoa học thường niên v.v. Trong bối cảnh ngày nay, nhu cầu công bố các công trình khoa học là cực lớn, song với số lượng hạn chế cũng như quá trình thẩm định bản thảo có những bất cập nhất định trong các tạp chí chuyên ngành, thì việc mở các hội nghị khoa học thường niên (professional conference) là một giải pháp hữu hiệu, nhất là trong các lĩnh vực khoa học kỹ thuật có tốc độ phát triển nhanh chóng, ví dụ như ngành khoa học máy tính. Thực tế cho thấy hiện nay có một số lượng rất lớn các hội nghị, hội thảo khoa học được tổ chức hàng năm trên khắp thế giới, cùng với nó là một lượng khổng lồ các công trình khoa học được công bố. Trong nhiều ngành, phương thức công bố này được coi là phương án lựa chọn đầu tiên khi nhà nghiên cứu có một công trình cần công bố. Ở đây chúng tôi bàn về các hội nghị khoa học mà xuất bản toàn văn các công trình nghiên cứu và có sự thẩm định của một hội đồng chuyên môn uy tín. Đến đây, một vấn đề được đặt ra là Chất lượng của các công bố này sẽ thế nào, khi mà việc thẩm định và in ấn nhanh và nhiều đến vậy? Đến nay, đã có rất nhiều các nghiên cứu nghiêm túc bàn về quy trình xuất bản của các hội nghị (kỷ yếu hội nghị) cùng với các ưu điểm cũng như các vấn đề còn tồn tại của nó. Nhưng dù thế nào, chúng ta vẫn khẳng định rằng, chất lượng của công bố chịu ảnh hưởng lớn vào tập thể các nhà thẩm định, mà trong các hội thảo
  2. Trần Hồng Diệp, Nguyễn Văn Cường 147 chuyên ngành thường gọi là Ủy ban chương trình - Program Committee (trách nhiệm tương tự ban biên tập của các tạp chí chuyên ngành - Journal Editor Board). Về lý thuyết, các nhà nghiên cứu được mời tham gia Ủy ban chương trình của một hội nghị phải là những chuyên gia khoa học có uy tín trong cộng đồng về lĩnh vực mà hội thảo đang xem xét. Thông thường hàng năm, Ủy ban chương trình của một hội nghị được tái thành lập bởi vị chủ tịch hiện tại của Ủy ban này, tức là các lời mời tham gia Ủy ban đều dựa trên ý kiến chủ quan của ông chủ tịch. Ngoại trừ sự thiên vị có thể xảy ra, thì có tồn tại những khó khăn cho vị chủ tịch khi phát lời kêu gọi tham gia Ủy ban: 1) Vị chủ tịch này khó mà “quen” tất cả các nhà nghiên cứu (nhất là những nhà nghiên cứu mới nổi lên) trong chính lĩnh vực của ông ta! và 2) Dù có quen hết thì vị chủ tịch này không có một căn cứ định lượng để đánh giá rằng nhà nghiên cứu này “tốt hơn” nhà nghiên cứu kia trong chuyên môn đang xem xét. Vì thế, đây rõ ràng là một nhiệm vụ nặng nề, nhất là trong trường hợp các hội nghị uy tín với số lượng lớn các bản thảo nộp đến. Ví dụ, các hội nghị CIKM, SIGIR, WWW v.v. có số lượng thành viên Ủy ban lên đến vài trăm người. Trong nội dung bài viết này chúng tôi đề cập đến một phương pháp mô hình hóa chuyên môn (Expertise modelling) trong môi trường học thuật và từ đó định nghĩa một số chỉ số chuyên môn nhằm mục đích đề xuất thành viên Ủy ban chương trình cho một hội nghị khoa học đưa ra. Theo hiểu biết của chúng tôi, đến nay chưa có một nghiên cứu nào định nghĩa các chỉ số scientometric cho các nhà khoa học là nhiệm vụ đánh giá ngang hàng trong các hội nghị chuyên ngành. Trong phần II Các nghiên cứu liên quan, chúng tôi trình bày về các nghiên cứu liên quan, đồng thời phân tích các ưu, nhược điểm để kế thừa và khắc phục để đưa ra đề xuất của chúng tôi. Phần III tiếp sau, chúng tôi trình bày cụ thể mô hình của chúng tôi đề xuất. Phần IV chúng tôi trình bày thử nghiệm trên mô hình đề xuất. Việc thử nghiệm sử dụng hoàn toàn các dữ liệu công khai và miễn phí của hội nghị ACM SIGIR - International Conference on Research and Development in Information Retrieval, một hội nghị danh giá của ngành khoa học máy tính. II. CÁC NGHIÊN CỨU LIÊN QUAN Bài viết này của chúng tôi, trước tiên liên quan đến lĩnh vực Tìm kiếm chuyên gia (ER - Expertise/Expert Retrieval) hay còn được biết đến với thuật ngữ Định vị chuyên môn (Expertise Location) là một lĩnh vực đã từng được coi là nhiệm vụ không thể thay thế của chuyên gia con người. Tức là khó mà tự động hóa được nhiệm vụ này. K. Balog và các đồng sự [2] đã chỉ ra bốn khó khăn cơ bản nhất cho tự động hóa nhiệm vụ tìm kiếm chuyên gia: 1) Các chuyên gia ứng cử viên không đại diện cho đơn vị tìm kiếm: họ được định nghĩa thông qua các đối tượng đại diện cho họ, ví dụ, thông qua các công bố của họ, thông qua các mối quan hệ tác giả, trích nguồn tham khảo (trích dẫn),… 2) Tên của chuyên gia thường hay nhập nhằng: tên của họ có thể đề cập đầy đủ hoặc không đầy đủ trong các công trình khác nhau, đồng thời cũng có những cái tên mà không phải của duy nhất một người. 3) Các bằng chứng thể hiện nội dung chuyên môn (sau đây chúng tôi gọi là Bằng chứng chuyên môn - Expertise Evidence) của các chuyên gia đến từ các nguồn không đồng nhất: họ có thể bàn về chuyên môn của họ trong các email công việc hoặc trong các ấn phẩm khoa học. Tuy nhiên ý nghĩa nặng nhẹ về mặt chuyên môn của hai văn bản này là khác nhau. 4) Và một thách thức quan trọng nữa là việc định lượng sức mạnh của mối liên kết giữa một chuyên gia với các bằng chứng khoa học của chuyên gia đó là một vấn đề hết sức phức tạp. Mặc dù các khó khăn tưởng chừng khó có thể vượt qua, song các biện pháp tìm kiếm chuyên gia tự động đã khá phát triển ([2], [8]), nhất là sau nhiệm vụ được đưa ra bởi TREC Enterprise Track [3]. Do vấn đề tìm kiếm chuyên gia được phát triển xem như một nhánh của Tìm kiếm thông tin (IR - Information Retrieval), do vậy hầu hết các biện pháp tìm kiếm chuyên gia hiện nay là các phương pháp tiếp cận cơ bản của IR: các Mô hình xác suất sinh (Generative probabilistic models) và các Mô hình phân biệt (Discriminative models). Ngoài ra, một số cách tiếp cận khác cũng đã được đề cập, ví dụ Mô hình bầu cử (Voting models) hay Mô hình dựa trên đồ thị (Graph-based models) [2]. Về tổng thể các mô hình này sử dụng chủ yếu các bằng chứng chuyên môn đến từ tập các văn bản của chuyên gia ứng cử viên (bài báo xuất bản, bài viết không chính thức,…), tức là chuyên gia ứng cử viên được đại diện bởi tập các bài viết xuất bản của ông ấy. Ở đây, các bằng chứng này chủ yếu được phân tích về nội dung. Rõ ràng là việc “đọc hiểu” một nội dung văn bản bằng một hệ thống tự động không phải dễ dàng. Ý nghĩa thực sự của một văn bản không chỉ đơn giản là việc thống kê các từ xuất hiện trong văn bản ấy. Một nhược điểm của của các mô hình dựa trên việc phân tích nội dung bài xuất bản là: hầu hết các bài báo khoa học, nhất là các bài báo khoa học đang có tính thời sự lại là các bài báo mất phí, tức là tính sẵn sàng (Available) của dữ liệu cung cấp cho không gian tìm kiếm là kém. Như vậy cũng làm cho tính khả thi của mô hình tìm kiếm giảm đi. Tránh việc sử dụng nội dung phải trả phí đắt đỏ của các ấn phẩm, một số công trình nghiên cứu đã chỉ sử dụng các đoạn văn bản miễn phí của ấn phẩm, ví dụ, sử dụng các tóm tắt (Abstract) của bài báo. Ví dụ, Cabanac 2011 trong [4] đã sử dụng tập các tiêu đề của các bài báo làm đại diện chuyên môn cho ứng cử viên. Tuy nhiên, các mô hình này cũng vẫn vấp phải các nhược điểm chung của các mô hình tìm kiếm mà dựa trên phân tích nội dung văn bản.
  3. 148 ĐỊNH NGHĨA MỘT SỐ CHỈ SỐ CHUYÊN MÔN CHO CÁC NHÀ KHOA HỌC LÀM NHIỆM VỤ ĐÁNH GIÁ… Một bằng chứng chuyên môn khác cũng được các nhà nghiên cứu hết sức quan tâm, đó là việc trích dẫn, dẫn nguồn tham khảo từ một bài báo đến các bài báo viết trước đó. Theo hướng này, người ta thường xây dựng một mạng lưới các trích dẫn (Citation network) hay còn gọi là đồ thị trích dẫn (Citation graph). Thực tế cho thấy, các nghiên cứu đi theo hướng này cho kết quả khá khả quan, ví dụ các mô hình của Strohman và các đồng sự, 2007 [9]; De Bellis, 2009 [1]; Liang và các đồng sự, 2011 [7]. Tuy nhiên, việc phân tích mạng trích dẫn cũng có những nhược điểm của nó. Rõ ràng một bài báo thì trích dẫn đến nhiều bài báo khác, nhưng sự quan tâm của nó đến các bài báo được nó trích dẫn là không như nhau, thậm chí sự trích dẫn đôi khi còn để chỉ ra rằng tác giả này phản đối quan điểm của tác giả khác trong bài được trích dẫn. Khắc phục điều này, Liang 2011 đã quan tâm đến vị trí và tần suất xuất hiện của bài báo được trích dẫn trong nội dung của bài báo trích dẫn. Song việc phân tích này lại lặp lại khó khăn của các mô hình phân tích nội dung. Ngoài việc sử dụng đồ thị trích dẫn, một số nghiên cứu đề cập đến vài bằng chứng chuyên môn khác, ví dụ đồ thị đồng tác giả (Co-authors), đồ thị đồng trích dẫn (Co-citations) hay đồng được trích dẫn (Co- couplage). Trong thực tế, mô hình tìm kiếm chuyên gia dựa trên đồ thị là chưa thực sự phát triển so với các mô hình xác suất. Vì thế, các mô hình dựa trên đồ thị chủ yếu được sử dụng xem như mô hình bổ sung để cải thiện hiệu quả tìm kiếm cho một mô hình khác ([4], [7]). Balog, 2012 [2], chỉ ra rằng dù các mô hình tìm kiếm chuyên gia đã phát triển khá phong phú, song hiệu quả tìm kiếm nói chung của mọi mô hình vẫn còn khá khiêm tốn. Một phương pháp cải thiện mô hình được ghi nhận là có hiệu quả là khi tích hợp các mô hình tìm kiếm khác nhau hoặc kết hợp sử dụng nhiều bằng chứng chuyên môn khác nhau trong một mô hình tìm kiếm thống nhất. Ví dụ, Cabanac 2011 [4] xem xét mô hình sử dụng bằng chứng chuyên môn đến từ nhiều hoạt động khoa học khác nhau. Một ví dụ khác, S. Han và các đồng sự, 2013 [5] đã đưa ra một mô hình kết hợp trong đó sử dụng một mô hình dựa trên phân tích nội dung làm cốt lõi, sau đó bổ sung thêm một số chỉ số liên quan đến lịch sử công bố của ứng cử viên, quyền tác giả cũng như quan hệ xã hội giữa họ. III. XÂY DỰNG CHỈ SỐ DANH GIÁ CÁC THÀNH VIÊN ỦY BAN CHƯƠNG TRÌNH 3.1. Tại sao mời một nhà nghiên cứu vào Ủy ban chương trình? Peer Review là quy trình thẩm định, đánh giá (Review) các bản thảo gửi đến các tạp chí khoa học và các hội nghị chuyên ngành, trong bài viết này chúng tôi gọi là Thẩm định ngang hàng. Theo đó, các đặc điểm cơ bản của đánh giá ngang hàng là: 1) Các bản thảo được gửi đến nộp cho ban biên tập của tạp chí/Ủy ban chương trình của hội nghị. Đây là ban bao gồm các nhà khoa học, các nhà nghiên cứu “uyên thâm” trong lĩnh vực mà tạp chí hay hội nghị ấn hành. 2) Ban sẽ thực hiện phân công các thành viên phù hợp để xem xét phản biện các bản thảo và đưa ra quyết định rằng bản thảo nào được chấp nhận công bố. Mỗi bản thảo sẽ có một nhóm các nhà thẩm định (Reviewer) thực hiện việc đánh giá. Đối với tạp chí, ban biên tập là khá ổn định qua các năm, trái lại Ủy ban chương trình lại luôn được làm mới cho mỗi phiên bản hội nghị và được thực hiện chỉ bởi ghế chủ tịch Ủy ban này. Chúng tôi tự hỏi, ai sẽ được mời tham gia Ủy ban chương trình của một hội nghị khoa học sắp diễn ra? Cộng đồng khoa học chúng ta mong muốn điều gì và vị chủ tịch quyết định chọn ai để mời? Thực tế, việc thành lập một Ủy ban chương trình hiệu quả là một thách thức lớn vì rằng đây là một tập thể đa dạng trên nhiều khía cạnh: các chuyên môn hẹp, tuổi tác, giới tính, vùng địa lý,… Nhất là đối với các hội nghị lớn có mức độ quan tâm cao trong cộng đồng mà có số lượng các thành viên ban trình khá đông. Hiện nay, chúng ta cũng chỉ có thể nghĩ đến vài tiêu chí định tính rằng: để được tham gia Ủy ban này, nhà nghiên cứu phải là một chuyên gia có uy tín, có nhiều đóng góp cho cộng đồng. Nhưng những cái gì được ghi nhận là một đóng góp? Và đối với mỗi loại đóng góp thì có thể chỉ ra một con số định lượng không? Ví dụ, nhiều nghiên cứu chỉ quan tâm đến một hoạt động được coi là đóng góp cơ bản nhất của nhà nghiên cứu, đó là các ấn phẩm của ông ấy. Nhưng dù nếu như vậy thì liệu số lượng các nghiên cứu được công bố có thể đại diện cho mức độ đóng góp của nhà nghiên cứu? Rõ ràng là không đủ. Ở đây, với mục đích đánh giá các đóng góp của các chuyên gia nhằm mục đích giải thích lời mời tham gia Ủy ban chương trình của chủ tịch Ủy ban đối với họ, chúng tôi đưa ra giả thuyết rằng: một chuyên gia nghiên cứu được mời là dựa trên những đóng góp của họ xét trên nhiều phương diện chuyên môn đối với hội nghị đang xét. Ở đây chúng tôi loại bỏ vấn đề nếu ông chủ tịch có sự thiên vị nào đó. 3.2. Mô hình hóa vai trò chuyên môn của các chuyên gia Để trả lời câu hỏi Chuyên gia này đóng góp gì, đóng góp bao nhiêu về mặt chuyên môn cho hội nghị đang xét? Chúng tôi thực hiện việc phân tích các đóng góp này, cụ thể là phân tích các bằng chứng chuyên môn thu được theo các khía cạnh chuyên môn khác nhau, mà trong bài viết này chúng tôi gọi là các Vai trò chuyên môn của chuyên gia đó so với hội nghị đang xét. Chúng tôi phát hiện rằng, có quá nhiều mối liên quan làm nên một vai trò chuyên môn của một chuyên gia. Ví dụ, ông ấy là tác giả của một bài báo đã đăng trong một phiên bản trước của chính hội nghị này, hay là ông ấy là tác giả của một bài báo mà được trích dẫn bởi một bài báo đăng trong hội nghị đang xét,… Rõ ràng là, có tồn tại những vai trò quan trọng hơn vài vai trò khác. Như vậy với một mức độ cần thiết, chúng tôi thực hiện chọn để xem xét một tập các
  4. Trần T Hồng Diệpp, Nguyễn Văn Cường 149 vai v trò mà chúúng tôi đánh giiá là quan trọnng nhất. Trong g phạm vi bài viết này, chúúng tôi xác địnnh 5 vai trò ch huyên môn, như n thể hiện trrong hình 1 nhhư sau: 1) Vai trrò 1: Chuyên gia s là thànhh viên của Ủy ban chương trrình của một pphiên bản đã diễn ra của hộ ội nghị cho trước c. 2) Vai trrò 2: Chuyên ggia s là tác giảả của một bài báo đã được đăng đ trong mộột phiên bản củủa hội nghị ch ho trước c. 3) Vai trrò 3: Chuyên gia s là tác giiả của một bài báo mà thựcc hiện trích dẫẫn đến một bàài báo đã đăng g trong một phiênn bản của c. 4) Vai trrò 4: Chuyên gia s là tác giả của một bài báo mà được trích dẫn bởi một bài báo đđã đăng trong một phiên bản của c. 5) Vai trrò 5: Chuyên gia s là đồng tác giả với mộ ột chuyên gia s’ khác là thàành viên của Ủ Ủy ban chương trình của một phiên p bản đã qqua của c. Hình 1. Các vai trò chuuyên môn của ch huyên gia so vớ ới hội nghị chuyyên ngành cho ttrước Bằng cáách như vậy, chúng tôi xâyy dựng một đồ thị không thu uần nhất bao ggồm ba kiểu nnút khác nhau: 1) nút đại diện d cho các phiên p bản khácc nhau của hộii nghị cho trướớc, 2) nút đại diện cho các bbài báo và 3) nút đại diện cho các nhà khoa k học - chuuyên gia ứng ccử viên. Các ccạnh nối trong đồ thị đại diện cho các mốii quan hệ chuyyên môn khác c nhau giữa các c nút khác nhau. n Chúng tôôi xác định cóó 4 kiểu quan hệ h - cạnh, bao gồm: 1) quann hệ trích dẫn, chỉ ra mối qu uan hệ giữa h bài báo troong đó tồn tại việc một bài bbáo này trích dẫn bài còn lạại; 2) quan hệ xuất bản, chỉ ra mối quan hệ hai h giữa hội nghị n đã cho vàà một bài báo do nó đã xuấất bản; 3) quan n hệ quyền tácc giả, chỉ ra m mối quan hệ giiữa một bài báo với một tác giả của nó và 4) quan hệệ Ủy ban chươ ơng trình, chỉ ra mối quan hệ h giữa hội ngghị đang xét vớới một lượt thham gia Ủy ban b chương trìình của một chhuyên gia. Hìnnh 2 cho thấy một ví dụ hìn nh ảnh về đồ thhị của chúng ttôi. Hình 2. Đồ thị chuyên môn m Chúng tôi thực hiện vviệc định lượnng trọng số củ ủa từng mối qu uan hệ - cạnh ttrong đồ thị: 1) 1 Quan hệ trích dẫn: bàài báo a1 trích dẫn đến bài báob a2 (Hình 3). 3 Chúng tôi cho rằng mốii quan hệ này phụ thuộc vào 2 yếuu tố: 1) số lượ ợng n các tríchh dẫn đến bài báo được trícch dẫn a2. Trư ước a1 mà cànng có nhiều bà ài báo trích dẫn đến a2 càng chứngg tỏ thông tin có tính thời sự của a2 và 2)2 khoảng cáchh thời gian xuuất bản giữa hai h bài báo này. Bài báo b được trínhh dẫn càng cũũ mà vẫn đượ ợc xem xét troong nghiên cứ ứu mới càng cchứng tỏ nó có ó thông tin chuyên môn quan trọngg.
  5. 150 1 Đ ĐỊNH NGHĨA MỘT SỐ CHỈ SỐ CHUYÊN MÔN CHO CÁ ÁC NHÀ KHOA A HỌC LÀM N NHIỆM VỤ ĐÁ ÁNH GIÁ… H Hình 3. Định lư ượng mối quan hệ h trích dẫn Mối quan q hệ này đư ược ước lượngg như sau: ∆ , _ , . ∆ Trongg đó: là số lượng các trícch dẫn đến bàii báo a; là số lượng các ttrích dẫn lớn nhất n đến một bài b báo; ∆ , năm xuất bảnn a1 - năm xuấtt bản a2; ∆ là khoảng cách tthời gian xa nhất của một cặặp hai bài báoo trích dẫn nhaau. 2 Quan hệ xuất bản: bàài báo a đã đăăng trong mộtt phiên bản củ 2) ủa hội nghị ccho trước c (H Hình 4). Chún ng tôi định lượng mối quan hệ nàyy phụ thuộc vàào 2 yếu tố: 1) thời gian màà bài báo a đư ược đăng, bài báo càng đăn ng gần hiện tại thì cànng có trọng số cao và 2) số llượng n các trích dẫn đến a. Nếu a càng ccó nhiều tríchh dẫn đến thì càng c chứng tỏ sự quann trọng về nội dung chuyên môn của nó. H Hình 4. Định lư ượng mối quan hệ xuất bản Công thức đề xuất là: ∆ , _ , . ∆ Trongg đó: là số lượng các trícch dẫn đến bàii báo a; là số lượng các ttrích dẫn lớn nhất n đến một bài b báo; ∆ , Năm hiện tại - N Năm xuất bản a; ∆ là khoảng cách bbiệt thời gian xa nhất của một m bài báo củaa c so với hiệnn tại. 3 Quan hệ quyền tác giảả: chuyên gia s là tác giả của 3) c bài báo a (Hình 5). Troong nghiên cứ ứu này chúng tôi coi các đồng tác giả g là có đóng góp như nhauu trong một bàài báo. Số lượ ợng các đồng tá tác giả càng nhhiều thì sự đón ng góp của mỗi ngườii càng nhỏ. Hình 5. 5 Mối quan hệ quyền q tác giả Trọngg số của mối qquan hệ này đư ược ước lượng g như sau: 1 _ , Trongg đó: là sốố lượng các tácc giả của bài báo b a. 4) 4 Quan hệ tham t dự Ủy bban chương trrình: Chúng tôôi cho rằng vaai trò này phụ thuộc vào thờời gian của phiiên bản hội nghị mà s tham gia ban chương trình. Nếu phiên bảản ở một quá khứ k càng gần hiện tại thì cààng quan trọng g.
  6. Trần T Hồng Diệpp, Nguyễn Văn Cường 151 H Hình 6. Mối qu uan hệ tham dự Ủy ban chươngg trình Côngg thức định lượ ợng được đưa ra là: ∆ , _ , ∆ Trongg đó: ∆ , năăm hiện tại - nnăm mà s tham m dự Ủy ban ch hương trình củủa c; ∆ m chuyên giaa s tham gia Ủ là khoảng cách bbiệt thời gian xa nhất của một Ủy ban chương trình của c so với hiện tại. Với việệc ước lượng bbốn loại mối quan hệ - cạnnh trong đồ thị chuyên mônn như trên, chúúng tôi tiếp tụ ục định giá cho c năm vai trrò chuyên mônn như đã đề cậập như sau: Trong đó đ dấu sao (*)) thể hiện rằngg chúng tôi có ó thực hiện chhuẩn hóa (norm malisation) giiá trị tương ứn ng về đoạn giá g trị [0;1]. Ký K hiệu này đư ược sử dụng cảả trong các mụ ục tiếp sau đó.. ơng trình của hội nghị cho ttrước c: 1) Vai trrò 1: chuyên ggia s là thành viên ban chươ ∗ _ , 2) Vai trrò 2: chuyên ggia s là tác giảả của bài báo a đã đăng tron ng một phiên bbản của hội ngghị cho trước c: c ∗ ∗ _ , _ , 3) Vai trrò 3: chuyên ggia s là tác giiả của bài báo a mà thực hiện một trích ddẫn đến bài bááo a’ đã đăng trong một phiênn bản của c: ∗ ∗ ∗ _ , _ , _ , 4) Vai trrò 4: chuyên ggia s là tác giảả của bài báo a mà được tríích dẫn bởi bàài báo a’ đã đăăng trong mộtt phiên bản của c. Vai trò này ggần tương tự vvớ vai trò 3, ch hỉ khác chiều của trích dẫn giữa hai bài bbáo a và a’: ∗ ∗ ∗ _ , _ , _ , 5) Vai trrò 5: chuyên ggia s là đồng tác giả với một chuyên gia s’ khác trongg một bài báo chung a, mà s’ là thành b chương trình của một pphiên bản trong viên ban g quá khứ củaa c: ∗ ∗ ∗ _ , _ , _ , 3.3. 3 Định nghĩĩa các chỉ số cchuyên môn dựa trên vai trò Trong mục m trước chúúng tôi đã đề ccập việc ước lượng l 5 loại vai v trò chuyên môn của mộtt chuyên gia ứng ứ cử viên so s với hội nghhị đang xem xéét. Thực tế thìì với mỗi kiểu u vai trò này, một m chuyên ggia ứng cử có tthể có nhiều hơnh hoặc ít hơn h hoặc khônng có số lượt hhoạt động chuuyên môn tươn ng ứng. Ví dụ một chuyên ggia s nào đó cóó thể là tác giả ả của nhiều bài d đến các bbài báo của hộội nghị c, có thể có không nhiều lắm sốố bài đăng troong chính hội nghị c đó, b báo trích dẫn nhưng n lại chưaa có lần nào thham dự Ủy baan chương trìnnh. Với việc phân p tích sự đóóng góp chuyyên môn của một m chuyên gia g nghiên cứuu đối với một hhội nghị chuyyên ngành cho trước theo các vai trò chuyyên môn khác nhau, mỗi chu uyên gia sẽ được đ ước lượnng sự đóng gópp chuyên mônn theo 5 vai tròò đặt ra. Dựa trêên phương phááp mô hình hóóa bằng đồ thị chuyên môn mà chúng tôi đã xây dựng ở trên, thực ch hất mỗi vai trrò là một kiểuu “đường đi” nnối từ nút đại diện của hội nghị n đang xét đến nút đại diiện cho chuyêên gia nghiên cứu.c Trọng số s của các “coon đường” nàyy được ước lư ượng dựa trên độ dài của co on đường đó. Cụ thể là dựaa trên số lượng g các phân đoạn đ trên mỗi đường đi và dựa trên trọnng số của mỗi phân đoạn mà m cách ước lư ượng cho bốn loại phân đoạ ạn đã trình bày b ở trên. Vềề mặt ý nghĩa, mỗi chỉ số chhuyên môn màà chúng tôi đư ưa ra là dựa trêên tổng trọng số của một kiiểu “đường đi” đ cho một mỗi m chuyên giaa ứng cử viên. Từ đây,, chúng tôi địnnh nghĩa 5 Chỉỉ số chuyên mô ôn tương ứng với v năm vai tròò cho mỗi chuy uyên gia ứng cử ử viên: ∗ Trong T đó: là chỉ số tư ương ứng với vai trò ; làà số lần mà chhuyên gia ứng cử viên thực hiện h vai trò n;; là trọng lượnng đã tính của mỗi lần đóng vai trò n của ứng cử viên.
  7. 152 ĐỊNH NGHĨA MỘT SỐ CHỈ SỐ CHUYÊN MÔN CHO CÁC NHÀ KHOA HỌC LÀM NHIỆM VỤ ĐÁNH GIÁ… Như vậy, sự đóng góp chung của mỗi ứng cử viên đối với hội nghị chuyên ngành đang xét sẽ là một giá trị tổng hợp từ 5 chỉ số mà chúng tôi đã định nghĩa ở trên. Con số này sẽ đại diện cho tính thích đáng của chuyên gia ứng cử viên hay nói cách khác nó trả lời cho khả năng được mời tham gia Ủy ban chương trình trong tương lai của chuyên gia ứng cử viên đó. IV. THỬ NGHIỆM MÔ HÌNH Trong phạm vi thử nghiệm của chúng tôi, chúng tôi chọn hội nghị SIGIR - International ACM SIGIR Conference on Research and Development in Information Retrieval, một hội nghị dẫn đầu trong ngành khoa học máy tính. Các thông tin được thu thập đều là miễn phí: metadata của các bài báo khoa học, các trang hội nghị chính thức, các bản thông tin về danh sách các thành viên ban chương trình,... Những thông tin này được chúng tôi thu thập từ các thư viện số DBLP và ACM, chúng tôi cũng sử dụng kết quả của ArnetMiner [10]. Bằng cách như vậy, bộ dữ liệu của chúng tôi đã thu thập thông tin bao gồm 3.554 bài báo chính thức đăng trong 40 phiên bản hội nghị SIGIR từ 1971-2015. Từ tập các bài báo này làm cơ sở ban đầu để thu thập các bài trích dẫn và được trích dẫn từ chúng: bao gồm 29.907 bài báo. Số lượng các thành viên của ban chương trình tham gia hàng năm của SIGIR cũng được thu thập, từ phiên bản từ 2004-2015 là có thể tìm được, bao gồm 7.576 lượt thành viên tham gia ban chương trình. Thí nghiệm của chúng tôi được thiết kế nhằm trả lời câu hỏi: Chỉ số nào giải thích cho việc tham gia Ủy ban chương trình của một chuyên gia? Câu hỏi này thực chất là xem xét sự ảnh hưởng của từng chỉ số mà chúng tôi đã định nghĩa cho việc phát lời mời tham gia Ủy ban chương trình đến chuyên gia đó. Tuy nhiên, do không có một nghiên cứu tương tự để so sánh, đồng thời, rõ ràng cũng không hề có một bảng xếp hạng chuẩn các chuyên gia làm đối sánh cho sự đúng đắn của kết quả chúng tôi thu được, vì vậy chúng tôi sử dụng danh sách ban chương trình chính thức hàng năm làm chuẩn. Cụ thể, chúng tôi sẽ tính toán các chỉ số dựa trên các phiên bản quá khứ của một năm y, kết quả thu được đem so sánh với danh sách thành viên chính thức của Ủy ban tại chính năm y đó. Ví dụ chúng tôi tính toán chỉ số thứ nhất cho mọi ứng cử viên dựa trên dữ liệu trước năm 2012, từ đó xếp hạng các thành viên theo chỉ số này và đem so sánh sự trùng hợp với danh sách các thành viên chính thức của SIGIR 2012. Cụ thể chúng tôi thực hiện thí nghiệm với các năm y là 5 năm: từ 2011 đến 2015. Với mỗi năm y đó, tính 5 chỉ số và thu được một danh sách xếp hạng theo chỉ số tương ứng. Như vậy chúng tôi thu được 25 danh sách xếp hạng. Để đánh giá kết quả, với mỗi danh sách xếp hạng, chúng tôi tính hai giá trị độ chính xác P@20 và P@100 như được quy định trong IR - Information Retrieval. Kết quả so sánh này được chúng tôi thống kê trong bảng 1. Bảng 1. Độ chính xác của các danh sách xếp hạng so với Ủy ban chính thức của năm tương ứng Năm |cy| Vai trò 1 Vai trò 2 Vai trò 3 Vai trò 4 Vai trò 5 P@20 P@100 P@20 P@100 P@20 P@100 P@20 P@100 P@20 P@100 2011 426 0,90 0,80 0,60 0,57 0,40 0,43 0,55 0,43 0,05 0,05 2012 486 1,00 0,84 0,70 0,64 0,40 0,45 0,55 0,47 0,05 0,05 2013 431 0,95 0,86 0,75 0,61 0,45 0,44 0,55 0,42 0,10 0,07 2014 448 0,90 0,86 0,75 0,59 0,40 0,43 0,25 0,45 0,20 0,09 2015 432 1,00 0,85 0,80 0,60 0,45 0,42 0,25 0,45 0,10 0,07 Trong đó |cy| là số lượng các thành viên ban chương trình chính thức trong năm tương ứng. Kết quả thu được cho thấy tính “thống trị” của vai trò 1. Có nghĩa là, một chuyên gia sẽ có khả năng được mời cao nhất và khả năng càng cao khi họ đã tham gia và tham gia càng nhiều lần các Ủy ban chương trình trong quá khứ. Chúng tôi kết luận rằng vai trò này là vai trò được đánh cao về uy tín đối với một học giả. Đứng thứ hai là vai trò mà trong đó chuyên gia ứng cử viên là tác giả của các bài báo được đăng trong chính hội nghị đang xem xét. Điều này cho thấy đây có thể là cơ hội cao hơn cho các nhà nghiên cứu muốn được tham dự lần đầu tiên vào Ủy ban chương trình của hội nghị này, bằng cách hãy có được nhiều ấn bản ở nơi này trước đã. Vai trò 3 và 4 có vẻ là các chỉ số ít liên quan hơn hai chỉ số trên, tuy nhiên cũng là những chỉ số đóng vai trò dự báo tốt cho khả năng được mời. Vai trò cuối cùng, số liệu cho thấy là nó không được quan tâm lắm trong việc trở thành một nhà thẩm định của hội nghị xem xét. V. KẾT LUẬN VÀ ĐỀ XUẤT Thành lập Ủy ban chương trình của một hội nghị chuyên ngành là một quá trình quan trọng và phụ thuộc vào cá nhân chủ tịch của Ủy ban qua từng phiên bản. Quá trình này là không buộc phải công khai cho toàn cộng đồng. Chúng
  8. Trần Hồng Diệp, Nguyễn Văn Cường 153 tôi thực hiện định nghĩa các chỉ số chuyên môn nhằm tìm hiểu phần nào sự thành lập một Ủy ban chương trình của một hội nghị chuyên ngành nào đó. Qua thí nghiệm về các dữ liệu của SIGIR, chúng tôi có thể làm lộ rõ cách thức mà một chuyên gia được xem là có nhiều đóng góp hoặc là có uy tín trong cộng đồng. Đồng thời nghiên cứu này cũng cho phép có các trợ giúp nhất định cho chủ tịch Ủy ban khi tìm danh sách các chuyên gia để thành lập Ủy ban sắp tới. Mô hình của chúng tôi đề xuất hoàn toàn sử dụng các dữ liệu có tính sẵn sàng cao (miễn phí, có sẵn). Mô hình dựa trên việc thành lập đồ thị không đồng nhất cho phép tích hợp nhiều bằng chứng chuyên môn trong cùng một mô hình. Đồng thời, việc phân tích và xác định các bằng chứng chỉ ra sự gần gũi về chuyên môn giữa các đối tượng mà không cần phân tích nội dung các đối tượng đó. Điều này cho phép việc mô hình hóa tránh được các nhược điểm của các mô hình dựa trên phân tích nội dung. Trong tương lai, mô hình của chúng tôi nên được tiếp tục nghiên cứu sâu sắc hơn về tính dự báo các thành viên mới của Ủy ban chương trình, đồng thời mở rộng số lượng các chỉ số. Việc kiểm định tính đúng đắn của mô hình có vẻ không được tốt với việc lấy danh sách Ủy ban chương trình chính thức hàng năm làm chuẩn của sự đúng đắn. Việc kiểm định này có thể được cải thiện bằng một khảo sát trên các chuyên gia hàng đầu trong lĩnh vực đang quan tâm. VI. TÀI LIỆU THAM KHẢO [1] N. De Bellis. “Bibliometrics and Citation Analysis”. Scarecrow Press, Lanham, 2009. [2] K. Balog, Y. Fang, M. de Rijke, P. Sedyukov, L. Si. “Expertise Retrieval”. Foundations and Trends in Information Retrieval, 2012. [3]K. Balog, M. De Rijke. “Determining expert profiles”. 20th International Joint Conference on Artifical Intelligence (IJCAI ’07), p. 2657-2662, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2007. [4] G. Cabanac. “Accuracy of inter-researcher similarity measures based on topical and social clues”. Scientometrics 87(3), 2011. [5] S. Han, J. Jiang, Z. Yue, D. He. “Recommending program committee candidates for academic conferences”. Workshop on Computational Scientometrics: Theory and Applications (CompSci ’13), p. 1-6, ACM, New York, NY, USA, 2013. [6] J. E. Hirsch. “An index to quantify an individual's scientific research output”. PNAS November 15, 2005. [7] Y. Liang, Q. Li, T. Qian. “Finding Relevant Papers Based on Citation Relations”. Web-Age Information Management, vol. 6897, p. 403-414, 2011. [8] V. Mangaravite, R. L. Santos, I. S. Ribeiro, M. A. Gonçalves, A. H. Laender. “The LExR Collection for Expertise Retrieval in Academia”. 39th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR ’16), 2016. [9] T. Strohman W. Croft, D. Jensen. “Recommending Citations for Academic Papers”. 30th International ACM SIGIR conference on Research and development in information retrieval (SIGIR ’07), 2007. [10] J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang, Z. Su. “Arnetminer: extraction and mining of academic social networks”. 14th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD ’08), p. 990-998, 2008. DEFINING EXPERTISE INDICATORS FOR REVIEWERS OF SCIENTIFIC CONFERENCES Tran Hong Diep, Nguyen Van Cuong Abstract: Organizing academic scientific conferences is a particularly effective solution for disseminating scientific findings of scientists from all over the world. Normally, conducting the peer review of submitted papers is the responsibility of the program committees of conferences, so their decisions will mainly affect the quality of the conferences. In reality, with a huge number of scientific conferences held each year, it is an extremely difficult task for the program committee chairs to find researchers with relevant expertise for participating in the program committees. In this paper, we propose a method based on different indicators of expertise in order to give suggestions of members for the program committees of conferences.
nguon tai.lieu . vn