- Trang Chủ
- Quản trị mạng
- Định nghĩa một số chỉ số chuyên môn cho các nhà khoa học làm nhiệm vụ đánh giá ngang hàng trong các hội nghị chuyên ngành
Xem mẫu
- Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018
DOI: 10.15625/vap.2018.00019
ĐỊNH NGHĨA MỘT SỐ CHỈ SỐ CHUYÊN MÔN CHO CÁC NHÀ KHOA HỌC
LÀM NHIỆM VỤ ĐÁNH GIÁ NGANG HÀNG TRONG CÁC HỘI NGHỊ
CHUYÊN NGÀNH
Trần Hồng Diệp, Nguyễn Văn Cường
Trường ĐH Lâm nghiệp Việt Nam
TOM TẮT. Việc tổ chức các hội nghị khoa học, hội nghị chuyên ngành đang là một giải pháp đặc biệt hữu hiệu đáp ứng nhu cầu
công bố các phát kiến khoa học của các nhà nghiên cứu trên thế giới ngày nay. Việc xem xét và chấp nhận các bản thảo gửi đến hội
nghị thông thường được thực hiện bởi Ủy ban chương trình của hội nghị đó. Như vậy, ban chương trình này có tầm ảnh hưởng
quyết định đến chất lượng của hội nghị. Thực tế cho thấy, gọi các chuyên gia nghiên cứu để thành lập các Ủy ban chương trình
hàng năm vẫn là một nhiệm vụ rất khó khăn và nặng nề cho chức Giáo sư - Chủ tịch Ủy ban chương trình, để trả lời câu hỏi: Những
nhà nghiên cứu nào là thích đáng hơn cả về chuyên môn để trở thành thành viên của Ủy ban chương trình của một hội nghị sắp diễn
ra? Trong nghiên cứu của mình, chúng tôi bước đầu tìm kiếm một phương pháp mô hình hóa nhằm định nghĩa một vài chỉ số về mặt
chuyên môn khoa học trên các nhà nghiên cứu với tiêu chí xếp hạng sự phù hợp của họ đối với nhiệm vụ làm thành viên Ủy ban
chương trình của hội nghị đang xét.
I. GIỚI THIỆU
Chúng ta có gì làm “thước” để đo xem: chuyên môn khoa học của một nhà khoa học là gì, khác hay giống
chuyên môn của một nhà khoa học khác. Hoặc là đo đếm sự uyên thâm của nhà nghiên cứu này là bao nhiêu, nhiều hay
ít hơn của một nhà nghiên cứu khác cùng lĩnh vực? Vấn đề tương tự cũng xảy ra khi so sánh và “cân đo” nội dung
chuyên môn của các đối tượng chuyên môn khác như các bài báo khoa học, các nhà xuất bản hay các trường đại học...
Dù rằng vô cùng khó để đánh giá một cách đầy đủ, nhất là chúng ta mong muốn việc đánh giá này được thực hiện bằng
một hệ thống tự động. Tuy thế, trong mọi lĩnh vưc chuyên môn, người ta luôn mong muốn có thể đánh giá một cách
định lượng để phân loại hay xếp hạng các đối tượng này. Ngày nay, mong muốn này đã hoàn toàn có cơ sở để thực
hiện, dựa trên sự phát triển mạnh mẽ của các phương pháp thu hồi thông tin (IR - Information Retrieval) và sự đầy đủ
thông tin từ rất nhiều các thư viện số trên internet.
Lĩnh vực Tìm kiếm chuyên gia (ER - Expertise Retrieval) và Scientometrie là một hướng nghiên cứu phát triển
mạnh mẽ khoảng trên chục năm lại đây, nghiên cứu giải quyết vấn đề này. Theo đó, một trong các nhiệm vụ quan trọng
của nó là phát hiện các chỉ số đánh giá (Indicators - Scientometric Indicators) cho mỗi trường hợp cụ thể. Lấy ví dụ về
chỉ số Hirsch nổi tiếng [6]. Mặc dù trong các nghiên cứu sau này, các nhà khoa học cũng đã chỉ ra rằng chỉ số này tồn
tại những bất cập làm sai lệch thước đo đánh giá. Nhưng cho đến nay chỉ số Hirsch vẫn được cộng đồng các nhà khoa
học toàn thế giới coi là thước đo căn bản nhất đo sự cống hiến và uy tín chuyên môn của các nhà nghiên cứu. Bên cạnh
đó, các nghiên cứu này cũng chỉ ra rằng mỗi chỉ số đưa ra đều chỉ có một phạm vi đánh giá khá hạn chế. Có nghĩa là,
để phát hiện chỉ số đánh giá cho mỗi mục đích đánh giá càng cụ thể, càng hẹp thì hiệu quả đánh giá của chỉ số đó càng
cao (chỉ số cục bộ).
Chúng ta đều biết rằng sự đọc các nghiên cứu đã công bố là tiền đề quan trọng cho các nhà nghiên cứu tiếp tục
các phát minh khoa học. Nghĩa là các phát kiến của các nhà nghiên cứu càng được thẩm định tốt và nhanh chóng đưa
đến cộng đồng, càng thúc đẩy sự phát triển của khoa học. Đây chính là tác động quan trọng của các hệ thống xuất bản,
công bố các công trình khoa học như tạp chí chuyên ngành hay các hội nghị khoa học thường niên v.v.
Trong bối cảnh ngày nay, nhu cầu công bố các công trình khoa học là cực lớn, song với số lượng hạn chế cũng
như quá trình thẩm định bản thảo có những bất cập nhất định trong các tạp chí chuyên ngành, thì việc mở các hội nghị
khoa học thường niên (professional conference) là một giải pháp hữu hiệu, nhất là trong các lĩnh vực khoa học kỹ thuật
có tốc độ phát triển nhanh chóng, ví dụ như ngành khoa học máy tính. Thực tế cho thấy hiện nay có một số lượng rất
lớn các hội nghị, hội thảo khoa học được tổ chức hàng năm trên khắp thế giới, cùng với nó là một lượng khổng lồ các
công trình khoa học được công bố. Trong nhiều ngành, phương thức công bố này được coi là phương án lựa chọn đầu
tiên khi nhà nghiên cứu có một công trình cần công bố. Ở đây chúng tôi bàn về các hội nghị khoa học mà xuất bản toàn
văn các công trình nghiên cứu và có sự thẩm định của một hội đồng chuyên môn uy tín.
Đến đây, một vấn đề được đặt ra là Chất lượng của các công bố này sẽ thế nào, khi mà việc thẩm định và in ấn
nhanh và nhiều đến vậy? Đến nay, đã có rất nhiều các nghiên cứu nghiêm túc bàn về quy trình xuất bản của các hội
nghị (kỷ yếu hội nghị) cùng với các ưu điểm cũng như các vấn đề còn tồn tại của nó. Nhưng dù thế nào, chúng ta vẫn
khẳng định rằng, chất lượng của công bố chịu ảnh hưởng lớn vào tập thể các nhà thẩm định, mà trong các hội thảo
- Trần Hồng Diệp, Nguyễn Văn Cường 147
chuyên ngành thường gọi là Ủy ban chương trình - Program Committee (trách nhiệm tương tự ban biên tập của các tạp
chí chuyên ngành - Journal Editor Board).
Về lý thuyết, các nhà nghiên cứu được mời tham gia Ủy ban chương trình của một hội nghị phải là những chuyên
gia khoa học có uy tín trong cộng đồng về lĩnh vực mà hội thảo đang xem xét. Thông thường hàng năm, Ủy ban chương
trình của một hội nghị được tái thành lập bởi vị chủ tịch hiện tại của Ủy ban này, tức là các lời mời tham gia Ủy ban đều
dựa trên ý kiến chủ quan của ông chủ tịch. Ngoại trừ sự thiên vị có thể xảy ra, thì có tồn tại những khó khăn cho vị chủ
tịch khi phát lời kêu gọi tham gia Ủy ban: 1) Vị chủ tịch này khó mà “quen” tất cả các nhà nghiên cứu (nhất là những nhà
nghiên cứu mới nổi lên) trong chính lĩnh vực của ông ta! và 2) Dù có quen hết thì vị chủ tịch này không có một căn cứ
định lượng để đánh giá rằng nhà nghiên cứu này “tốt hơn” nhà nghiên cứu kia trong chuyên môn đang xem xét. Vì thế,
đây rõ ràng là một nhiệm vụ nặng nề, nhất là trong trường hợp các hội nghị uy tín với số lượng lớn các bản thảo nộp đến.
Ví dụ, các hội nghị CIKM, SIGIR, WWW v.v. có số lượng thành viên Ủy ban lên đến vài trăm người.
Trong nội dung bài viết này chúng tôi đề cập đến một phương pháp mô hình hóa chuyên môn (Expertise
modelling) trong môi trường học thuật và từ đó định nghĩa một số chỉ số chuyên môn nhằm mục đích đề xuất thành
viên Ủy ban chương trình cho một hội nghị khoa học đưa ra. Theo hiểu biết của chúng tôi, đến nay chưa có một nghiên
cứu nào định nghĩa các chỉ số scientometric cho các nhà khoa học là nhiệm vụ đánh giá ngang hàng trong các hội nghị
chuyên ngành.
Trong phần II Các nghiên cứu liên quan, chúng tôi trình bày về các nghiên cứu liên quan, đồng thời phân tích
các ưu, nhược điểm để kế thừa và khắc phục để đưa ra đề xuất của chúng tôi. Phần III tiếp sau, chúng tôi trình bày cụ
thể mô hình của chúng tôi đề xuất. Phần IV chúng tôi trình bày thử nghiệm trên mô hình đề xuất. Việc thử nghiệm sử
dụng hoàn toàn các dữ liệu công khai và miễn phí của hội nghị ACM SIGIR - International Conference on Research
and Development in Information Retrieval, một hội nghị danh giá của ngành khoa học máy tính.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Bài viết này của chúng tôi, trước tiên liên quan đến lĩnh vực Tìm kiếm chuyên gia (ER - Expertise/Expert
Retrieval) hay còn được biết đến với thuật ngữ Định vị chuyên môn (Expertise Location) là một lĩnh vực đã từng được
coi là nhiệm vụ không thể thay thế của chuyên gia con người. Tức là khó mà tự động hóa được nhiệm vụ này. K. Balog
và các đồng sự [2] đã chỉ ra bốn khó khăn cơ bản nhất cho tự động hóa nhiệm vụ tìm kiếm chuyên gia:
1) Các chuyên gia ứng cử viên không đại diện cho đơn vị tìm kiếm: họ được định nghĩa thông qua các đối tượng
đại diện cho họ, ví dụ, thông qua các công bố của họ, thông qua các mối quan hệ tác giả, trích nguồn tham
khảo (trích dẫn),…
2) Tên của chuyên gia thường hay nhập nhằng: tên của họ có thể đề cập đầy đủ hoặc không đầy đủ trong các
công trình khác nhau, đồng thời cũng có những cái tên mà không phải của duy nhất một người.
3) Các bằng chứng thể hiện nội dung chuyên môn (sau đây chúng tôi gọi là Bằng chứng chuyên môn - Expertise
Evidence) của các chuyên gia đến từ các nguồn không đồng nhất: họ có thể bàn về chuyên môn của họ trong
các email công việc hoặc trong các ấn phẩm khoa học. Tuy nhiên ý nghĩa nặng nhẹ về mặt chuyên môn của
hai văn bản này là khác nhau.
4) Và một thách thức quan trọng nữa là việc định lượng sức mạnh của mối liên kết giữa một chuyên gia với các
bằng chứng khoa học của chuyên gia đó là một vấn đề hết sức phức tạp.
Mặc dù các khó khăn tưởng chừng khó có thể vượt qua, song các biện pháp tìm kiếm chuyên gia tự động đã khá
phát triển ([2], [8]), nhất là sau nhiệm vụ được đưa ra bởi TREC Enterprise Track [3].
Do vấn đề tìm kiếm chuyên gia được phát triển xem như một nhánh của Tìm kiếm thông tin (IR - Information
Retrieval), do vậy hầu hết các biện pháp tìm kiếm chuyên gia hiện nay là các phương pháp tiếp cận cơ bản của IR: các
Mô hình xác suất sinh (Generative probabilistic models) và các Mô hình phân biệt (Discriminative models). Ngoài ra,
một số cách tiếp cận khác cũng đã được đề cập, ví dụ Mô hình bầu cử (Voting models) hay Mô hình dựa trên đồ thị
(Graph-based models) [2].
Về tổng thể các mô hình này sử dụng chủ yếu các bằng chứng chuyên môn đến từ tập các văn bản của chuyên
gia ứng cử viên (bài báo xuất bản, bài viết không chính thức,…), tức là chuyên gia ứng cử viên được đại diện bởi tập
các bài viết xuất bản của ông ấy. Ở đây, các bằng chứng này chủ yếu được phân tích về nội dung. Rõ ràng là việc “đọc
hiểu” một nội dung văn bản bằng một hệ thống tự động không phải dễ dàng. Ý nghĩa thực sự của một văn bản không
chỉ đơn giản là việc thống kê các từ xuất hiện trong văn bản ấy. Một nhược điểm của của các mô hình dựa trên việc
phân tích nội dung bài xuất bản là: hầu hết các bài báo khoa học, nhất là các bài báo khoa học đang có tính thời sự lại
là các bài báo mất phí, tức là tính sẵn sàng (Available) của dữ liệu cung cấp cho không gian tìm kiếm là kém. Như vậy
cũng làm cho tính khả thi của mô hình tìm kiếm giảm đi.
Tránh việc sử dụng nội dung phải trả phí đắt đỏ của các ấn phẩm, một số công trình nghiên cứu đã chỉ sử dụng
các đoạn văn bản miễn phí của ấn phẩm, ví dụ, sử dụng các tóm tắt (Abstract) của bài báo. Ví dụ, Cabanac 2011 trong
[4] đã sử dụng tập các tiêu đề của các bài báo làm đại diện chuyên môn cho ứng cử viên. Tuy nhiên, các mô hình này
cũng vẫn vấp phải các nhược điểm chung của các mô hình tìm kiếm mà dựa trên phân tích nội dung văn bản.
- 148 ĐỊNH NGHĨA MỘT SỐ CHỈ SỐ CHUYÊN MÔN CHO CÁC NHÀ KHOA HỌC LÀM NHIỆM VỤ ĐÁNH GIÁ…
Một bằng chứng chuyên môn khác cũng được các nhà nghiên cứu hết sức quan tâm, đó là việc trích dẫn, dẫn
nguồn tham khảo từ một bài báo đến các bài báo viết trước đó. Theo hướng này, người ta thường xây dựng một mạng
lưới các trích dẫn (Citation network) hay còn gọi là đồ thị trích dẫn (Citation graph). Thực tế cho thấy, các nghiên cứu
đi theo hướng này cho kết quả khá khả quan, ví dụ các mô hình của Strohman và các đồng sự, 2007 [9]; De Bellis,
2009 [1]; Liang và các đồng sự, 2011 [7]. Tuy nhiên, việc phân tích mạng trích dẫn cũng có những nhược điểm của nó.
Rõ ràng một bài báo thì trích dẫn đến nhiều bài báo khác, nhưng sự quan tâm của nó đến các bài báo được nó trích dẫn
là không như nhau, thậm chí sự trích dẫn đôi khi còn để chỉ ra rằng tác giả này phản đối quan điểm của tác giả khác
trong bài được trích dẫn. Khắc phục điều này, Liang 2011 đã quan tâm đến vị trí và tần suất xuất hiện của bài báo được
trích dẫn trong nội dung của bài báo trích dẫn. Song việc phân tích này lại lặp lại khó khăn của các mô hình phân tích
nội dung.
Ngoài việc sử dụng đồ thị trích dẫn, một số nghiên cứu đề cập đến vài bằng chứng chuyên môn khác, ví dụ đồ
thị đồng tác giả (Co-authors), đồ thị đồng trích dẫn (Co-citations) hay đồng được trích dẫn (Co- couplage). Trong thực
tế, mô hình tìm kiếm chuyên gia dựa trên đồ thị là chưa thực sự phát triển so với các mô hình xác suất. Vì thế, các mô
hình dựa trên đồ thị chủ yếu được sử dụng xem như mô hình bổ sung để cải thiện hiệu quả tìm kiếm cho một mô hình
khác ([4], [7]).
Balog, 2012 [2], chỉ ra rằng dù các mô hình tìm kiếm chuyên gia đã phát triển khá phong phú, song hiệu quả tìm
kiếm nói chung của mọi mô hình vẫn còn khá khiêm tốn. Một phương pháp cải thiện mô hình được ghi nhận là có hiệu
quả là khi tích hợp các mô hình tìm kiếm khác nhau hoặc kết hợp sử dụng nhiều bằng chứng chuyên môn khác nhau
trong một mô hình tìm kiếm thống nhất. Ví dụ, Cabanac 2011 [4] xem xét mô hình sử dụng bằng chứng chuyên môn
đến từ nhiều hoạt động khoa học khác nhau. Một ví dụ khác, S. Han và các đồng sự, 2013 [5] đã đưa ra một mô hình
kết hợp trong đó sử dụng một mô hình dựa trên phân tích nội dung làm cốt lõi, sau đó bổ sung thêm một số chỉ số liên
quan đến lịch sử công bố của ứng cử viên, quyền tác giả cũng như quan hệ xã hội giữa họ.
III. XÂY DỰNG CHỈ SỐ DANH GIÁ CÁC THÀNH VIÊN ỦY BAN CHƯƠNG TRÌNH
3.1. Tại sao mời một nhà nghiên cứu vào Ủy ban chương trình?
Peer Review là quy trình thẩm định, đánh giá (Review) các bản thảo gửi đến các tạp chí khoa học và các hội
nghị chuyên ngành, trong bài viết này chúng tôi gọi là Thẩm định ngang hàng. Theo đó, các đặc điểm cơ bản của đánh
giá ngang hàng là: 1) Các bản thảo được gửi đến nộp cho ban biên tập của tạp chí/Ủy ban chương trình của hội nghị.
Đây là ban bao gồm các nhà khoa học, các nhà nghiên cứu “uyên thâm” trong lĩnh vực mà tạp chí hay hội nghị ấn
hành. 2) Ban sẽ thực hiện phân công các thành viên phù hợp để xem xét phản biện các bản thảo và đưa ra quyết định
rằng bản thảo nào được chấp nhận công bố. Mỗi bản thảo sẽ có một nhóm các nhà thẩm định (Reviewer) thực hiện việc
đánh giá. Đối với tạp chí, ban biên tập là khá ổn định qua các năm, trái lại Ủy ban chương trình lại luôn được làm mới
cho mỗi phiên bản hội nghị và được thực hiện chỉ bởi ghế chủ tịch Ủy ban này.
Chúng tôi tự hỏi, ai sẽ được mời tham gia Ủy ban chương trình của một hội nghị khoa học sắp diễn ra? Cộng
đồng khoa học chúng ta mong muốn điều gì và vị chủ tịch quyết định chọn ai để mời? Thực tế, việc thành lập một Ủy
ban chương trình hiệu quả là một thách thức lớn vì rằng đây là một tập thể đa dạng trên nhiều khía cạnh: các chuyên
môn hẹp, tuổi tác, giới tính, vùng địa lý,… Nhất là đối với các hội nghị lớn có mức độ quan tâm cao trong cộng đồng
mà có số lượng các thành viên ban trình khá đông. Hiện nay, chúng ta cũng chỉ có thể nghĩ đến vài tiêu chí định tính
rằng: để được tham gia Ủy ban này, nhà nghiên cứu phải là một chuyên gia có uy tín, có nhiều đóng góp cho cộng
đồng. Nhưng những cái gì được ghi nhận là một đóng góp? Và đối với mỗi loại đóng góp thì có thể chỉ ra một con số
định lượng không? Ví dụ, nhiều nghiên cứu chỉ quan tâm đến một hoạt động được coi là đóng góp cơ bản nhất của nhà
nghiên cứu, đó là các ấn phẩm của ông ấy. Nhưng dù nếu như vậy thì liệu số lượng các nghiên cứu được công bố có thể
đại diện cho mức độ đóng góp của nhà nghiên cứu? Rõ ràng là không đủ.
Ở đây, với mục đích đánh giá các đóng góp của các chuyên gia nhằm mục đích giải thích lời mời tham gia Ủy
ban chương trình của chủ tịch Ủy ban đối với họ, chúng tôi đưa ra giả thuyết rằng: một chuyên gia nghiên cứu được
mời là dựa trên những đóng góp của họ xét trên nhiều phương diện chuyên môn đối với hội nghị đang xét. Ở đây chúng
tôi loại bỏ vấn đề nếu ông chủ tịch có sự thiên vị nào đó.
3.2. Mô hình hóa vai trò chuyên môn của các chuyên gia
Để trả lời câu hỏi Chuyên gia này đóng góp gì, đóng góp bao nhiêu về mặt chuyên môn cho hội nghị đang xét?
Chúng tôi thực hiện việc phân tích các đóng góp này, cụ thể là phân tích các bằng chứng chuyên môn thu được theo
các khía cạnh chuyên môn khác nhau, mà trong bài viết này chúng tôi gọi là các Vai trò chuyên môn của chuyên gia đó
so với hội nghị đang xét.
Chúng tôi phát hiện rằng, có quá nhiều mối liên quan làm nên một vai trò chuyên môn của một chuyên gia. Ví
dụ, ông ấy là tác giả của một bài báo đã đăng trong một phiên bản trước của chính hội nghị này, hay là ông ấy là tác giả
của một bài báo mà được trích dẫn bởi một bài báo đăng trong hội nghị đang xét,… Rõ ràng là, có tồn tại những vai trò
quan trọng hơn vài vai trò khác. Như vậy với một mức độ cần thiết, chúng tôi thực hiện chọn để xem xét một tập các
- Trần
T Hồng Diệpp, Nguyễn Văn Cường 149
vai
v trò mà chúúng tôi đánh giiá là quan trọnng nhất. Trong
g phạm vi bài viết này, chúúng tôi xác địnnh 5 vai trò ch
huyên môn,
như
n thể hiện trrong hình 1 nhhư sau:
1) Vai trrò 1: Chuyên gia s là thànhh viên của Ủy ban chương trrình của một pphiên bản đã diễn ra của hộ ội nghị cho
trước c.
2) Vai trrò 2: Chuyên ggia s là tác giảả của một bài báo đã được đăng
đ trong mộột phiên bản củủa hội nghị ch
ho trước c.
3) Vai trrò 3: Chuyên gia s là tác giiả của một bài báo mà thựcc hiện trích dẫẫn đến một bàài báo đã đăng g trong một
phiênn bản của c.
4) Vai trrò 4: Chuyên gia s là tác giả của một bài báo mà được trích dẫn bởi một bài báo đđã đăng trong một phiên
bản của c.
5) Vai trrò 5: Chuyên gia s là đồng tác giả với mộ ột chuyên gia s’ khác là thàành viên của Ủ
Ủy ban chương trình của
một phiên
p bản đã qqua của c.
Hình 1. Các vai trò chuuyên môn của ch
huyên gia so vớ
ới hội nghị chuyyên ngành cho ttrước
Bằng cáách như vậy, chúng tôi xâyy dựng một đồ thị không thu uần nhất bao ggồm ba kiểu nnút khác nhau: 1) nút đại
diện
d cho các phiên
p bản khácc nhau của hộii nghị cho trướớc, 2) nút đại diện cho các bbài báo và 3) nút đại diện cho các nhà
khoa
k học - chuuyên gia ứng ccử viên. Các ccạnh nối trong đồ thị đại diện cho các mốii quan hệ chuyyên môn khác c nhau giữa
các
c nút khác nhau.
n Chúng tôôi xác định cóó 4 kiểu quan hệ
h - cạnh, bao gồm: 1) quann hệ trích dẫn, chỉ ra mối qu uan hệ giữa
h bài báo troong đó tồn tại việc một bài bbáo này trích dẫn bài còn lạại; 2) quan hệ xuất bản, chỉ ra mối quan hệ
hai h giữa hội
nghị
n đã cho vàà một bài báo do nó đã xuấất bản; 3) quan n hệ quyền tácc giả, chỉ ra m
mối quan hệ giiữa một bài báo với một
tác giả của nó và 4) quan hệệ Ủy ban chươ ơng trình, chỉ ra mối quan hệ
h giữa hội ngghị đang xét vớới một lượt thham gia Ủy
ban
b chương trìình của một chhuyên gia. Hìnnh 2 cho thấy một ví dụ hìn nh ảnh về đồ thhị của chúng ttôi.
Hình 2. Đồ thị chuyên môn
m
Chúng tôi thực hiện vviệc định lượnng trọng số củ
ủa từng mối qu
uan hệ - cạnh ttrong đồ thị:
1)
1 Quan hệ trích dẫn: bàài báo a1 trích dẫn đến bài báob a2 (Hình 3). 3 Chúng tôi cho rằng mốii quan hệ này phụ thuộc
vào 2 yếuu tố: 1) số lượ
ợng n các tríchh dẫn đến bài báo được trícch dẫn a2. Trư
ước a1 mà cànng có nhiều bà
ài báo trích
dẫn đến a2 càng chứngg tỏ thông tin có tính thời sự của a2 và 2)2 khoảng cáchh thời gian xuuất bản giữa hai
h bài báo
này. Bài báo
b được trínhh dẫn càng cũũ mà vẫn đượ ợc xem xét troong nghiên cứ ứu mới càng cchứng tỏ nó có
ó thông tin
chuyên môn quan trọngg.
- 150
1 Đ
ĐỊNH NGHĨA MỘT SỐ CHỈ SỐ CHUYÊN MÔN CHO CÁ
ÁC NHÀ KHOA
A HỌC LÀM N
NHIỆM VỤ ĐÁ
ÁNH GIÁ…
H
Hình 3. Định lư
ượng mối quan hệ
h trích dẫn
Mối quan
q hệ này đư
ược ước lượngg như sau:
∆ ,
_ , . ∆
Trongg đó: là số lượng các trícch dẫn đến bàii báo a;
là số lượng các ttrích dẫn lớn nhất
n đến một bài
b báo;
∆ , năm xuất bảnn a1 - năm xuấtt bản a2;
∆ là khoảng cách tthời gian xa nhất của một cặặp hai bài báoo trích dẫn nhaau.
2 Quan hệ xuất bản: bàài báo a đã đăăng trong mộtt phiên bản củ
2) ủa hội nghị ccho trước c (H Hình 4). Chún ng tôi định
lượng mối quan hệ nàyy phụ thuộc vàào 2 yếu tố: 1) thời gian màà bài báo a đư ược đăng, bài báo càng đăn ng gần hiện
tại thì cànng có trọng số cao và 2) số llượng n các trích dẫn đến a. Nếu a càng ccó nhiều tríchh dẫn đến thì càng
c chứng
tỏ sự quann trọng về nội dung chuyên môn của nó.
H
Hình 4. Định lư
ượng mối quan hệ xuất bản
Công thức đề xuất là:
∆ ,
_ , . ∆
Trongg đó: là số lượng các trícch dẫn đến bàii báo a;
là số lượng các ttrích dẫn lớn nhất
n đến một bài
b báo;
∆ , Năm hiện tại - N Năm xuất bản a;
∆ là khoảng cách bbiệt thời gian xa nhất của một
m bài báo củaa c so với hiệnn tại.
3 Quan hệ quyền tác giảả: chuyên gia s là tác giả của
3) c bài báo a (Hình 5). Troong nghiên cứ ứu này chúng tôi coi các
đồng tác giả
g là có đóng góp như nhauu trong một bàài báo. Số lượ
ợng các đồng tá
tác giả càng nhhiều thì sự đón
ng góp của
mỗi ngườii càng nhỏ.
Hình 5.
5 Mối quan hệ quyền
q tác giả
Trọngg số của mối qquan hệ này đư
ược ước lượng
g như sau:
1
_ ,
Trongg đó: là sốố lượng các tácc giả của bài báo
b a.
4)
4 Quan hệ tham
t dự Ủy bban chương trrình: Chúng tôôi cho rằng vaai trò này phụ thuộc vào thờời gian của phiiên bản hội
nghị mà s tham gia ban chương trình. Nếu phiên bảản ở một quá khứ
k càng gần hiện tại thì cààng quan trọng g.
- Trần
T Hồng Diệpp, Nguyễn Văn Cường 151
H
Hình 6. Mối qu
uan hệ tham dự Ủy ban chươngg trình
Côngg thức định lượ
ợng được đưa ra là:
∆ ,
_ ,
∆
Trongg đó: ∆ , năăm hiện tại - nnăm mà s tham
m dự Ủy ban ch
hương trình củủa c;
∆ m chuyên giaa s tham gia Ủ
là khoảng cách bbiệt thời gian xa nhất của một Ủy ban chương trình của
c so với hiện tại.
Với việệc ước lượng bbốn loại mối quan hệ - cạnnh trong đồ thị chuyên mônn như trên, chúúng tôi tiếp tụ
ục định giá
cho
c năm vai trrò chuyên mônn như đã đề cậập như sau:
Trong đó
đ dấu sao (*)) thể hiện rằngg chúng tôi có
ó thực hiện chhuẩn hóa (norm
malisation) giiá trị tương ứn
ng về đoạn
giá
g trị [0;1]. Ký
K hiệu này đư
ược sử dụng cảả trong các mụ ục tiếp sau đó..
ơng trình của hội nghị cho ttrước c:
1) Vai trrò 1: chuyên ggia s là thành viên ban chươ
∗
_ ,
2) Vai trrò 2: chuyên ggia s là tác giảả của bài báo a đã đăng tron
ng một phiên bbản của hội ngghị cho trước c:
c
∗ ∗
_ , _ ,
3) Vai trrò 3: chuyên ggia s là tác giiả của bài báo a mà thực hiện một trích ddẫn đến bài bááo a’ đã đăng trong một
phiênn bản của c:
∗ ∗ ∗
_ , _ , _ ,
4) Vai trrò 4: chuyên ggia s là tác giảả của bài báo a mà được tríích dẫn bởi bàài báo a’ đã đăăng trong mộtt phiên bản
của c. Vai trò này ggần tương tự vvớ vai trò 3, ch
hỉ khác chiều của trích dẫn giữa hai bài bbáo a và a’:
∗ ∗ ∗
_ , _ , _ ,
5) Vai trrò 5: chuyên ggia s là đồng tác giả với một chuyên gia s’ khác trongg một bài báo chung a, mà s’ là thành
b chương trình của một pphiên bản trong
viên ban g quá khứ củaa c:
∗ ∗ ∗
_ , _ , _ ,
3.3.
3 Định nghĩĩa các chỉ số cchuyên môn dựa trên vai trò
Trong mục
m trước chúúng tôi đã đề ccập việc ước lượng
l 5 loại vai
v trò chuyên môn của mộtt chuyên gia ứng ứ cử viên
so
s với hội nghhị đang xem xéét. Thực tế thìì với mỗi kiểu
u vai trò này, một
m chuyên ggia ứng cử có tthể có nhiều hơnh hoặc ít
hơn
h hoặc khônng có số lượt hhoạt động chuuyên môn tươn ng ứng. Ví dụ một chuyên ggia s nào đó cóó thể là tác giả
ả của nhiều
bài d đến các bbài báo của hộội nghị c, có thể có không nhiều lắm sốố bài đăng troong chính hội nghị c đó,
b báo trích dẫn
nhưng
n lại chưaa có lần nào thham dự Ủy baan chương trìnnh. Với việc phân
p tích sự đóóng góp chuyyên môn của một
m chuyên
gia
g nghiên cứuu đối với một hhội nghị chuyyên ngành cho trước theo các vai trò chuyyên môn khác nhau, mỗi chu uyên gia sẽ
được
đ ước lượnng sự đóng gópp chuyên mônn theo 5 vai tròò đặt ra.
Dựa trêên phương phááp mô hình hóóa bằng đồ thị chuyên môn mà chúng tôi đã xây dựng ở trên, thực ch hất mỗi vai
trrò là một kiểuu “đường đi” nnối từ nút đại diện của hội nghị
n đang xét đến nút đại diiện cho chuyêên gia nghiên cứu.c Trọng
số
s của các “coon đường” nàyy được ước lư ượng dựa trên độ dài của co
on đường đó. Cụ thể là dựaa trên số lượng g các phân
đoạn
đ trên mỗi đường đi và dựa trên trọnng số của mỗi phân đoạn mà m cách ước lư ượng cho bốn loại phân đoạ ạn đã trình
bày
b ở trên. Vềề mặt ý nghĩa, mỗi chỉ số chhuyên môn màà chúng tôi đư ưa ra là dựa trêên tổng trọng số của một kiiểu “đường
đi”
đ cho một mỗi m chuyên giaa ứng cử viên.
Từ đây,, chúng tôi địnnh nghĩa 5 Chỉỉ số chuyên mô
ôn tương ứng với
v năm vai tròò cho mỗi chuy
uyên gia ứng cử
ử viên:
∗
Trong
T đó: là chỉ số tư
ương ứng với vai trò ;
làà số lần mà chhuyên gia ứng cử viên thực hiện
h vai trò n;;
là trọng lượnng đã tính của mỗi lần đóng vai trò n của ứng cử viên.
- 152 ĐỊNH NGHĨA MỘT SỐ CHỈ SỐ CHUYÊN MÔN CHO CÁC NHÀ KHOA HỌC LÀM NHIỆM VỤ ĐÁNH GIÁ…
Như vậy, sự đóng góp chung của mỗi ứng cử viên đối với hội nghị chuyên ngành đang xét sẽ là một giá trị tổng
hợp từ 5 chỉ số mà chúng tôi đã định nghĩa ở trên. Con số này sẽ đại diện cho tính thích đáng của chuyên gia ứng cử
viên hay nói cách khác nó trả lời cho khả năng được mời tham gia Ủy ban chương trình trong tương lai của chuyên gia
ứng cử viên đó.
IV. THỬ NGHIỆM MÔ HÌNH
Trong phạm vi thử nghiệm của chúng tôi, chúng tôi chọn hội nghị SIGIR - International ACM SIGIR
Conference on Research and Development in Information Retrieval, một hội nghị dẫn đầu trong ngành khoa học máy
tính. Các thông tin được thu thập đều là miễn phí: metadata của các bài báo khoa học, các trang hội nghị chính thức,
các bản thông tin về danh sách các thành viên ban chương trình,... Những thông tin này được chúng tôi thu thập từ các
thư viện số DBLP và ACM, chúng tôi cũng sử dụng kết quả của ArnetMiner [10].
Bằng cách như vậy, bộ dữ liệu của chúng tôi đã thu thập thông tin bao gồm 3.554 bài báo chính thức đăng trong
40 phiên bản hội nghị SIGIR từ 1971-2015. Từ tập các bài báo này làm cơ sở ban đầu để thu thập các bài trích dẫn và
được trích dẫn từ chúng: bao gồm 29.907 bài báo. Số lượng các thành viên của ban chương trình tham gia hàng năm
của SIGIR cũng được thu thập, từ phiên bản từ 2004-2015 là có thể tìm được, bao gồm 7.576 lượt thành viên tham gia
ban chương trình.
Thí nghiệm của chúng tôi được thiết kế nhằm trả lời câu hỏi: Chỉ số nào giải thích cho việc tham gia Ủy ban
chương trình của một chuyên gia? Câu hỏi này thực chất là xem xét sự ảnh hưởng của từng chỉ số mà chúng tôi đã định
nghĩa cho việc phát lời mời tham gia Ủy ban chương trình đến chuyên gia đó. Tuy nhiên, do không có một nghiên cứu
tương tự để so sánh, đồng thời, rõ ràng cũng không hề có một bảng xếp hạng chuẩn các chuyên gia làm đối sánh cho sự
đúng đắn của kết quả chúng tôi thu được, vì vậy chúng tôi sử dụng danh sách ban chương trình chính thức hàng năm
làm chuẩn. Cụ thể, chúng tôi sẽ tính toán các chỉ số dựa trên các phiên bản quá khứ của một năm y, kết quả thu được
đem so sánh với danh sách thành viên chính thức của Ủy ban tại chính năm y đó. Ví dụ chúng tôi tính toán chỉ số thứ
nhất cho mọi ứng cử viên dựa trên dữ liệu trước năm 2012, từ đó xếp hạng các thành viên theo chỉ số này và đem so
sánh sự trùng hợp với danh sách các thành viên chính thức của SIGIR 2012. Cụ thể chúng tôi thực hiện thí nghiệm với
các năm y là 5 năm: từ 2011 đến 2015. Với mỗi năm y đó, tính 5 chỉ số và thu được một danh sách xếp hạng theo chỉ số
tương ứng. Như vậy chúng tôi thu được 25 danh sách xếp hạng.
Để đánh giá kết quả, với mỗi danh sách xếp hạng, chúng tôi tính hai giá trị độ chính xác P@20 và P@100 như
được quy định trong IR - Information Retrieval. Kết quả so sánh này được chúng tôi thống kê trong bảng 1.
Bảng 1. Độ chính xác của các danh sách xếp hạng so với Ủy ban chính thức của năm tương ứng
Năm |cy| Vai trò 1 Vai trò 2 Vai trò 3 Vai trò 4 Vai trò 5
P@20 P@100 P@20 P@100 P@20 P@100 P@20 P@100 P@20 P@100
2011 426 0,90 0,80 0,60 0,57 0,40 0,43 0,55 0,43 0,05 0,05
2012 486 1,00 0,84 0,70 0,64 0,40 0,45 0,55 0,47 0,05 0,05
2013 431 0,95 0,86 0,75 0,61 0,45 0,44 0,55 0,42 0,10 0,07
2014 448 0,90 0,86 0,75 0,59 0,40 0,43 0,25 0,45 0,20 0,09
2015 432 1,00 0,85 0,80 0,60 0,45 0,42 0,25 0,45 0,10 0,07
Trong đó |cy| là số lượng các thành viên ban chương trình chính thức trong năm tương ứng.
Kết quả thu được cho thấy tính “thống trị” của vai trò 1. Có nghĩa là, một chuyên gia sẽ có khả năng được mời
cao nhất và khả năng càng cao khi họ đã tham gia và tham gia càng nhiều lần các Ủy ban chương trình trong quá khứ.
Chúng tôi kết luận rằng vai trò này là vai trò được đánh cao về uy tín đối với một học giả.
Đứng thứ hai là vai trò mà trong đó chuyên gia ứng cử viên là tác giả của các bài báo được đăng trong chính hội
nghị đang xem xét. Điều này cho thấy đây có thể là cơ hội cao hơn cho các nhà nghiên cứu muốn được tham dự lần đầu
tiên vào Ủy ban chương trình của hội nghị này, bằng cách hãy có được nhiều ấn bản ở nơi này trước đã.
Vai trò 3 và 4 có vẻ là các chỉ số ít liên quan hơn hai chỉ số trên, tuy nhiên cũng là những chỉ số đóng vai trò dự
báo tốt cho khả năng được mời. Vai trò cuối cùng, số liệu cho thấy là nó không được quan tâm lắm trong việc trở thành
một nhà thẩm định của hội nghị xem xét.
V. KẾT LUẬN VÀ ĐỀ XUẤT
Thành lập Ủy ban chương trình của một hội nghị chuyên ngành là một quá trình quan trọng và phụ thuộc vào cá
nhân chủ tịch của Ủy ban qua từng phiên bản. Quá trình này là không buộc phải công khai cho toàn cộng đồng. Chúng
- Trần Hồng Diệp, Nguyễn Văn Cường 153
tôi thực hiện định nghĩa các chỉ số chuyên môn nhằm tìm hiểu phần nào sự thành lập một Ủy ban chương trình của một
hội nghị chuyên ngành nào đó.
Qua thí nghiệm về các dữ liệu của SIGIR, chúng tôi có thể làm lộ rõ cách thức mà một chuyên gia được xem là
có nhiều đóng góp hoặc là có uy tín trong cộng đồng. Đồng thời nghiên cứu này cũng cho phép có các trợ giúp nhất
định cho chủ tịch Ủy ban khi tìm danh sách các chuyên gia để thành lập Ủy ban sắp tới.
Mô hình của chúng tôi đề xuất hoàn toàn sử dụng các dữ liệu có tính sẵn sàng cao (miễn phí, có sẵn). Mô hình
dựa trên việc thành lập đồ thị không đồng nhất cho phép tích hợp nhiều bằng chứng chuyên môn trong cùng một mô
hình. Đồng thời, việc phân tích và xác định các bằng chứng chỉ ra sự gần gũi về chuyên môn giữa các đối tượng mà
không cần phân tích nội dung các đối tượng đó. Điều này cho phép việc mô hình hóa tránh được các nhược điểm của
các mô hình dựa trên phân tích nội dung.
Trong tương lai, mô hình của chúng tôi nên được tiếp tục nghiên cứu sâu sắc hơn về tính dự báo các thành viên
mới của Ủy ban chương trình, đồng thời mở rộng số lượng các chỉ số. Việc kiểm định tính đúng đắn của mô hình có vẻ
không được tốt với việc lấy danh sách Ủy ban chương trình chính thức hàng năm làm chuẩn của sự đúng đắn. Việc
kiểm định này có thể được cải thiện bằng một khảo sát trên các chuyên gia hàng đầu trong lĩnh vực đang quan tâm.
VI. TÀI LIỆU THAM KHẢO
[1] N. De Bellis. “Bibliometrics and Citation Analysis”. Scarecrow Press, Lanham, 2009.
[2] K. Balog, Y. Fang, M. de Rijke, P. Sedyukov, L. Si. “Expertise Retrieval”. Foundations and Trends in Information
Retrieval, 2012.
[3]K. Balog, M. De Rijke. “Determining expert profiles”. 20th International Joint Conference on Artifical Intelligence
(IJCAI ’07), p. 2657-2662, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2007.
[4] G. Cabanac. “Accuracy of inter-researcher similarity measures based on topical and social clues”. Scientometrics
87(3), 2011.
[5] S. Han, J. Jiang, Z. Yue, D. He. “Recommending program committee candidates for academic conferences”.
Workshop on Computational Scientometrics: Theory and Applications (CompSci ’13), p. 1-6, ACM, New York,
NY, USA, 2013.
[6] J. E. Hirsch. “An index to quantify an individual's scientific research output”. PNAS November 15, 2005.
[7] Y. Liang, Q. Li, T. Qian. “Finding Relevant Papers Based on Citation Relations”. Web-Age Information
Management, vol. 6897, p. 403-414, 2011.
[8] V. Mangaravite, R. L. Santos, I. S. Ribeiro, M. A. Gonçalves, A. H. Laender. “The LExR Collection for Expertise
Retrieval in Academia”. 39th International ACM SIGIR Conference on Research and Development in Information
Retrieval (SIGIR ’16), 2016.
[9] T. Strohman W. Croft, D. Jensen. “Recommending Citations for Academic Papers”. 30th International ACM SIGIR
conference on Research and development in information retrieval (SIGIR ’07), 2007.
[10] J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang, Z. Su. “Arnetminer: extraction and mining of academic social
networks”. 14th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD ’08), p.
990-998, 2008.
DEFINING EXPERTISE INDICATORS FOR REVIEWERS OF SCIENTIFIC
CONFERENCES
Tran Hong Diep, Nguyen Van Cuong
Abstract: Organizing academic scientific conferences is a particularly effective solution for disseminating scientific findings of
scientists from all over the world. Normally, conducting the peer review of submitted papers is the responsibility of the program
committees of conferences, so their decisions will mainly affect the quality of the conferences. In reality, with a huge number of
scientific conferences held each year, it is an extremely difficult task for the program committee chairs to find researchers with
relevant expertise for participating in the program committees. In this paper, we propose a method based on different indicators of
expertise in order to give suggestions of members for the program committees of conferences.
nguon tai.lieu . vn