Xem mẫu
- XÂY DỰNG HỆ SINH THÁI DỮ LIỆU MỞ CÙNG CMCN 4.0
TS. Tạ Tuấn Anh1
1. DỮ LIỆU TRONG THỜI KÌ CMCN 4.0
Thông tin, dữ liệu đã luôn có vai trò ảnh hưởng quan trọng đối với
nền kinh tế công nghiệp. Tuy nhiên khi đến thời đại CMCN 4.0 thì nó
chiếm giữ ở vị trí số 1 và trở thành động lực chính tạo ra giá trị gia tăng
cho xã hội. Trước đây dữ liệu chỉ được sinh ra bởi con người với các
phương tiện thô sơ thủ công, thì nay dữ liệu có thể được thu thập một
cách tự động từ các thiết bị cảm biến thông qua nền tảng công nghệ IoT.
Dự tính đến 2023 trên thế giới sẽ có khoảng 50 tỷ thiết bị IoT (nguồn
statista.com). Chúng cung cấp ra một khối lượng dữ liệu khổng lồ về
hình ảnh, âm thanh, các số liệu đo đạc được thu thập từ hiện trường.
Ngoài ra công nghệ cũng cho phép con người thực hiện ghi chép và tạo
ra dữ liệu ở mọi lúc, mọi nơi và được ghi lưu lại một cách dễ dàng và
nhanh chóng. Ngày nay trên các mạng xã hội lớn như Facebook, Twitter
cứ sau mỗi phút thì một khối lượng lớn thông tin được tạo thêm từ các
chia sẻ của người dùng.
Dữ liệu lớn tạo ra được khái quát bằng 5V (Volume - Velocity -
Variety - Veracity - Value) để thể hiện cho các đặc điểm quan trọng của
nó là: khối lượng lưu trữ rất lớn; tốc độ tăng trưởng nhanh theo thời gian
thực; đa dạng về chủng loại với hơn 80% là dữ liệu dạng phi cấu trúc;
bị ảnh hưởng bởi nhiều nhiễu tác động tới sự đúng đắn của dữ liệu; và
mang theo các giá trị tiềm ẩn có thể khai thác. Để tạo ra giá trị, dữ liệu
bắt buộc phải được xử lí để trích rút ra thông tin và từ đó tạo ra tri thức.
1 Công ty cổ phần Phát triển nguồn mở và Dịch vụ FDS.
- PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở 317
Ví dụ chỉ với dữ liệu hình ảnh thu thập từ camera, thông qua công nghệ
xử lý dựa trên trí tuệ nhân tạo, hệ thống có thể tạo ra tri thức phán đoán
về hành vi tiêu dùng của khách hàng trong một siêu thị bán lẻ. Đây
chính là sức mạnh mà công nghệ sẽ tạo ra sự khác biệt khi ứng dụng
CNTT trong thời kì CMCN 4.0.
Dữ liệu có thể tạo ra giá trị và được xem như là tài sản vô hình.
Nó có đặc điểm là được khai thác sử dụng nhưng hoàn toàn không bị
tiêu hao. Tuy nhiên giá trị của dữ liệu không tồn tại vĩnh viễn. Nó còn
phụ thuộc vào mức độ cập nhật và khả năng có thể khai thác thông tin,
tri thức tiềm ẩn từ dữ liệu của người sử dụng. Dưới góc nhìn quản lý,
chúng ta phân chia dữ liệu thành 3 dạng sở hữu cơ bản gồm: dữ liệu khu
vực công, dữ liệu khu vực tư, và dữ liệu của cộng đồng.
Dữ liệu khu vực công được tạo ra từ các dịch vụ công (hành
chính, kinh tế, xã hội) và thường do các cơ quan chính phủ quản lý.
Tùy thuộc vào chính sách và nghiệp vụ quản lý cụ thể của nhà nước,
dữ liệu công có thể được công khai toàn bộ hoặc chỉ được chia sẻ một
phần cho người dân, doanh nghiệp khai thác để phục vụ phát triển
kinh tế xã hội. Khác với dữ liệu công, dữ liệu khu vực tư được tạo ra
bởi các doanh nghiệp để phục vụ cho mục đích kinh doanh của chính
tổ chức đó. Dữ liệu này thường bao gồm các thông tin khách hàng, tài
chính, cung ứng, sản xuất, và bán hàng. Nó là một phần tài sản thông
tin của doanh nghiệp và cần được bảo vệ để giữ lợi thế cạnh tranh
trước các đối thủ.
Ngày nay nhờ sự phát triển của Internet, dữ liệu còn có thể dễ dàng
được tạo ra và tập hợp bởi các cá nhân theo mô hình cộng tác. Đây
chính là phương thức vận hành của các nền tảng dựa trên nguồn lực
đám đông (crowd sourcing) như Wikipedia, Youtube,... Các tổ chức,
doanh nghiệp sở hữu nền tảng vận hành nhưng quyền tác giả đối với dữ
liệu hoàn toàn thuộc về cộng đồng. Tuy nhiên cần phân biệt rõ sự khác
biệt giữa nền tảng dữ liệu cộng đồng với các nền tảng sử dụng cộng tác
viên trong cộng đồng để tạo dữ liệu cho doanh nghiệp (vd. Open Street
Maps vs. Google Maps).
- 318 XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
2. DỮ LIỆU MỞ VÀ TÀI NGUYÊN TRUY CẬP MỞ
Dữ liệu là một dạng tài nguyên số và được bảo vệ sở hữu trí tuệ
giống như các sản phẩm sáng tạo khác (các tác phẩm văn học, nghệ
thuật và khoa học trong đó có chương trình máy tính và bộ sưu tập dữ
liệu). Bên cạnh dữ liệu, tài nguyên số còn bao gồm cả các loại tư liệu số
hóa khác là tài liệu điện tử, âm thanh, hình ảnh. Việc truy cập và khai
thác sử dụng các tài nguyên số phải tuân thủ luật bản quyền tác giả theo
hai phương thức chính là: được tự do sử dụng miễn phí và phân phối lại
dưới một giấy phép truy cập mở; hoặc đóng hoàn toàn cần có sự đồng
ý cho phép sử dụng của chủ sở hữu quyền tác giả. Tài nguyên số cấp
phép mở được quản lý lưu trữ trong các kho truy cập mở để có thể khai
thác sử dụng trên không gian mạng. Căn cứ vào tính chất và mục đích
sử dụng của nội dung, chúng ta có thể phân loại các kho lưu trữ gồm có
kho dữ liệu mở, kho xuất bản truy cập mở, kho tài nguyên giáo dục mở,
kho di sản số hóa mở,...
Phong trào cấp phép mở đã xuất hiện đầu tiên trong lĩnh vực phát
triển phần mềm máy tính. Nó theo đuổi triết lí công bố mở các mã nguồn
của phần mềm để cho phép tự do phân phối, sửa đổi, và tái sử dụng trong
các phần mềm phái sinh. Nhờ đó mã nguồn của phần mềm luôn đảm bảo
được duy trì và phát triển một cách bền vững bởi cộng đồng. Tuy nhiên
cho đến nay, các loại giấy phép nguồn mở được sử dụng không chỉ cho
mục tiêu lí tưởng, chúng đã hình thành ra các mô hình kinh doanh mới
dựa trên những nguyên lý của nền kinh tế chia sẻ. Tất cả các công ty
công nghệ lớn trên thế giới hiện nay như Google, Facebook, IBM, Intel,
Adobe,... đều đang có những đầu tư cụ thể để thúc đẩy sự phát triển của
các hệ sinh thái phần mềm nguồn mở khác nhau.
Tương tự như phần mềm nguồn mở, các tài nguyên số cũng có thể
được cấp phép truy cập mở. Giấy phép mở đầu tiên cho nội dung ra đời
từ năm 1998 có tên là GFDL (GNU Free Documentation License). Đây
là loại giấy phép có tính mở chặt chẽ nhất. Nó không cho phép tạo mới
các sản phẩm phái sinh để phục vụ cho mục đích lợi nhuận. Một nhánh
giấy phép thứ hai ra đời sau đó là OPL (Open Publication License). Nó
yêu cầu chỉ cần ghi công tác giả và cho phép được phân phối các sản
- PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở 319
phẩm phái sinh bằng một loại giấy phép khác có thể thu lợi nhuận. Cả
hai nhánh này sau đó được kế thừa để hòa nhập tạo chung một dòng
giấy phép truy cập mở được dùng phổ biến nhất hiện nay là Creative
Commons (CC).
Giấy phép CC quy định các quyền tự do sao chép, xuất bản đi
kèm với các điều kiện ràng buộc có thể được tùy chọn bao gồm: BY -
phải ghi công tác giả; SA - không được thay đổi giấy phép cho các sản
phẩm phái sinh; NC - không được phép thương mại hóa; ND - không
được phép tùy biến sửa đổi, tạo các sản phẩm phái sinh. Tổ hợp các
điều kiện lựa chọn khác nhau, ta có danh sách các loại giấy phép CC
như Bảng 1.
Bảng 1. Nội dung các loại giấy phép Creative Commons
(Nguồn: Lê Trung Nghĩa)
Một dòng giấy phép mở chuyên được sử dụng cho dữ liệu là Open
Data Commons (ODC). Bảng 2 liệt kê các loại giấy phép để lựa chọn
cho dữ liệu mở gồm có: PDDL (Public Domain Dedication and License)
tương đương với giấy phép công cộng CC0; ODC-BY tương đương
với giấy phép truy cập mở CC-BY (ghi công tác giả); và ODbL (Open
Database License) tương đương với giấy phép truy cập mở CC BY-SA
(ghi công và chia sẻ tương tự). Cả 3 loại giấy phép đều cho phép người
dùng được tự do chia sẻ, tạo dữ liệu mới hoặc sửa đổi cơ sở dữ liệu gốc.
Trong trường hợp sử dụng ODbL thì các dữ liệu phái sinh phải được
tiếp tục công bố với giấy phép tương tự.
- 320 XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
Bảng 2. Nội dung các loại giấy phép dữ liệu mở
(Nguồn: Lê Trung Nghĩa)
Theo đánh giá của World Bank [1], dữ liệu mở mang lại lợi ích cho
người dân, doanh nghiệp và chính phủ ở 4 điểm chính là: i) sự minh
bạch (giúp giám sát tốt hơn các hoạt động của chính phủ); ii) cải thiện
các dịch vụ công; iii) thúc đẩy tăng trưởng kinh tế và đổi mới sáng tạo;
iv) tính hiệu quả (giảm chi phí trong khai thác sử dụng dữ liệu). Cụ thể
theo một nghiên cứu tại Châu Âu, giá trị của thị trường tạo ra trực tiếp
từ dữ liệu mở được ước tính là 325 tỉ euro cho 5 năm 2016-2020, nó
giúp tiết kiệm 1,7 tỉ euro chi phí hàng năm trong lĩnh vực công, và tạo
ra 100.000 vị trí việc làm mới liên quan đến dữ liệu mở [2]. Theo một
nghiên cứu khác thì dữ liệu mở có thể tạo ra tổng giá trị mỗi năm cho
nền kinh tế tại Mỹ ước tính khoảng 3-5 nghìn tỉ đô la [3].
Ngoài ra dữ liệu mở và các tài nguyên truy cập mở còn là một phần
của khoa học mở [4]. Trong khoa học mở, thông tin của toàn bộ vòng
đời nghiên cứu sẽ phải mở để sao cho những người làm khoa học có thể
cộng tác và đóng góp. Các kết quả nghiên cứu gồm dữ liệu, phần mềm,
tài liệu ghi chép và xuất bản là sẵn sàng để tự do truy cập, áp dụng các
điều khoản cho phép sử dụng lại, phân phối lại và tái tạo lại trong các
nghiên cứu khác.
3. HỆ SINH THÁI DỮ LIỆU MỞ
Việc cấp phép truy cập mở cho dữ liệu chỉ là bước cần thiết đầu
tiên trong xây dựng hệ sinh thái dữ liệu mở. Giá trị của dữ liệu không
thể khai thác trực tiếp mà cần được xử lý đem lại cho người dùng thông
qua các ứng dụng. Ngoài ra nó cũng cần phải được duy trì phát triển
một cách có hệ thống và bền vững. Do đó điều kiện đủ để dữ liệu mở có
thể mang lại lợi ích cho xã hội là phải phát triển hệ sinh thái dựa trên 4
- PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở 321
yếu tố cơ bản gồm: tính pháp lí, mạng lưới tổ chức, mô hình kinh doanh
và tiêu chuẩn kĩ thuật.
3.1. Tính pháp lí của dữ liệu
Bên cạnh quyền tác giả, tính pháp lí của dữ liệu còn liên quan đến
quyền riêng tư, luật về bảo vệ dữ liệu cá nhân, bảo vệ bí mật của nhà
nước. Dữ liệu cá nhân chứa đựng các thông tin được gắn với một danh
tính xác định cá nhân cụ thể. Quyền riêng tư sẽ không thể có được nếu
không có sự bảo vệ những thông tin cá nhân khỏi truy cập, sử dụng, tiết
lộ, gián đoạn, sửa đổi hoặc phá hủy trái phép. Theo luật an toàn thông
tin mạng, thông tin cá nhân chỉ được phép thu thập và sử dụng sau khi
có sự đồng ý của chủ thể thông tin cá nhân về phạm vi và mục đích của
việc thu thập thông tin đó, trường hợp sử dụng vào mục đích khác mục
đích ban đầu phải có sự đồng ý của chủ thể thông tin cá nhân; không
được cung cấp, chia sẻ, phát tán thông tin cá nhân đã thu thập cho bên
thứ ba mà chưa có sự đồng ý của chủ thể thông tin cá nhân hoặc theo
yêu cầu của cơ quan nhà nước có thẩm quyền. Do vậy trong trường
hợp dữ liệu chứa thông tin cá nhân muốn được công bố với giấy phép
truy cập mở thì cũng cần phải có sự đồng ý của các chủ thể thông tin
cá nhân. Ngoài ra chủ thể thông tin cá nhân còn có quyền yêu cầu cập
nhật, sửa đổi, hoặc hủy bỏ thông tin cá nhân của mình khỏi bộ sưu tập
dữ liệu tại bất kì thời điểm nào.
Trong khu vực công, các dữ liệu cung cấp thông tin được yêu cầu
phải công khai theo quy định nhà nước thì cần được cấp phép truy cập
mở. Nó đảm bảo tính pháp lí cho người dân và doanh nghiệp có thể
khai thác sử dụng các thông tin công khai để sáng tạo ra nhiều ứng dụng
khác nhau đem lại lợi ích cho xã hội. Ngược lại, đối với dữ liệu chứa
thông tin mật thì phải được lưu trữ và bảo vệ an toàn thông tin theo
đúng cấp độ được quy định.
3.2. Mạng lưới tổ chức
Mở dữ liệu cũng là một phương thức đóng góp thể hiện trách nhiệm
xã hội của các cá nhân và tổ chức. Nó cần được khuyến khích và có sự
hỗ trợ từ cộng đồng để các chủ sở hữu có thể dễ dàng thực hiện mở dữ
- 322 XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
liệu theo đúng cách mang lại giá trị cho xã hội. Các mạng lưới tổ chức
được ra đời để đảm nhiệm vai trò duy trì và thúc đẩy các hoạt động mở
rộng hệ sinh thái dữ liệu mở trên thế giới. Một số mạng lưới tiêu biểu có
quy mô hoạt động toàn cầu hiện nay có thể kể đến là: Open Knowledge
Foundation (okfn.org), Open Data Institute (theodi.org), Open Data for
Development (od4d.net).
Các cá nhân, tổ chức tham gia vào các mạng lưới tổ chức như trên
để nhận được sự trợ giúp tư vấn, đào tạo và thậm chí là cả sự hỗ trợ tài
chính để thực hiện các dự án phát triển về dữ liệu mở. Ngoài ra các sự
kiện thường niên về dữ liệu mở cũng liên tục được tổ chức bởi các mạng
lưới để thu hút sự quan tâm của cộng đồng và chính phủ các nước. Ví
dụ ngày hội dữ liệu mở được tổ chức hàng năm ở nhiều nước trên thế
giới bởi các tổ chức đứng ra đăng cai là chủ nhà. Ngày hội tạo ra cơ hội
để trao đổi kiến thức và trình diễn các lợi ích của dữ liệu mở để từ đó
thúc đẩy các chính sách triển khai dữ liệu mở trong chính phủ, doanh
nghiệp và xã hội dân sự. Mỗi năm ngày hội sẽ quan tâm tới những chủ
điểm khác nhau. Chủ điểm của dữ liệu mở năm 2019 trên toàn cầu là
khoa học mở, bản đồ mở, minh bạch dòng tiền và dữ liệu cho sự phát
triển công bằng (opendataday.org).
Do tính chất xã hội hóa rất cao trong các hoạt động, mạng lưới tổ chức
dữ liệu mở thường phải được vận hành dưới sự quản lý của một doanh
nghiệp xã hội hoặc tổ chức phi chính phủ. Tổ chức này cần có đủ uy tín để
huy động được nhiều nguồn tài trợ khác nhau từ các cá nhân, tổ chức trong
đó có các chính phủ. Ngoài ra đơn vị còn có thể thu kinh phí từ các hoạt
động cung cấp dịch vụ hỗ trợ dưới hình thức phi lợi nhuận. Toàn bộ hoạt
động tài chính của tổ chức được công khai minh bạch trong cộng đồng.
3.3. Mô hình kinh doanh
Hệ sinh thái dữ liệu mở cần được phát triển bền vững dựa trên các
mô hình kinh doanh phù hợp. Có 5 vai trò chính được xác định trong
một hệ sinh thái nguồn mở là nhà cung cấp dữ liệu, nhà cung cấp dịch
vụ (phân tích dữ liệu), người phát triển ứng dụng, người sử dụng ứng
dụng và nhà cung cấp hạ tầng-công cụ. Trong hệ sinh thái này người sử
dụng ứng dụng là người tiêu thụ đâu cuối trong chuỗi giá trị gia tăng.
- PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở 323
Mọi dữ liệu dù thô hoặc đã qua phân tích xử lý đều phải được đưa tới
người dùng thông qua một ứng dụng có tính sáng tạo.
Mô hình kinh doanh của hệ sinh thái dữ liệu mở được vận hành
trên các nguyên lý của kinh tế chia sẻ. Dữ liệu có đặc tính quan trọng là
không bị tiêu hao khi khai thác sử dụng. Do vậy một tổ chức có thể nhận
các tài trợ hoặc sử dụng ngân sách chính phủ để tạo ra dữ liệu và cung
cấp miễn phí. Các doanh nghiệp sau đó tự do sáng tạo các ứng dụng và
dịch vụ khai thác dữ liệu mở để tạo ra các giá trị sử dụng mới cho người
tiêu dùng. Ví dụ, London có lợi thế là hệ thống cơ sở dữ liệu giao thông
vận tải chi tiết nhất thế giới và đều được công bố miễn phí. Citymaple
đã xây dựng ứng dụng để tìm hiểu người dùng đang ở đâu trong thành
phố và họ muốn đi đến địa điểm nào. Với dữ liệu họ có từ ứng dụng
của mình và dữ liệu trực tiếp từ chính phủ về hệ thống giao thông họ
tạo ra tuyến xe buýt linh động theo nhu cầu người sử dụng, tức là nó ko
đi đúng một tuyến mà ở đâu có người là nó đến đó [5]. Như vậy với dữ
liệu mà chính phủ tạo ra và họ được sử dụng miễn phí giờ họ xây dựng
mô hình kinh doanh và đưa lại chính ý tưởng đó cho chính phủ cải thiện
mô hình xe buýt của mình.
Trong thực tế, các mô hình kinh doanh tạo ra lợi nhuận dựa trên dữ
liệu mở được áp dụng trong từng doanh nghiệp rất đa dạng. Theo một
nghiên cứu [6], chúng có thể được phân chia vào 5 nhóm cơ bản gồm: i)
Freemium, miễn phí trên một tập hữu hạn dữ liệu hoặc số lượng truy cập,
sau đó tính phí với các yêu cầu dịch vụ bổ sung hoặc sử dụng bộ dữ liệu
có chất lượng cao hơn; ii) Premium, cung cấp dữ liệu có chất lượng cao
theo phí chi trả của khách hàng; iii) Cost Saving, doanh nghiệp không
chịu toàn bộ chi phí sản xuất mà giảm chi phí dựa trên sự tham gia đóng
góp của khách hàng; iv) Indirect Benefit, cung cấp dữ liệu mở để thúc đẩy
mở rộng thị trường cho mảng kinh doanh khác thu lại lợi nhuận chính của
doanh nghiệp; v) The Razor-Blade, giảm giá cho các bộ dữ đầu tiên, sau
đó tính phí cao hơn cho các bộ dữ liệu bổ sung. Phần lớn các mô hình
kinh doanh khác nhau được sáng tạo ra nằm trong hai nhóm Freemium và
Premium. Chúng ta có thể tham khảo thêm trên trang web opendata500.
com để biết mô hình kinh doanh dựa trên dữ liệu mở được áp dụng bởi
các doanh nghiệp hàng đầu ở các nước trên thế giới hiện nay.
- 324 XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
3.4. Tiêu chuẩn kĩ thuật
Để xây dựng hệ sinh thái, dữ liệu mở phải được xây dựng trên cơ
sở áp dụng các tiêu chuẩn kĩ thuật phù hợp với bộ nguyên tắc FAIR [7].
Bộ nguyên tắc này quy định các yêu cầu cần được bảo đảm để dữ liệu
có thể dễ dàng tìm thấy, truy cập, tương hợp và tái sử dụng bởi cả con
người và máy tính, cụ thể như sau:
Khả năng tìm thấy (Findable): F1 - sử dụng định danh toàn cầu
và vĩnh viễn cho dữ liệu và siêu dữ liệu; F2 - dữ liệu phải được mô tả
đầy đủ với các thuộc tính siêu dữ liệu; F3 - siêu dữ liệu phải chứa tham
chiếu tường minh tới định danh duy nhất của dữ liệu mà nó mô tả; F4
- dữ liệu và siêu dữ liệu được đăng kí và đánh chỉ mục trong một kho
tìm kiếm.
Khả năng truy cập (Accessible): A1 - có thể truy xuất dữ liệu và siêu
dữ liệu thông qua một giao thức tiêu chuẩn; A2 - siêu dữ liệu vẫn phải có
khả năng truy cập được ngay cả khi dữ liệu không còn tồn tại nữa.
Khả năng tương hợp (Interoperable): I1 - sử dụng ngôn ngữ máy
hiểu để biểu diễn dữ liệu và siêu dữ liệu; I2 - khai thác các từ điển thuật
ngữ dùng chung tuân thủ bộ nguyên tắc FAIR; I3 - có thể chứa tham
chiếu tới các bộ dữ liệu khác.
Khả năng tái sử dụng (Reusable): R1 - xuất bản dữ liệu và siêu dữ liệu
đi kèm với giấy phép truy cập mở; R2 - có mô tả chi tiết về nguồn cung cấp
dữ liệu; R3 - thỏa mãn các tiêu chuẩn ngành của lĩnh vực áp dụng.
4. HẠ TẦNG DỮ LIỆU MỞ TRONG CHÍNH PHỦ ĐIỆN TỬ
Như đã phân tích, dữ liệu mở trong khu vực công có ý nghĩa rất
quan trọng để thúc đẩy đổi mới sáng tạo và phát triển kinh tế xã hội tại
các quốc gia. Chính phủ cần ưu tiên xây dựng hạ tầng kĩ thuật tạo điều
kiện cho hệ sinh thái dữ liệu mở phát triển. Theo Tim Berners-Lee, các
công nghệ của web ngữ nghĩa sẽ được dùng để quản lí chia sẻ dữ liệu
trên mạng Internet trong tương lai. Công nghệ sử dụng cho hạ tầng
chia sẻ dữ liệu có thể phân chia theo 5 mức độ tăng dần để phù hợp với
nguyên tắc FAIR như sau.
- PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở 325
• Mức độ 1 - Cấp phép mở (Open License): đưa dữ liệu chia sẻ truy
cập trên Internet và cấp giấy phép truy cập mở.
• Mức độ 2 - Máy đọc được (Machine Readable): đã đạt mức độ 1
và dữ liệu phải được cung cấp dưới định dạng mà máy có thể đọc được.
• Mức độ 3 - Định dạng mở (Open Format): đã đạt mức độ 2,
cộng thêm yêu cầu phải sử dụng các định dạng dữ liệu tiêu chuẩn
mở (không bị khống chế bởi một nhà cung cấp duy nhất).
• Mức độ 4 - Định danh URI (Uniform Resource Identifier): đã
đạt mức độ 3, cộng thêm yêu cầu phải sử dụng các mã định danh URI
(thông qua biểu diễn XML) để mô tả (siêu) dữ liệu và các thuật ngữ
dùng chung.
• Mức độ 5 - Dữ liệu liên kết (Linked Data): đạt mức độ cao nhất
thỏa mãn đủ các nguyên tắc tiêu chuẩn FAIR, cho phép tham chiếu tới
các bộ dữ liệu khác trên toàn cầu (thông qua biểu diễn RDF).
Không phải tất cả hạ tầng dữ liệu mở hiện nay trên thế giới đều đã
đạt được mức độ 5. Tuy nhiên đây là đích đến tất yếu mà các hạ tầng dữ
liệu sẽ phải đạt được để hình thành hệ sinh thái mở trong tương lai. Mức
độ phát triển của hạ tầng kĩ thuật sẽ được dùng làm tiêu chí để đánh giá
xếp hạng về sự sẵn sàng dữ liệu mở của các nước. Ví dụ, bảng xếp hạng
của Open Knowledge Foundation (index.okfn.org) đang thực hiện đánh
giá dựa trên 6 tiêu chí gồm: cấp phép mở; định dạng mở và máy đọc
được; có thể tải về một lần; có cập nhật thường xuyên; công bố rộng rãi;
và miễn phí sử dụng. Các tiêu chí này yêu cầu tương đương với mức
độ 3 theo tiêu chuẩn 5 sao như kể trên. Theo kết quả đánh giá mới nhất,
Đài Loan, Úc, Anh, Pháp, Phần Lan hiện đang dẫn đầu trong tổng số 94
quốc gia trên bảng xếp hạng. Việt Nam vẫn còn nằm trong những nước
chưa được đưa vào bảng đánh giá xếp hạng về dữ liệu mở (do chưa có
đủ nguồn thông tin để thực hiện đánh giá).
Ngoại trừ các hệ thống cũ đã có từ trước, hạ tầng dữ liệu được xây
dựng cho các hệ thống mới cần ưu tiên đạt tối thiểu mức độ 4. Khi đó
phải thiết lập một hệ thống các chuẩn định danh duy nhất và các thuật
ngữ dùng chung để mô tả dữ liệu và siêu dữ liệu. Chúng nên được áp
dụng thống nhất trên phạm vi của cả quốc gia, ưu tiên sử dụng những
- 326 XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
chuẩn đã được quốc tế hóa. Ví dụ trong lĩnh vực thông tin khoa học
công nghệ, hệ thống mã quốc tế DOI được khuyến khích áp dụng để
định danh các công bố khoa học; mã ORCID để định danh người nghiên
cứu; các thuật ngữ của Dublin Core được dùng cho các1miêu tả siêu dữ
liệu. Việc áp dụng các chuẩn định danh và thuật ngữ dùng chung là yêu
cầu cần thiết để tạo thuận lợi cho quá trình trao đổi và tích hợp dữ liệu
trong một hệ sinh thái mở.
5.XÂY DỰNG HỆ SINH THÁI DỮ LIỆU MỞ TẠI VIỆT NAM
Việt Nam đang ở giai đoạn sơ khai của quá trình chuyển đổi số. Hạ
tầng dữ liệu quốc gia vẫn chưa được sẵn sàng. Đặc biệt ở trong khu vực
công, dữ liệu hiện chưa có nhiều và thường được quản lý khá manh mún.
Một số hệ thống CSDL tập trung vẫn còn đang trong quá trình triển khai
thông qua kế hoạch ưu tiên xây dựng 6 CSDL quốc gia về dân cư, đất đai,
đăng kí doanh nghiệp, dân số và tài chính. Do đó việc xây dựng hệ sinh
thái dữ liệu mở tại Việt Nam sẽ là một thách thức lớn do chúng ta còn
thiếu nhiều kinh nghiệm trong quản lý và khai thác dữ liệu lớn.
Tuy nhiên nhận thức về sự cần thiết xây dựng hạ tầng dữ liệu mở
đã được thể hiện trên thực tế trong các đề án xây dựng đô thị thông
minh tại một số thành phố lớn. Ví dụ trong Đề án của Thành phố Hồ
Chí Minh, “Trung tâm kho dữ liệu dùng chung và phát triển hệ sinh thái
dữ liệu mở” là một trong bốn trụ cột công nghệ sẽ được xây dựng. Hiện
Thành phố đã đưa vào vận hành Cổng khai thác dữ liệu mở tại địa chỉ
https://data.hochiminhcity.gov.vn. Dữ liệu mở được cung cấp trên Cổng
tương đương với mức độ 3 của tiêu chuẩn 5 sao. Tuy nhiên còn có một
thiếu sót lớn là tất cả các bộ dữ liệu được đăng tải trên Cổng chưa được
gắn với bất kì với một giấy phép truy cập mở nào.
Một đề án xây dựng hạ tầng dữ liệu khác ở quy mô quốc gia là
xây dựng Hệ tri thức Việt số hóa. Mặc dù không được đề cập trực tiếp,
nhưng toàn bộ mục tiêu và nội dung của Đề án hoàn toàn phù hợp với
mô hình xây dựng một hệ sinh thái dữ liệu và tài nguyên truy cập mở tại
Việt Nam. Hiện nay các sản phẩm của Đề án được công bố và đưa vào
vận hành khai thác tại địa chỉ https://itrithuc.vn. Các dự án thành phần
của Đề án hiện nay gồm có: Kho dữ liệu mở, Kho ứng dụng, Kho chia
- PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở 327
sẻ kiến thức, Kho tài nguyên giáo dục, Kho di sản số hóa, Nền tảng dữ
liệu bản đồ Việt Nam, và Nền tảng dữ liệu tiếng Việt. Tuy nhiên cách
tiếp cận xây dựng của các dự án chưa thực sự đáp ứng được các yêu cầu
phát triển bền vững dựa trên mô hình của hệ sinh thái mở. Các lí do cụ
thể được mô tả sau đây.
Thứ nhất, chỉ có Dự án “Kho dữ liệu mở” là đã được công bố mở
gắn với giấy phép CC BY-NC (không được thương mại hóa). Tất cả các
dự án khác đều chưa được công bố mở. Do vậy sẽ rất khó khăn cho việc
phát triển hệ sinh thái, cho phép đổi mới sáng tạo ra các nội dung, dịch
vụ và ứng dụng mới dựa trên các dữ liệu được chia sẻ. Các nhà phát
triển và người sử dụng sẽ gặp phải các vướng mắc bởi vấn đề pháp lí
khi bản quyền sử dụng không rõ ràng.
Thứ hai, chưa hình thành được mạng lưới tổ chức hỗ trợ cộng
đồng dữ liệu mở. Hiện nay toàn bộ Đề án đang được điều hành bởi Cục
Thông tin khoa học & công nghệ quốc gia trực thuộc Bộ Khoa học &
Công nghệ. Cơ quan này chỉ nên đóng vai trò thực hiện chức năng quản
lý của nhà nước trong việc thúc đẩy các chính sách về xây dựng hệ sinh
thái dữ liệu mở. Các hoạt động cụ thể của Đề án chỉ có thể xã hội hóa
được khi có một tổ chức phi lợi nhuận đảm nhiệm vai trò xây dựng
mạng lưới, thực hiện tư vấn, tập huấn cho các tổ chức, cá nhân tham gia
đóng góp vào việc tạo lập dữ liệu. Tổ chức phi lợi nhuận này cần hoạt
động như doanh nghiệp để có thể thu hút được nhiều nguồn tài trợ cả
trong và ngoài chính phủ phục vụ triển khai các dự án mở theo đúng các
chuẩn mực quốc tế.
Thứ ba, chưa có các chính sách cụ thể để khuyến khích hình thành
các mô hình kinh doanh dựa trên hệ sinh thái dữ liệu mở. Đây là yếu
tố then chốt quyết định tới sự phát triển bền vững của các dự án triển
khai trong Đề án. Tham gia vào hệ sinh thái sẽ không chỉ có các đơn vị
tạo lập và chia sẻ dữ liệu, mà cần có cả các đối tác phát triển ứng dụng,
cung cấp các dịch vụ giá trị gia tăng trên cơ sở khai thác dữ liệu mở. Họ
sẽ liên tục đổi mới, sáng tạo ra những mô hình kinh doanh mới tạo ra
giá trị kinh tế để đóng góp ngược trở lại cho hệ sinh thái.
- 328 XÂY DỰNG VÀ KHAI THÁC TÀI NGUYÊN GIÁO DỤC MỞ
Thứ tư, các nguyên tắc FAIR chưa được tuân thủ để hướng tới tạo
dựng được hạ tầng kĩ thuật đạt chuẩn mức độ 5 hỗ trợ dữ liệu liên kết
mở. Hiện tại các dữ liệu được công bố trong Kho dữ liệu mở của Đề án
mới đạt chuẩn mức độ 1 (còn sử dụng định dạng pdf không dùng được
cho máy đọc). Chuẩn dữ liệu sử dụng trong các kho dữ liệu khác của Đề
án thì chưa có các mô tả cụ thể được công bố. Để tránh lãng phí nguồn
lực, tất cả các dự án xây dựng mới dữ liệu được khuyến cáo phải xem
xét đạt chuẩn tối thiểu mức độ 4.
Dữ liệu là nguyên liệu tạo ra các tri thức cho tương lại. Xây dựng
hệ sinh thái dữ liệu mở là hướng đi theo đúng xu thế chung trên toàn thế
giới. Tuy nhiên nó là công việc rất phức tạp, đòi hỏi sự nhất quán và kiên
trì theo đuổi để đạt được mục tiêu trong dài hạn. Khó có thể tạo ra được
hệ sinh thái dữ liệu mở có thể mang lại ngay lợi ích kinh tế trong thời gian
ngắn hạn. Các cách tiếp cận làm dự án dữ liệu mở chạy theo phong trào
sẽ nhanh chóng lỗi thời, hết giá trị sử dụng do không được nuôi dưỡng
bởi một hệ sinh thái. Mặc dù có rất nhiều thách thức, nhưng Việt Nam là
nước đi sau nên có cơ hội học hỏi kinh nghiệm các nước đi trước để chọn
ra được các cách làm đúng, tránh được sự lãng phí trong các đầu tư.
TÀI LIỆU THAM KHẢO
1. The World Bank Group, “Starting an Open Data Initiative”, truy cập ngày
20/8/2019 tại https://opendatatoolkit.worldbank.org/en/starting.html
2. European Data Portal, “Creating Value through Open Data”, truy cập
ngày 20/8/2019 tại https://www.europeandataportal.eu/en/highlights/
creating-value-through-open-data
3. James Manyika, Michael Chui, Diana Farrell, Steve Van Kuiken, Peter
Groves, and Elizabeth Almasi Doshi, “Open data: Unlocking innovation
and performance with liquid information”, truy cập ngày 20/8/2019 tại
https://www.mckinsey.com/business-functions/digital-mckinsey/our-
insights/open-data-unlocking-innovation-and-performance-with-liquid-
information
4. Lê Trung Nghĩa, “Rất cần khoa học mở cho CMCN 4.0”. Tạp chí Tia
sáng, truy cập ngày 20/8/2019 tại http://tiasang.com.vn/-doi-moi-sang-
tao/Rat-can-khoa-hoc-mo-cho-CMCN-40--10878
- PHẦN 3. Công nghệ và công cụ cho tài nguyên giáo dục mở 329
5. Thanh Nhàn, “Mở dữ liệu chính phủ - Kinh nghiệm từ Vương quốc Anh”,
Tạp chí Thông tin và Truyền thông, truy cập ngày 20/8/2019 tại http://
ictvietnam.vn/tuong-tac/mo-du-lieu-chinh-phu-kinh-nghiem-tu-vuong-
quoc-anh.htm
6. Zeleti, F. A., Ojo, A., & Curry, E. (2014). “Emerging Business Models for
the Open Data Industry: Characterization and Analysis”. In Proceedings
of the 15th Annual International Conference on Digital Government
Research (pp. 215–226).
7. Wilkinson, M. D. et al. “The FAIR Guiding Principles for scientific data
management and stewardship”, Scientific Data. Vol 3, 2016.
nguon tai.lieu . vn