Di sản báo chí số cần được bảo vệ khẩn cấp

Đồ họa: Khiếu minh
Di sản đồ sộ và bài học từ quá khứ
Trong quá khứ, kỷ nguyên báo in đã để lại cho chúng ta một di sản đồ sộ. Những tờ báo in bằng chữ quốc ngữ đầu thế kỷ 20 như Lục tỉnh tân văn, Nông cổ mín đàm, Phụ nữ tân văn hay Tri tân dù chỉ tồn tại một thời gian rồi đình bản, nhưng nhờ xuất bản trên giấy, chúng đã được các thư viện lớn như Thư viện Quốc gia Pháp thu thập, lưu trữ cẩn thận dưới dạng vi phim (microfilm). Nhờ sự bảo quản vật lý vững chắc đó, ngày nay chúng ta mới có thể tập hợp, in lại thành những cuốn sách bách khoa vô giá như bộ khảo cứu về Tạp chí Tri tân hay cuốn Vấn đề phụ nữ ở nước ta (Phan Khôi) trích từ báo Phụ nữ tân văn...
Dữ liệu số vô cùng mong manh và có thể biến mất vĩnh viễn trong chớp mắt chỉ vì một sự cố máy chủ, thay đổi hệ thống hoặc khi tên miền hết hạn. Đây không chỉ là câu chuyện của riêng Việt Nam. Tại Mỹ, giới truyền thông từng bàng hoàng khi các trang mạng lớn như Gawker hay Gothamist đột ngột đóng cửa, khiến hàng chục năm lao động của các nhà báo bị biến mất ngay lập tức.
Tại sao chúng ta lại để mất dữ liệu dễ dàng đến vậy? Câu trả lời nằm ở sự lầm tưởng của chính các cơ quan báo chí. Nghiên cứu của Đại học Columbia (Mỹ) chỉ ra rằng, phần lớn các tòa soạn hiện nay đánh đồng việc sao lưu (backup) trên Google Docs hay máy chủ với việc lưu trữ vĩnh viễn (archiving). Nhưng thực tế thì sao lưu chỉ là tạo bản sao để phục hồi khi mất dữ liệu, còn lưu trữ là bảo đảm khả năng truy cập dài hạn dù công nghệ có thay đổi. Các hệ thống quản trị nội dung (CMS) sinh ra để phục vụ quá trình sản xuất và xuất bản web nhanh chóng chứ không được thiết kế làm kho lưu trữ lịch sử.
Quá trình chuyển đổi, nâng cấp hệ thống CMS cũng là một “máy chém” dữ liệu. Viện Báo chí Reynolds (RJI) cảnh báo rằng, việc dịch chuyển từ hệ thống xuất bản này sang hệ thống khác thường xuyên làm mất mát hoặc đứt gãy các siêu dữ liệu (metadata) quan trọng. Siêu dữ liệu chính là chiếc chìa khóa định danh tác giả, ngày tháng, bản quyền và ngữ cảnh của bức ảnh hay bài viết. Thiếu siêu dữ liệu, công cụ tìm kiếm trở nên vô dụng, bức ảnh gốc bị “mồ côi” và bài báo không thể xác minh tính xác thực.
Hạ tầng tri thức và “nguồn sống” cho trí tuệ nhân tạo
Chúng ta đang tích cực triển khai chuyển đổi số, xây dựng các mô hình trí tuệ nhân tạo (AI) khổng lồ. Nhưng AI không tự sinh ra tri thức. Báo chí, với những bài phóng sự, ghi chép, điều tra của hàng nghìn nhà báo mỗi ngày chính là “cánh đồng dữ liệu” nuôi dưỡng sự phát triển của AI. Tư duy bảo vệ dữ liệu báo chí phải được nâng tầm tương đương với việc bảo vệ các di sản tại Trung tâm lưu trữ quốc gia hay hiện vật bảo tàng. Nghiên cứu của RJI (Viện Báo chí Donald W. Reynolds) tại Đại học Missouri (Mỹ) đã chỉ ra một sự thật đáng suy ngẫm: Các cơ quan truyền thông công cộng, phi lợi nhuận làm tốt công tác lưu trữ dữ liệu số hơn 22% so các báo tư nhân hay báo thuần túy mạng. Lý do rất đơn giản, họ đưa việc bảo tồn di sản tri thức vào sứ mệnh và chính sách bắt buộc của cơ quan. Điều này cho thấy, công nghệ chỉ là công cụ; ý chí và nhận thức của con người mới là yếu tố quyết định.
Để cứu vãn di sản báo chí số trước khi chúng rơi vào “hố đen” của công nghệ, chúng ta cần phải hành động ngay lập tức bằng các chiến lược cụ thể:
Thứ nhất, tách bạch hệ thống xuất bản và hệ thống lưu trữ. Các cơ quan báo chí cần đầu tư hoặc đề xuất Nhà nước hỗ trợ trang bị các hệ thống quản lý tài sản kỹ thuật số hoặc kho lưu trữ độc lập tách rời với hệ thống xuất bản. Những hệ thống này bảo đảm, dù tòa soạn có thay đổi công nghệ web hay ngừng hoạt động, dữ liệu gốc và toàn bộ siêu dữ liệu vẫn được bảo tồn toàn vẹn.
Thứ hai, thể chế hóa trách nhiệm lưu trữ báo chí số. Cần có quy định bắt buộc các thư viện quốc gia và hệ thống thư viện chuyên ngành lưu trữ các bản sao kỹ thuật số tĩnh (như định dạng PDF hoặc vi bản web) của báo điện tử và tạp chí, giống như cách thu thập báo in. Đồng thời, các cơ quan báo chí cần thiết lập quy chế rõ ràng về việc bảo tồn siêu dữ liệu (metadata), bảo đảm minh bạch bản quyền và tính xác thực của thông tin khi truy xuất trong tương lai.
Thứ ba, “đóng băng” tri thức số bằng việc in sách. Đối với các tạp chí chuyên ngành học thuật bị sáp nhập hoặc đình bản, nơi chứa đựng hàm lượng nghiên cứu cao, các nhà xuất bản và hội nghề nghiệp nên phối hợp chọn lựa những bài báo xuất sắc nhất để biên soạn thành sách chuyên khảo. Đây là cách làm truyền thống nhưng cực kỳ hiệu quả để tái sinh vòng đời của dữ liệu điện tử, chuyển hóa chúng thành tài sản vật lý lưu truyền vĩnh viễn cho thế hệ sau.
Một quốc gia phát triển không chỉ biết đi tới tương lai mà còn phải biết gìn giữ tri thức của quá khứ. Khi một cơ quan báo chí bị sáp nhập hay đình bản, nếu chúng ta chỉ quan tâm đến con dấu, bộ máy hay việc thanh lý tài sản mà bỏ rơi hàng triệu tệp dữ liệu số, đó là một sự lãng phí lịch sử không thể tha thứ. Đừng để vài chục năm nữa, con cháu chúng ta tìm kiếm về những biến động kinh tế - xã hội của thập niên này và chỉ nhận lại thông báo lỗi “404 Not Found” hiển thị vô hồn trên màn hình. Việc cứu lấy các kho lưu trữ báo chí phải được triển khai một cách nghiêm túc, khoa học bởi đây đã là vấn đề cấp bách
Thái Văn Sinh
3 ngày trước
10 phút trước
1 giờ trước
1 giờ trước
1 giờ trước
Vừa xong
1 giờ trước
1 giờ trước
1 giờ trước