Dịch Thuật Hoa-Việt

Điểm: 100,00 (OI)

Giới hạn thời gian: 60.0s

Giới hạn bộ nhớ: 1M

Input: stdin

Output: stdout

Tác giả:

admin

Dạng bài

Ngôn ngữ cho phép

Output Only

1. Bối cảnh thực tế & Mục tiêu

Trong thời đại toàn cầu hóa, việc giao lưu kinh tế, học thuật và văn hóa giữa Việt Nam và Trung Quốc diễn ra mạnh mẽ. Hàng triệu tài liệu, bản tin và hội thoại cần được dịch nhanh chóng giữa hai ngôn ngữ.

Dịch máy (Machine Translation - MT) là một trong những thành tựu tiêu biểu của Trí tuệ Nhân tạo (AI). Các hệ thống như Google Translate hay ChatGPT đã chứng minh sức mạnh của các mô hình học sâu trong việc xử lý ngôn ngữ tự nhiên.

Trong đề thi này, thí sinh sẽ:

Hiểu cơ chế hoạt động của mô hình dịch máy
Huấn luyện mô hình dịch từ tiếng Trung giản thể (中文) sang tiếng Việt
Đánh giá kết quả bằng các thước đo chuẩn: SacreBLEU

2. Nhiệm vụ

Xây dựng một mô hình dịch máy tự động có khả năng dịch câu tiếng Trung giản thể (中文) sang tiếng Việt chính xác và tự nhiên.

Thí sinh có thể lựa chọn một trong các hướng triển khai:

Rule-based: Dịch theo tập luật và từ điển song ngữ
Statistical Machine Translation (SMT): Dựa trên xác suất xuất hiện đồng thời của từ/cụm từ
Neural Machine Translation (NMT): Huấn luyện mô hình học sâu Seq2Seq hoặc Transformer

⚠️ Lưu ý: Không được sử dụng các mô hình dịch Hoa-Việt đã được huấn luyện sẵn (pretrained models).

3. Tiêu chí đánh giá

SacreBLEU: Một phiên bản chuẩn hóa để đo lường độ tương đồng giữa bản dịch máy và bản dịch tham chiếu, cung cấp kết quả nhất quán và dễ so sánh giữa các mô hình.

Công thức SacreBLEU

$$ \text{SacreBLEU} = BP \cdot \exp\left( \sum_{n=1}^{N} w_n \log p_n \right) $$

Trong đó:

1. Độ chính xác n-gram

$$ p_n = \frac{ \sum_{\text{ngram} \in \text{hyp}} \min\left( \text{count}_{\text{hyp}}(\text{ngram}), \max_{\text{ref}} \text{count}_{\text{ref}}(\text{ngram}) \right) }{ \sum_{\text{ngram} \in \text{hyp}} \text{count}_{\text{hyp}}(\text{ngram}) } $$

p_n: Độ chính xác n-gram bậc n
w_n: Trọng số, thường là 1/4 cho ( n = 1,2,3,4 )

2. Hệ số phạt độ ngắn (Brevity Penalty)

$$ BP = \begin{cases} 1 & \text{nếu } c > r \\ \exp\left(1 - \frac{r}{c}\right) & \text{nếu } c \le r \end{cases} $$

Giải thích ký hiệu

count_hyp(ngram): Số lần xuất hiện của n-gram trong bản dịch máy
count_ref(ngram): Số lần xuất hiện trong bản dịch tham chiếu
c: Tổng độ dài bản dịch hệ thống
r: Tổng độ dài bản dịch tham chiếu

SacreBLEU đảm bảo đánh giá chính xác và đồng nhất, đặc biệt quan trọng khi so sánh hiệu suất giữa các mô hình dịch máy.

4. Data và baseline

Dataset và baseline có thể tải về tại đây (dùng mail gm.uit.edu.vn để truy cập)

5. Dataset và Submission Format

5.1 Cấu trúc Dataset

Bộ dữ liệu bao gồm tập huấn luyện (train) và tập kiểm thử (test):

dataset/
│
├── train/
│   ├── train.zh
│   └── train.vi
│
└── test/
    └── test.zh

Lưu ý định dạng:

Tất cả tệp dữ liệu được mã hóa UTF-8
Các file zh và vi phải có số dòng tương ứng
Không có tiêu đề, chỉ mục hay ký tự đặc biệt
Văn bản tiếng Trung phải dùng Unicode giản thể chuẩn

Chi tiết:

train.zh: chứa các câu tiếng Trung (input)
train.vi: chứa các câu tiếng Việt tương ứng (output)
Mỗi dòng trong train.zh tương ứng với cùng dòng trong train.vi

Ví dụ:

train.zh: 我喜欢学习
train.vi: Tôi thích học

test.zh: chứa các câu tiếng Trung cần dịch
Tập test không có nhãn, mô hình cần dự đoán câu tiếng Việt tương ứng

5.2 Nhiệm vụ dự đoán

Đối với mỗi câu trong test.zh, mô hình cần sinh ra câu tiếng Việt tương ứng.

Đây là bài toán machine translation (dịch máy) từ Trung → Việt.

5.3 Submission Format

File nộp bài có định dạng CSV như sau:

tieng_trung	tieng_viet
我喜欢你	Tôi thích bạn
今天很热	Hôm nay rất nóng

Ví dụ:

tieng_trung,tieng_viet
我喜欢你,Tôi thích bạn
今天很热,Hôm nay rất nóng

Trong đó:

tieng_trung: câu gốc từ test.zh
tieng_viet: câu dịch do mô hình dự đoán

5.4 Nén file submission

Sau khi tạo file submission.csv, cần nén thành .zip:

submission.zip
 └── submission.csv

5.5 Lưu ý

Phải dự đoán đầy đủ tất cả câu trong test
Không thay đổi nội dung cột tieng_trung
Không được để thiếu dòng

Bình luận

Bình luận

Hãy đọc nội quy trước khi bình luận.

Không có bình luận tại thời điểm này.