Dịch Thuật Hoa-Việt
Xem dạng PDF1. Bối cảnh thực tế & Mục tiêu
Trong thời đại toàn cầu hóa, việc giao lưu kinh tế, học thuật và văn hóa giữa Việt Nam và Trung Quốc diễn ra mạnh mẽ. Hàng triệu tài liệu, bản tin và hội thoại cần được dịch nhanh chóng giữa hai ngôn ngữ.
Dịch máy (Machine Translation - MT) là một trong những thành tựu tiêu biểu của Trí tuệ Nhân tạo (AI). Các hệ thống như Google Translate hay ChatGPT đã chứng minh sức mạnh của các mô hình học sâu trong việc xử lý ngôn ngữ tự nhiên.
Trong đề thi này, thí sinh sẽ:
- Hiểu cơ chế hoạt động của mô hình dịch máy
- Huấn luyện mô hình dịch từ tiếng Trung giản thể (中文) sang tiếng Việt
- Đánh giá kết quả bằng các thước đo chuẩn: SacreBLEU
2. Nhiệm vụ
Xây dựng một mô hình dịch máy tự động có khả năng dịch câu tiếng Trung giản thể (中文) sang tiếng Việt chính xác và tự nhiên.
Thí sinh có thể lựa chọn một trong các hướng triển khai:
- Rule-based: Dịch theo tập luật và từ điển song ngữ
- Statistical Machine Translation (SMT): Dựa trên xác suất xuất hiện đồng thời của từ/cụm từ
- Neural Machine Translation (NMT): Huấn luyện mô hình học sâu Seq2Seq hoặc Transformer
⚠️ Lưu ý: Không được sử dụng các mô hình dịch Hoa-Việt đã được huấn luyện sẵn (pretrained models).
3. Tiêu chí đánh giá
SacreBLEU: Một phiên bản chuẩn hóa để đo lường độ tương đồng giữa bản dịch máy và bản dịch tham chiếu, cung cấp kết quả nhất quán và dễ so sánh giữa các mô hình.
Công thức SacreBLEU
$$ \text{SacreBLEU} = BP \cdot \exp\left( \sum_{n=1}^{N} w_n \log p_n \right) $$
Trong đó:
1. Độ chính xác n-gram
$$ p_n = \frac{ \sum_{\text{ngram} \in \text{hyp}} \min\left( \text{count}_{\text{hyp}}(\text{ngram}), \max_{\text{ref}} \text{count}_{\text{ref}}(\text{ngram}) \right) }{ \sum_{\text{ngram} \in \text{hyp}} \text{count}_{\text{hyp}}(\text{ngram}) } $$
- pn: Độ chính xác n-gram bậc n
- wn: Trọng số, thường là 1/4 cho ( n = 1,2,3,4 )
2. Hệ số phạt độ ngắn (Brevity Penalty)
$$ BP = \begin{cases} 1 & \text{nếu } c > r \\ \exp\left(1 - \frac{r}{c}\right) & \text{nếu } c \le r \end{cases} $$
Giải thích ký hiệu
- counthyp(ngram): Số lần xuất hiện của n-gram trong bản dịch máy
- countref(ngram): Số lần xuất hiện trong bản dịch tham chiếu
- c: Tổng độ dài bản dịch hệ thống
- r: Tổng độ dài bản dịch tham chiếu
SacreBLEU đảm bảo đánh giá chính xác và đồng nhất, đặc biệt quan trọng khi so sánh hiệu suất giữa các mô hình dịch máy.
4. Data và baseline
Dataset và baseline có thể tải về tại đây (dùng mail gm.uit.edu.vn để truy cập)
5. Dataset và Submission Format
5.1 Cấu trúc Dataset
Bộ dữ liệu bao gồm tập huấn luyện (train) và tập kiểm thử (test):
dataset/
│
├── train/
│ ├── train.zh
│ └── train.vi
│
└── test/
└── test.zh
Lưu ý định dạng:
- Tất cả tệp dữ liệu được mã hóa UTF-8
- Các file
zhvàviphải có số dòng tương ứng - Không có tiêu đề, chỉ mục hay ký tự đặc biệt
- Văn bản tiếng Trung phải dùng Unicode giản thể chuẩn
Chi tiết:
- train.zh: chứa các câu tiếng Trung (input)
- train.vi: chứa các câu tiếng Việt tương ứng (output)
- Mỗi dòng trong
train.zhtương ứng với cùng dòng trongtrain.vi
Ví dụ:
train.zh: 我喜欢学习
train.vi: Tôi thích học
- test.zh: chứa các câu tiếng Trung cần dịch
- Tập test không có nhãn, mô hình cần dự đoán câu tiếng Việt tương ứng
5.2 Nhiệm vụ dự đoán
Đối với mỗi câu trong test.zh, mô hình cần sinh ra câu tiếng Việt tương ứng.
Đây là bài toán machine translation (dịch máy) từ Trung → Việt.
5.3 Submission Format
File nộp bài có định dạng CSV như sau:
| tieng_trung | tieng_viet |
|---|---|
| 我喜欢你 | Tôi thích bạn |
| 今天很热 | Hôm nay rất nóng |
Ví dụ:
tieng_trung,tieng_viet
我喜欢你,Tôi thích bạn
今天很热,Hôm nay rất nóng
Trong đó:
- tieng_trung: câu gốc từ
test.zh - tieng_viet: câu dịch do mô hình dự đoán
5.4 Nén file submission
Sau khi tạo file submission.csv, cần nén thành .zip:
submission.zip
└── submission.csv
5.5 Lưu ý
- Phải dự đoán đầy đủ tất cả câu trong test
- Không thay đổi nội dung cột
tieng_trung - Không được để thiếu dòng
Bình luận