Résultats des expés menées avec TAJaFr
Visualiser les résultats des expés de traduction de TAJaFr
( Pour toutes questions sur le projet: blin @ ehess . fr)
Traducteur: Opennmt-8.1
Corpus: ALIGNJaFr-1.1.0
Pour comparer à Google (BLEU≈12,8), il vaut mieux prendre en compte les résultats avec corpus post-traités.
Les évaluations des expériences précédentes n'étaient pas réalistes.
| Texte non post-traité | Texte post-traité | |
no expe | BLEU | Meteor | BLEU | Meteor | Particularités de l'expé |
015 | 13.48 | 0.2897 | 6.31 | 0.2747 | brut |
018 | 13.33 | 0.2902 | 6.40 | 0.2748 | lemmatisation |
016 | 13.37 | 0.2877 | 6.30 | 0.2712 | lemmatisation+tags détachés |
017 | 13.44 | 0.2885 | 6.31 | 0.2729 | lemmatisation+tags collés |
Expé no 003
- Prétraitement du français:
normalisefr.1.0.0, option -b
( Logiciel basique qui sera (un jour) libre )
- Prétraitement du japonais:
- Normalisation des caractères:
normaliseja.1.0.0
( Logiciel basique qui sera (un jour) libre )
- Segmentation: Mecab v 0.996
- Dictionnaire: unidic
- Traducteur: OpenNMT-py, réglages par défaut
- Evaluation: BLEU
( Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). Association for Computational Linguistics, Stroudsburg, PA, USA, 311-318. DOI: https://doi.org/10.3115/1073083.1073135 )
- Post-traitement du français: reformfr.1.0.0
(Logiciel basique qui sera (un jour) libre)
ALIGNJaFr: pour des infos sur une ancienne version: Raoul Blin. Traduction automatique du japonais vers le français : Bilan et perspectives. Traitement Automatique du Langage Naturel, May 2018, Rennes, France. 2018. 〈hal-01796313〉. La version présente n'est pas encore décrite. Sera diffusé librement.
japress: n'est pas encore décrit et n'est pas libre.
Corpus |
Sous-corpus |
Nombre segments |
Nombre de mots |
Français | Japonais |
ALIGNJaFr-v0.8 |
Training | 268 101 |
5 971 343 |
5 798 316 |
Tuning | 498 |
11 504 |
11 329 |
Test | 995 |
23 291 |
22 322 |
japress-v0.3 |
Test titres de presse |
1 014 |
_ |
??? |
L'entraînement ne porte pas sur le "japress-v0.3"
|
Train |
Validation |
Decaying learning rate to |
Time (≃ mn) |
Epoch |
perplexity |
accuracy |
perplexity |
accuracy |
1 |
156.02
|
22.875
|
54.196
|
31.106
|
|
1159 |
2 |
47.387
|
32.974
|
31.407
|
37.236
|
|
769 |
3 |
32.108
|
37.171
|
24.27
|
40.660
|
|
336 |
4 |
25.536
|
39.640
|
21.383
|
42.052
|
|
956 |
5 |
21.771
|
41.34
|
19.515
|
43.051
|
|
759 |
6 |
19.28
|
42.646
|
18.490
|
44.039
|
|
1932 |
7 |
17.435
|
43.731
|
17.595
|
44.140
|
|
2693 |
8 |
16.03
|
44.674
|
16.990
|
45.184
|
0.
|
255 |
9 |
12.993
|
47.672
|
15.354
|
47.126
|
0.2
|
1046 |
10 |
11.340
|
49.598
|
14.611
|
47.631
|
0.12
|
1304 |
11 |
10.52
|
50.706
|
14.288
|
48.125
|
0.062
|
320 |
12 |
10.108
|
51.275
|
14.162
|
48.428
|
0.0312
|
166 |
13 |
9.8992
|
51.581
|
14.144
|
48.338
|
0.01562
|
170 |
|
|
|
|
|
|
≃197 H |
|
(Etat de l'art: Google Translate ja>fr, 2018/07/07, BLEU:14,37)
Epoch |
BLEU |
1 |
3.27
|
2 |
5.95
|
3 |
7.21
|
4 |
8.68
|
5 |
9.12
|
6 |
9.62
|
7 |
9.63
|
8 |
10.05
|
9 |
11.51
|
10 |
11.62
|
11 |
11.89
|
12 |
11.95
|
13 |
12.08
|
2018/07/09
blin@ehess.fr