Indiquer un mot ou n'importe quelle chaîne de caractères (en japonais ou français).
Segmentation: les unités de segmentation varient d'un texte à l'autre: syntagmes, phrases.
Qualité des recherches: La recherche est une simple recherche de sous-chaîne. Pas d'analyse syntaxique. La pertinence des extractions peut s'en ressentir, en particulier en japonais.
Qualité des traductions: Variable, de niveau amateur à professionnel.
Qualité des alignements: Seuls les textes dont l'alignement a été validé à la main ont été mis à disposition. Pour une discussion sur la qualité des alignements japonais>français, voir:
Raoul Blin. Automatic Evaluation of Alignments without using a Gold-Corpus: Example with French-Japanese Aligned Corpora. Kiyoaki Shirai. Conference on Language Resources and Evaluation (LREC 2018), May 2018, Miyazaki, Japan. 2018, Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 〈http://lrec-conf.org〉. 〈hal-01789350〉
Droits d'auteurs: En principe, la reproduction (au moins) des textes exploités est libre. Si leur exploitation posait problème, merci de l'indiquer à blin arobase ehess fr . Les textes seront immédiatement retirés. Dans tous les cas, chaque extrait comporte mention du site d'où il est extrait et la date de reproduction.
Corpus aligné:
Distribution des corpus: Pour l'instant, les corpus ne sont pas librement distribués, pour des raisons, entre autres de droits d'auteurs. Mais ils peuvent être mis à disposition dans le cadre de collaboration.
Liste des textes exploités (abréviation, titre et renvoi au site d'origine):
Les textes proviennent du corpus parallèle aligné japonais/français ALIGNJaFr-v0.8.2, R.Blin (CNRS-CRLAO), 2018-07-16
Corpus | Abréviation | Nombre de lignes | Nombre de mots (français) |
Statut de Rome de la Cour pénale internationale | CPI | 1 178 | 32 100 |
Monde Diplomatique | MD52 | 5 170 | 125 410 |
Universal Dependencies 2.0 – CoNLL 2017 Shared Task Development and Test Data | PUD | 1 001 | 21 706 |
tatoeba.org | Tatoeba | 30 007 | 261 896 |
chunks extraits du lexique-grammaire JaLexGram | fromTESTjalexgram | 91 | 374 |
fromrkappa | fromrkappa | 138 | 2 209 |
Liste de locutions | listeDesLocutions | 1 187 | 7 541 |
Corpus TED | ted.phrase | 221 849 | 4 340 884 |
Traduction niveau "veille" de titres de presse | titrespressesancien.litteral | 382 | 6 344 |
Titres de presse | titrespressesancien.propre | 382 | 5 750 |
Titres dans pages web ambassade de France à Tokyo | titreswebambassade | 1 886 | 19 747 |
traductionsmanuelles | traductionsmanuelles | 254 | 4 075 |
Convention entre le gouvernement de la république française et le gouvernement du Japon en vue d'éviter les doubles impositions et de prévenir l'évasion et la fraude fiscales en matière d'impôts sur le revenu | traite_impots | 401 | 15 527 |
Projet comparable: Jibiki
Pour toute question : blin@ehess.fr
|