Cette page est conçue à partir des ressources construites dans le cadre du projet TaJaFr. Il s'agit d'une application "buissionnière", pas d'un travail de fond.
Elle montre l'évolution du nombre d'occurrences d'un mot dans les titres de presse des cinq principaux journaux grand public japonais.
Utilisation
Taper en français le mot recherché. Ce mot est traduit en japonais et recherché dans les titres de presse. Le résultat est affiché sous forme de graphique. Le graphique montre le nombre d'occurrences quotidien. Les titres exploités sont ceux récupérés par la Page de titres "traduits". Ils sont relevés toutes les 20 minutes sur les sites des journaux. Certains peuvent rester un long moment et être relevés plusieurs fois.
Qualité des données
Le corpus n'est pas chargé en continu. Il ne l'est en général pas la nuit (en France) et peut ne pas l'être pendant quelques jours. Il y a donc dans le corpus des "trous". Le dictionnaire utilisé pour traduire les termes est obtenu à partir du JaLexGram, qui est un lexique grammaire en cours de construction. Des traductions peuvent être inadéquates.
L'analyse est basique et sujette à erreurs. Il s'agit d'une simple recherche de sous-chaîne (les mots japonais qui correspondent au mot cherché) dans une plus grande chaîne (le titre). Aucune analyse linguistique n'étant préalablement exécutée, des sous-chaînes peuvent être mal interprétées. Par exemple "riz" est traduit 米, qui sert aussi à retranscrire "Etats-Unis d'Amérique". L'analyse confond tous ces usages! Pour une discussion sur les erreurs possibles, voir ICI, entre autres.
Pour toute question : blin@ehess.fr
|