Accueil rkappa.fr

SAGACE : les corpus disponibles

Les corpus de la plateforme rKappa - Information

La plateforme permet d'étudier plusieurs sous corpus que nous détaillons ici. Tous sont des corpus écrits. Par manque d’expérience sur le domaine, il n’est pas prévu de proposer des corpus oraux. De toute façon, en l’absence d’outils pour les exploiter sur la plateforme, il ne serait pas possible de mettre autre chose que leur retranscription.

Liste des corpus (* corpus intégrés au corpus de référence):

  

Corpus littéraire écrit
Presse quotidienne
Journaux du jour
Titres des unes de journaux
Presse féminine
Sites web académiques
Sites web officiel
Blogs
Tchats
Livres blancs

  

Dictionnaires
Questions réponses écrites diverses
Textes juridiques
Questions écrites au gouvernement
Textes de linguistique
Brevets
Textes de mathématiques
Minutes de la Diète
BCCWJ
Corpus privé : articles de journaux, crise 2008

   Corpus de référence

Caractéristiques générales

Avant d’entrer dans la description des corpus un par un, voyons quelques paramètres généraux qui peuvent servir à les classer, et qui seront évoqués plus loin. Ces paramètres sont susceptibles d’impacter la qualité des résultats.

Origine

Les sous corpus de la plateforme sont répartis selon deux origines. La qualité est corrélée à l’origine.

Sous corpus à base de pages web : le corpus a été constitué en collectant des pages Web qui ont ensuite été débarrassées des balises HTML. Quantitativement, c'est le sous-corpus le plus volumineux.

Il n’y a pas eu de contrôle sur le contenu du texte : ni la répétition des textes ou des passages de textes, ni sur le thème du texte. La question de la répétition est abordée plus loin. Pour ce qui est de nature du texte, on peut trouver des informations éditoriales (copyright, liens etc.) ou publicité qui n’ont pas de rapport avec le corps du texte. La présence de ces données affectent les mesures lexicométriques, en particulier si elles sont répétées sur plusieurs pages et sont donc présentes. C’est ainsi que dans la collection aozora, collection de textes en général littéraire classiques et anciens, on trouve dans chaque page la phrase :

« このファイルは、インターネットの図書館、青空文庫(http://www.aozora.gr.jp/で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。 »

(« ce fichier, a été créé dans la bibliothèque internet « oazora ». La saisie, la correction et la finalisation sont faits par des bénévoles. »)

Cette phrase n’a aucun rapport avec la nature du corps du texte, constitué pour l’essentielle d’oeuvres littéraire classiques. Elle contient de nombreux termes informatiques comme fairu (« fichier informatique »). En l’absence de tout contrôle, l’étude du vocabulaire de ce corpus basée sur les fichiers non traités placera le mot fairu parmi les plus fréquents du corpus, ce qui n’est pas crédible. Heureusement pour ce cas, il est facile de repérer et d’éliminer automatiquement les notes éditoriales. Une telle opération n’est pas faisable pour tous les fichiers récupérés, et pour toutes les notes dont la forme, l’emplacement et le contenu ne sont pas toujours prédictibles. Sauf si ils sont répétés tels quels d’un fichier à l’autre et ainsi repérables et facilement éliminable, ils seront mêlés au texte du corpus et pourront affecter les résultats lexicométriques.

Corpus original ou déjà constitué

Certains sous-corpus ont été constitués de toute pièce, tandis que d’autres existaient déjà. Ceux déjà existants sont aozora et le BCCWJ. Les livres blancs sont un ensemble de textes que l’on peut considérer comme préconstitué. Tout le reste est obtenu par compilation de sites web et constitue à ce titre un corpus original.

Répétition des textes ou passages de textes

Le corpus est partiellement débarrassé des répétitions de textes ou passages de textes.

Au début du projet de constitution de corpus, l’idée première était d’obtenir un corpus qui soit le plus fidèle à ce que rencontre un lecteur japonais. J’ai donc considéré que les répétitions étaient en soi une propriété des textes. Pour les tâches de concordancier1 qui ont jusqu’à l’année dernière constitué ma principale demande, les répétitions ne sont pas un problème de fond. C’est juste une gêne qui à l’usage reste tout à fait supportable.

Mais dans des travaux de lexicométrie menés en 2011, cette fois ci les répétitions se sont avérées biaiser sensiblement les résultats, en produisant des fréquences irréalistes pour certains mots qui sont répétés d’une page comme par exemple « ホームページ » (home peeji). J’ai donc décidé de nettoyer systématiquement les nouveaux textes de toutes redondances. Pour l’instant, les textes acquis avant 2010 sont restés en l’état.

La presse d’avant 2011, le corpus issus des sites académiques et administratifs contiennent des répétitions. Le reste n’en contient pas, soit parce qu’il a été nettoyé, soit parce qu’il n’en contenait pas (ou en quantité négligeable).

Balisage

Le corpus comprend peu ou pas de balisage, sauf des informations bibliographiques. Ces données bibliographiques ne sont pas exploitées par SAGACE2 en ligne.

Une sous-partie du BCCWJ comporte un balisage relatif à la structure textuelle : marque de début et fin de phrases, paragraphes etc. Ces balises ne sont pas exploitées par SAGACE en ligne.

Echantillonnage

On distingue les « corpus de masse » et les « corpus échantillonnés ». Les premiers sont des collections de textes complets, les seconds sont constitués d’échantillons de textes, quelle que soit la méthode de l’échantillonnage. La majeure partie du corpus est de masse. Seul les corpus issus du BCCWJ sont (statistiquement) échantillonnés.

Mise à jour

Les sous corpus sont inégalement mis à jour. On distingue quatre situations : une absence de renouvellement, un renouvellement journalier, une complétion journalière et un renouvellement à dates fixes.

Récapitulatif pour les corpus de la plateforme rKappa

Voici un récapitulatif des corpus disponibles et des caractéristiques, en reprenant les critères énoncés dans les sections précédentes.



origine

Balisage

Echantillonné

Date de création et mise à jour

1

Aozora

constitué

Bibliographique

non

non (date de 2005 ?)

2

Journaux

web

Bibliographique


Augmenté quotidiennement

3

Journal du jour


Bibliographique


renouvelé quotidiennement

4

Titres de journaux


Bibliographique


Augmenté toutes les 20 mn

5

Presse féminine


Bibliographique


non (2010)

6

Sites académiques


Bibliographique


non (2008)

7

Sites officiels


Bibliographique


non (2008)

8

Blogs


Bibliographique


non (2008)

9

Tchats


Bibliographique


non (2010)

10

Livres blancs

constitué

Bibliographique


non (2011)


BCCWJ :





12

Chiebukuro


bibliographiques à part)



13

Best-seller




Non (1976-2005)

14

Ouvrage produits (extraits de lg. libre)


bibliographique

échantillonnage statistique

Non (2001-2005)

15

Ouvrages diffusés (extraits de longueur libre)


structure textuelle


Non (1986-2005)

16

Best-seller (extraits de longueur libre)




Non (1976-2005)

17

Ouvrages produits (extraits de longueur égale)




Non (2001-2005)

18

Ouvrages diffusés (extraits de longueur égale)




(1986-2005)

Contenu des corpus

Voici une présentation plus précise des sous corpus. Sera en particulier discutée la représentativité de ces corpus.

1- Corpus littéraire écrit (122.728 phrases)

Corpus de masse, statique, préconstitué, balisage avec informations bibliographiques. Il est libre de droits. Disponible à l’adresse http://www.aozora.or.jp.

Ce corpus est une collection de textes rédigés entre fin Meiji et les années 1970. Il est pour l’essentiel constitué de textes littéraires d’auteurs connus. Il comprend aussi quelques textes légaux (dont texte officiel du Ministère de l’éducation).

Les textes de poésie présents ont été abandonnés.

Globalement, il ne peut-être tenu pour représentatif car très hétérogène : s’étale sur 80 années en partant de la fin du XIX è siècle, sachant que sur cet intervalle de temps, la langue a sensiblement évoluée pour son vocabulaire, et dans une moindre mesure sa syntaxe et sa morphologie verbale.

2-Presse quotidienne (3.705.053 phrases)

Corpus original de masse, pages web sans balisage html, augmenté quotidiennement. Partiellement débarassé des répétitions.

Ce corpus est constitué des pages web des sites des principaux quotidiens de la presse japonaise nationale (ex. Asahi et Nihon Keizai Shinbun) et locale (ex. Chunichi sinbun), relevés entre 2009 et 2010. En tout 108 sites de quotidiens (en général un site par quotidien) ont été exploités. Une vingtaine n’ont pas permis de produire du texte. La collecte des pages s’est faite à partir de la liste des quotidiens car aucun autre moyen ne permet de différencier ces sites de sites commerciaux.

Depuis fin 2010, le corpus est augmenté quotidiennement par la version du jour du Asahi.

Les pages web de ces quotidiens sont en grande partie occupées par la version numérisée non complète de leur version papier. On dispose donc avec ces textes d’un corpus que l’on peut tenir pour représentatif du style journalistique. Par ailleurs, compte tenu de l’important tirage des journaux (presque chaque foyer japonais est abonné à un journal), on peut considérer que ce corpus donne une image assez représentative de la langue. 

Les textes collectés en 2009-2010 n’ont as été débarrassés de leurs répétitions. Les textes relevés quotidiennement depuis 2011 le sont.

3-Journaux du jour (environ 350 phrases)

Corpus de masse, pages web sans balisage html, balisage textuel ; change une fois par jour.

Constitué des articles du jour de trois quotidiens :

Asahi , 朝日 : journal généraliste grand public classé de centre gauche ; version gratuite en ligne.

Nikkei , 日本経済新聞 : journal économiqe généralise ; version gratuite en ligne.

Nikkan , 日刊工業新聞 : journal spécialisé de l'industrie ; version gratuite en ligne.

4- Titres des unes de journaux

Corpus de masse ; augmenté toutes les 20 minutes. Chaque titre est associé au nom du journal à la une duquel il était, à la date et à l’heure du relevé. Il comprend des redondances à dessein, permettant un suivi temporel des unes3 (et faire des statistiques associées au temps).

Sont listées dans ce corpus les titres des unes des pages web de trois journaux papiers, ainsi que la une du site de la radio-télévision nationale japonaise. Les titres de presse, voire peut-être4 spécifiquement les titres de presse sur le web, ont une syntaxe distincte de la prose journalistique présente dans le corps des articles. A ce titre, il était intéressant de pouvoir les étudier séparément.

A la date du 14 avril 2011, les unes de quatre sites de journaux suivants ont été choisies pour représenter tant bien que mal une couleur politique ou thématique :

Journal Asahi ( www.asahi.com ), « centre gauche »

Yomiuri ( www.yomiuri.co.jp ), « droite »

Nikkei ( www.nikkei.jp ), journal économique

NHK ( www.nhk.or.jp ), média à financement public et cotisation des téléspectateurs et auditeurs

La « coloration » politique et thématique est donnée à titre indicatif.

La structure des données permet de faire une recherche indépendamment pour chaque journal.

Ce corpus semble pouvoir être considéré comme représentatif.

5- Presse féminine (206.148 phrases)

Corpus de masse, pages web sans balisage html. Statique.

Ce corpus est constitué de pages de 17 sites associés à des revues papiers, classées comme « féminines » par le libraire en ligne amazon.co.jp .

Ce corpus est de qualité très limitée. Les critères de classements (dans la « presse féminine ») sont opaques et non motivés par son auteur. Il est impossible d’en évaluer la représentativité en l’absence d’indication sur le lectorat. Il est en plus très hétérogène : il y a certainement un écart de contenu et de forme entre un journal de mode pour jeune femme d’une vingtaine d’années et un journal « féminin »associé au journal économique Nikkei. Par ailleurs, sa taille est relativement limitée, ce qui affecte la fiabilité des résultats. Enfin, les sites ne semblent reprendre que peu de textes publiés sur papier.

Le seul point commun entre les sites collectés est qu’ils s’adressent aux femmes. On devrait donc plutôt parler de sites « adressés à un certain lectorat féminin ».

6- Sites web académiques (6.162.735 phrases)

Corpus de masse, statique, pages web sans balisage HTML. Corpus avec répétitions.

On été collectées les pages web de plus de 300 sites dont l’url comporte l’extension ac.jp, réservée aux organismes d’enseignement, avec une écrasante majorité d’universités.

L’objectif était d’obtenir un corpus de textes académiques (sciences dures ou sciences humaines). Cet objectif n’est pas atteint car le corpus contient aussi bien des textes administratifs en relation avec la scolarité par exemple, que des textes scientifiques, voire des blogs personnels pouvant aborder des sujets sortant du cadre académique.

On dispose donc plutôt là d’une image de la langue utilisée dans les textes qui circulent dans l’univers académique. Comme pour le corpus administratif (section suivante), il s’agit dans l’ensemble d’un corpus qui n’est pas spontané et qui a fait l’objet d’une phase de relecture correction avant mise en ligne.

7- Sites web officiel (2.199.409 phrases)

Corpus de masse, statique, pages web sans balisage HTM. Corpus avec répétitions.

Le principe a été de collecter les pages web de plus de 110 sites dont l’url avait l’extension « go.jp ». Cette extension est réservée aux sites de l’administration japonaise, niveau national ou local. Environ 90 autres sites en go.jp ont été consultés mais n’ont pas produit de texte.

L’objectif visé était de constituer un sous-corpus de textes représentatifs de la langue écrite administrative. Cet objectif n’est que partiellement atteint car le corpus obtenu contient beaucoup de textes qui ne sont pas à proprement « administratifs », comme des blogs, des listes de questions-réponses entre administrations et administrés. Certains contiennent par ailleurs des transcriptions de réunions (séances parlementaires) et à ce titre rendent compte d’une langue orale de type monologue, qui n’a rien à voir avec le langage administratif écrit.

Ce corpus ne donne donc qu’une idée approximative d’un style écrit « administratif ». Il est plutôt globalement représentatif d’une langue écrite (hors transcriptions de discours), « policée ». On peut penser qu’une caractéristique est de ne pas être un texte spontané et d’avoir fait l’objet d’un contrôle sur la forme et au fond : relecture par les auteurs et d’autres personnes avant mise en ligne.

8- Blog (110.236)

Corpus de masse, statique, pages web (sans balises HTML), avec marques des titres. Répétitions possibles mais certainement peu nombreuses.

Collection de pages de blogs collectés sur une centaine de sites.

Il n’y a pas de cohésion thématique ou stylistique de contenu entre les différents blogs. On peut par contre leur trouver deux points communs.

Le premier point commun est la liberté du mode d’expression. En ce sens on peut supposer qu’ils se différencient des corpus journalistiques, administratifs ou encore académique dans la mesure où il n’y a pas nécessairement de relecture et correction. La seule correction systématique, si il y en a une, sera un éventuel contrôle par l’hébergeur du blog, mais on peut penser qu’il s’agit alors du fond et non de la forme.

Le deuxième point commun aux blogs, qui les différencie des tchats cette fois-ci, est une relative absence de contraintes temporelles dans la rédaction. Les auteurs de blogs ont toute liberté pour décider du rythme de publication.

9- Tchats (19.031 énoncés)

Corpus de masse, statique, pages web (sans balises HTML), avec balisage bibliographique. Répétitions nombreuses, à l’intérieur même du texte ciblé (salutations etc.).

Collection de petite taille de pages de tchats, obtenue à partir d’une quinzaine de sites.

Un « texte » de tchat se présente sous la forme d’un échange entre au moins deux individus ne se connaissant pas nécessairement, sur le mode d’une discussion écrite. L’unité de travail n’est pas la phrase terminée par un point mais par un saut à la ligne car le point n’est pas systématiquement présent. Les tours de paroles coïncident en général avec le saut de ligne, ce qui permet de définir une unité de travail correspondant à un énoncé/tour de parole.

En comparaison avec l’ensemble des textes précédents, le tchat est un texte certainement plus spontané, dont la production est contrainte par la nécessité de réagir rapidement à une sollicitation pour maintenir l’échange. On peut donc penser que la phase de relecture/correction est très limitée voire inexistante.

La faible taille du corpus s’explique par l’absence d’archives dans les sites collectés : les pages sont renouvelées régulièrement et ne sont pas archivées, de sorte qu’il n’est pas possible de disposer des échanges datant de plusieurs jours.

Le corpus est représentatif.

10- Livres blancs (77.435 énoncés)

Corpus de masse, statique, pages web (sans balises HTML), avec balisage bibliographique. Absence de répétitions.

Création du corpus en 2010. Mise à jour en septembre 2011

Collection constituée d’une trentaine de livres blancs, publiés en 2009, 2010, 2011.
Les livres blancs sont des rapports techniques gouvernementaux sur différents domaines couverts par les ministères : sécurité intérieure, santé, relations extérieures, économies etc.

Les livres sont renouvelés chaque année.

Blin 2011-a [[7]], Blin 2011-b [[8]] fait apparaître à partir de l’étude du sous corpus du BCCWJ constitués d’extraits de livres blancs que ces textes ont recours à un vocabulaire très spécialisé.

Etant donné l’hétérogénéité thématique du corpus, il est difficile de parler de représentativité par « domaine ». Peut-être peut-on parler d’une représentativité « stylistique » étant donné qu’il s’agit de texte rédigé par une certaine classe de rédacteur, à destination de professionnels : un livre blanc est rédigé par des spécialistes, à destinations de spécialistes.

11- Dictionnaires

Corpus de masse, statique, pages web (sans balises HTML), avec balisage bibliographique. Absence de répétitions.

Création du corpus en 2011.

Collection du dictionnaire daijirin.

Collection considérée comme représentative du style de texte de type "dictionnaire"

12- Questions réponses écrites diverses (136.946 énoncés)

Corpus de masse, statique, pages web (sans balises HTML), avec balisage bibliographique. Absence de répétitions.

Création du corpus en 2011.

Compilation des pages web du site d'échange d'informations en ligne oshiete.goo.ne.jp. Chaque page contient une question adressée à tous, et éventuellement une ou plusieurs réponses. Dans certains cas, il n'y a pas de réponse.

Le style est très hétérogène. Le point commun est qu'il s'agit toujours d'un échange question-réponse et le corpus donne une image d'un certain type d'échange question réponse écrit. Le corpus sera donc à mettre en parallèle avec un autre type de question-réponse, celui beaucoup plus formel des questions au gouvernement.

13- Textes juridiques (32.640 énoncés)

Corpus de masse, statique, pages web (sans balises HTML), avec balisage bibliographique. Absence de répétitions.

Création du corpus en 2011.

Compilation de l'ensemble des six codes juridiques (Constitution 憲法, code civil 民法, code du commerce 商法, code pénal 刑法, code de procédure civile 民事訴訟法, code de procédure pénale 刑事訴訟法) et l'ensemble des règles juridiques produites en 2010, 2009, 2008 : lois 法律, (??) 内閣府令 et décrets 命令:

Le corpus est représentatif du style juridique écrit.

14- Questions écrites au gouvernement (54.369 énoncés)

Corpus de masse, statique, avec balisage bibliographique. Absence de répétitions.

Création du corpus en 2011.

Compilation de l'ensemble des questions du parlement au gouvernement, et les réponses. Ensemble des échanges pour les deux chambres, pour les années 2008, 2009 et 2010.

Le corpus est représentatif de lui-même... Il est représentatif d'un type d'échange question-réponse. (voir aussi corpus no.12).

15- Textes de linguistique (3 700 000 énoncés)

Corpus de masse, avec balisage bibliographique. Absence de répétitions. Evolution (prévue) par ajout de textes.

Création du corpus en 2011.

Augmentation 2013.

Collection de textes de linguistique japonaise : articles, chapitres d'ouvrages publiés dans des revues reconnues spécialisées en linguistique.

Du fait de sa très petite taille, le corpus ne peut être tenu pour représentatif en l'état.
Ajout en 2013 de la totalité des articles de la revue 国語学, de 1948 à 2004.

16- Brevets ( 7 million d'énoncés, 700 millions de caractères environ)

Corpus de masse, avec balisage bibliographique. Absence de répétitions. Evolution (prévue) par ajout de textes.

Création du corpus en 2012.

Collection de 47.177 brevets. Chaque brevet comprend plusieurs rubriques

Du fait de sa très grande taille et de son homogénéité, le corpus peut être tenu pour représentatif.

17- Textes de mathématiques ( environ 10.000 énoncés)

Corpus de masse, avec balisage bibliographique. Absence de répétitions. Evolution (prévue) par ajout de textes.

Création du corpus en 2012.

Collection d'articles (niveau universitaire) publiés en japonais.

18- Minutes de la Diète, les deux chambres ( environ 684.000 énoncés + 10 millions d'énoncés)

Corpus de masse, avec balisage bibliographique. Absence de répétitions. Evolution (prévue) par ajout de textes.

Création du corpus en 2012; modifié en 2013

Ensembles des minutes disponibles sur le site de la Diète. Pour plus d'informations sur la façon de récupérer les données, voir 荻野 2011 (même si ce n'est pas la procédure décrite qui a été utilisé pour ici). Les Minutes sont aussi partiellement disponibles sur le BCWWJ mais les conditions techniques et administratives d'utilisation de ce dernier sont devenues telles qu'il vaut mieux constituer sa propre ressource.

Le sous-corpus de la Chambre des Représentants (chambre basse; 衆議院) couvre la totalité des années 1947 à 2012. Le corpus est une version modifiée de 国会会議録データセット(対話コーパス). Il a été divisé en trois tranches 1947-1959, 1960-1979 et 1980-2012. Ce corpus contient environ 10 millions d'énoncés oraux retranscrits par écrit.

Balanced Corpus or Contemporary Written Japanese”

Le Balanced Corpus of Contemporary Written Japanese, (BCCWJ, 現代日本語書き言葉平均コーパス) est un corpus en cours de constitution à l’Institut National de la Langue Japonaise (国立国語研究所) qui vise à une bonne représentativité du japonais écrit. Il est amplement documenté (voir une synthèse, Maekawa kikuo, 2008 [[1]]) et nous nous limiterons ici à en présenter les grands traits.

Il est constitué de deux groupes de textes, l’un visant la représentativité, l’autre visant à compléter le premier sur des domaines spécifiques. Le premier est sous divisé en deux ensembles de textes, l’un rend compte des productions réelles (生産) (ouvrages, revues, journaux) de 2001 à 2005, l’autre représente les textes produits entre 1986 et 2005 qui sont effectivement diffusés (流通), et que l’on trouve à ce titre dans les bibliothèques (de Toukyou). Les textes complémentaires sont des textes techniques officiels (livres blancs), les comptes rendus des débats au parlement, le site d’échange d’informations Chiebukuro, les best-seller et les manuels scolaires.

Les sous-corpus ont fait l’objet d’un échantillonnage de deux types, avec des échantillons de longueur égale (1000 caractères à partir d’un caractère choisi aléatoirement) et de longueurs quelconque inférieure à 10.000 caractères (la totalité d’une structure textuelle (chapitre, paragraphe) comprenant un caractère choisi aléatoirement dans un texte.

Le BCCWJ contient par ailleurs un sous corpus segmenté lemmatisé et balisé (informations morpho-lexicales) conforme à la définition des lemmes dans le dictionnaire Unidic (Ogura, Koiso, Fujiike, 2009 [2]). Ce sous-corpus n’a pas été repris pour la plateforme rKappa car il suppose de se conformer à l’analyse morphosyntaxique de ce dictionnaire alors qu’au contraire l’objectif sur rKappa est de donner la plus grande liberté possible à l’utilisateur. Pour une discussion sur ce balisage, voir Blin R. 2011 (Blin R., 2011, à paraître [[]]).


Dans ce corpus, tout n’est pas d’un intérêt égal.

Par exemple, les livres blancs sont disponibles intégralement sur les sites du gouvernement japonais. Etant donné que les droits d’exploitation sont les mêmes pour les versions originales et pour la version BCCWJ, et étant donné la facilité qu’il y a à récupérer ces textes librement accessibles sur l’internet5, et enfin vu qu’il n’est pas plus difficile d’exploiter le corpus complet que sa version échantillonnée, alors il n’y a finalement pas grand intérêt apparent à exploiter la version BCCWJ. Le seul intérêt sera peut-être la version balisée, au cas où l’on adhère à la théorie morphologique appliquée.

Par contre, il est certain que le travail d’échantillonnage et de numérisation des ouvrages publiés, ceux réellement diffusés ainsi que les best-seller, est d’une richesse inégalable à l’heure actuelle. Reste un problème, celui des droits et des restrictions d’emploi, quoique cela n’affecte pas un usage strictement privé.

Pour ce qui est de la représentativité, il faut s’en remettre aux éventuelles études sur la question. Je n’en ai trouvé aucune, sauf ce qui est mentionné par les concepteurs du corpus.


Articles de journaux en relation à la crise économique (1.211 énoncés)

Corpus de masse, statique, avec balisage bibliographique. Absence de répétitions.

Corpus fourni par Valérie Collec-Clerc ...

Corpus constitués d'articles de presse en relation avec la crise économique, extraits des journaux Sankei, Nikkei, Mainichi, Yomiuri, de 2010. Pour plus de détails, contacter V.Collec-Clerc.

Journal

23/02

01/03

02/03

03/03

04/03

05/03

06/03

07/03

08/03

13/03

15/03

18/03

total

Mainichi

5

0

0

1

3

2

3

3

3

0

0

0

20

Sankei

1

2

1

1

2

2

2

1

3

1

2

1

19

Nikkei

2

0

0

2

4

2

3

4

3

0

0

0

20

Yomiuri

4

0

0

2

2

3

2

1

5

0

0

1

20


Corpus de référence du japonais écrit contemporain standard, v0.1

L'objectif est de proposer un corpus représentatif sans biais statistiques, fiable, traçable, utilisable librement (à défaut d'être diffusé librement). Il s'agit d'un projet qui vient de débuter (pour toute info, blin àt ehess fr.

Corpus de journaux (Asahi, Sankei, Mainichi,Akahata, hokkaido-np), versions en ligne.

Le corpus contient à peu près 3,3 million de phrases.

Créé par P.Marchal selon un protocole de sa conception, et un peu remanié par R.Blin, pour n'avoir que le texte de base (sans les mots clefs notamment).


Remarques

1 Le concordancier est une liste de d’exemples : on y présente le mot ou la structure linguistique cherchée et son environnement.

2 Les balises ne sont pas exploitées dans la version en ligne mais peuvent l’être dans la version sur ordinateur personnel. Voir le mode d’emploi.

3 Une application est actuellement à l’étude pour détourner sagace et faire un suivi de mots clefs dans la presse.

4 Ce problème étant complèment en dehors de mon domaine de recherche, je n’ai pas travaillé sur la question.

5 Les livres blancs sont téléchargeables librement sur le web tandis que l’acquisition du BCCWJ nécessite le remplissage de formulaire papier, l’acquisition du CD puis l’extraction des données visées.


blin at ehess . fr
11-09-09