Un possible foyer originel des langues indo-européennes

Et les migrations de leurs locuteurs, sous l'angle de la méthode développée de reconstitution du niveau de séparation (Separation Level Recovery under Two Distributions, SLR2D)

        >Version anglaise                >Deutsche Version

Par Hans J.J.G. Holm (grand merci à Caroline Barzilaï pour la traduction primordiale)

0. La plupart des gens cultivés ont une vague idée de ce que sont les langues «&xnbsp;indo-européennes&xnbsp;»&xnbsp;: ce sont les nombreuses langues qui sont parlées du nord-ouest de l’Europe au sous-continent indien (et même, historiquement, au Xinjiang, dans le nord-ouest de la Chine) et qui sont liées par leur grammaire et par un fond lexical commun hérité (système numérique ou pronoms, par exemple). Pour les notions de base, on peut se reporter aux grandes encyclopédies. Les correspondantes pages Wikipedia sont médiocres. La plus grande prudence s’impose concernant les nombreuses pages Internet ésotériques et farfelues qui sont dénuées de tout fondement linguistique, archéologique ou statistique (voir Holm 2007c); ces pages se reconnaissent souvent à leurs maigres références bibliographiques et à leurs inepties raciales.

1. La principale question qui fait encore débat concerne les liens originels et les développements préhistoriques de ces langues, l’ordre dans lequel les différentes branches se sont séparées du tronc commun. La principale erreur (commise encore aujourd’hui) consiste à croire que deux langues sont d’autant plus proches qu’elles possèdent un grand nombre de caractères communs. Cette vision superficielle néglige le fait que la quantité de caractères communs dépend, entre autres, du degré de conservation des caractères d’origine, autrement dit du nombre de remplacements lexicaux intervenus après la séparation des langues étudiées (voir Holm 2003). Il est évident que des langues ayant subi des pertes importantes (comme l’albanais et l’arménien) présentent moins de concordances, malgré leur étroite parenté, que des langues à grand corpus comme le grec ou l’indien. Malheureusement, cette donnée est trop souvent négligée.

1.1. Exprimés mathématiquement, ces paramètres sont dans un rapport de dépendance hypergéométrique et nécessitent une transformation préalable. Seule la transformation SLRD permet de déterminer la quantité de caractères communs à deux langues au moment de leur séparation, qu’on appellera leur «&xnbsp;niveau de séparation&xnbsp;». On trouvera dans Holm 2000 le niveau de séparation de 91&xnbsp;paires de langues appartenant à 14&xnbsp;branches indo-européennes établies.

1.2. Comme le nombre de caractères originels ne peut que décroître au fil des influences historiques successives, il est possible de déduire un ordre de séparation univoque (à ne pas confondre avec la «&xnbsp;glottochronologie&xnbsp;»), représenté ici sous la forme simplifiée d’un >arbre généalogique avec indications des mots servant à désigner la main dans les différentes branches (forme la plus ancienne de ces mots). Cet ordre de séparation peut et doit être appliqué aux différentes hypothèses concernant le foyer originel («&xnbsp;Urheimat&xnbsp;») et les migrations des locuteurs du proto-indo-européen.

1.3. Les contactes prouvées linguistiques entre les langues indo-européennes et uraliennes à partir de les plus premières âges tout porte à croire que ce foyer originel ce foyer originel se situe au nord de la mer Noire (région du Pont, voir par exemple Anthony 2007). On trouvera ici ma proposition d'une >carte de migrations. On notera qu’à ce jour, aucune thèse des voies de migration n’a pu être validée.

2. Si l’on remonte à partir des données historiques avérées sur les Hittites, il apparaît clairement que l’expansion des langues indo-européennes et l’adoption de la métallurgie du bronze, des charrettes à bœufs à quatre roues et des tumulus funéraires sont des phénomènes parallèles. Cela ne signifie pas que les Indo-Européens aient inventé ces techniques ou ces coutumes, mais cela indique tout de même qu’ils les ont largement employées. Les Indo-Européens étaient des bergers nomades qui possédaient des chevaux et savaient probablement les monter, ce qui devait leur conférer un avantage tactique déterminant dans les guerres. La tentative de confirmer ou d’infirmer la domestication du cheval au moyen de traces de mors achoppe sur un point&xnbsp;: il existe des dizaines de brides sans mors. En l’état actuel des connaissances, les migrations ont pu se dérouler beaucoup plus rapidement, mais aussi un peu plus tôt ou un peu plus tard.

3. Les langues dites anatoliennes, en particulier le hittite, sont un autre sujet de débat&xnbsp;:
- étaient-elles membres à part entière du proto-indo-européen
- ou les dernières n’ont-elles achevé leur développement qu’après la séparation du hittite&xnbsp;?

4. Reconstituer des arbres généalogiques à l’aide de paquets de logiciels issus de la biosystématique, qu’on utilise de manière machinale, semble être à la mode. Or ces reconstructions reposent sur au moins l’une des hypothèses erronées suivantes&xnbsp;:
4.1. le principe primitif de ressemblance qui néglige totalement les interdépendances réelles évoquées au point [1] et prétend que plus les langues partagent de «&xnbsp;cognates&xnbsp;», plus elles sont proches (confusion avec la «&xnbsp;distance créée par l’évolution », voir le «&xnbsp;piège de la proportionnalité&xnbsp;» dans Holm 2003),
4.2. l’hypothèse selon laquelle les mots seraient remplacés à un rythme donné, résurgence malheureuse de la glottochronologie douteuse. Il suffit de regarder n’importe quel mot dans un dictionnaire étymologique et de tenter de comprendre son origine pour voir l’absurdité de cette thèse&xnbsp;: l’apparition d’un mot n’est jamais liée à un cycle quelconque, mais à un événement historique (culturel, technique ou militaire), par nature imprévisible et incalculable. Ainsi environ 50&xnbsp;% du vocabulaire germanique de l’anglais a été remplacé non pas à un rythme donné, mais du fait de la domination des Normands, qui ont remporté la bataille d’Hastings, et de la longue prédominance du latin en théologie et dans les sciences, comme tout Anglais un peu instruit le sait. Le fait que dans le «&xnbsp;vocabulaire de base&xnbsp;», ces remplacements lexicaux soient de moins en moins fréquents ne change rien au caractère imprévisible de leur origine socio-historique. D’ailleurs, le «&xnbsp;vocabulaire de base&xnbsp;» de l’anglais contient encore 6&xnbsp;% d’emprunts aux dialectes vikings – fait négligé par les «&xnbsp;experts&xnbsp;» (voir Holm 2007c). On ne peut reprocher aux journalistes de ne pas saisir les implications de ces théories. Mais il est regrettable que des chercheurs ignorent ces données de base et reprennent aveuglement des méthodes de comparaison machinales.
--------



 5. S o u r c e s :
- Holm, Hans J. (en cours): >Holm's cartes d'histoire personelles de l'Europe De le Biscay à la mer Caspienne - de la période glaciaire à la moyen Age, dans 27 tranches de temps. - Holm, Hans J. (in preparation): Steppe Homeland of Indo-Europeans Favored by Bayesian Approach with Revised Data and Processing. - Nouvelle approche Bayésienne de l'évolution préhistorique des langues Indo-Européennes, avec des parallèles archaeologiques..
- Holm, Hans J. (2016, in progress): >Indo-European Universal Concept List (M. Swadesh's 1971=final 100 meanings). With "unmarked" translations in 17 representative extinct and modern IE languages. - For lexicostatistical purpose only! - Holm, Hans J. (2011): Archäoklimatologie des Holozäns: Ein durchgreifender Vergleich der "Wuchshomogenität" mit der Sonnenaktivität und anderen Klimaanzeigern ("Proxies"). - Moyenne et tard holocène changements climatiques dans carottes de glace en Groenland en regard de limites d’arbre dans les Alpes - Archäologisches Korrespondenzblatt 41-1:119-132. Pour voir le pdf, s.v.p. click >Archéoclimatologie
[Résumé : Les approches récentes en regard de la validité de l’homogénéité de croissance des chênes de l’Europe centrale et du deux proxies (indicateurs climatiques) de l’activité du soleil ne supportent pas notre comparaison tranchante. Ceci est valable avant tout á l’égard des allégations climatiques, p.ex. de la précipitation. Au contraire, des meilleures correspondances paraient reconnaissables pour les derniers 9 000 ans entre les limites d’arbre dans les Alpes, en tant que l’interprétation de la température de carotte de glace du forage NGRIP.]

- (2011): "Swadesh lists" of Albanian Revisited and Consequences for Its Position in the Indo-European Languages. The Journal of Indo-European Studies 39-1&2. - English and updated version (voir >Corrigenda) -
[In the last decade, several scholars claimed to have finally solved the subgrouping of Indo-European by new lexicostatistical attempts. The public of course was not able to perceive the questionable outcomes, of which the different and idiosyncratic positions of Albanian are particularly conspicuous. One reason for this is the inadequate methods, simply copied from bioinformatics (cf. Holm, H. J. 2007). That defective data may contribute a great deal to these mistakes, is now first demonstrated here by analysing the Albanian part of three representative lists frequently employed in these studies: Thirteen percent of the data on these lists contains errors and this mixes inextricably with the overlooked stochastic dispersion. Seventeen new etymologies are proposed; however, about thirty per-cent of the list remains unsolved or questionable. Moreover, the high amount of differently changing replacements in Albanian is one more compelling argument against the rate assumption in glottochronology.]

- Holm, Hans J. (2010), Review of: Frank Sirocko (Hg.) "Wetter, Klima, Menschheitsentwickung, Von der Eiszeit bis ins 21. Jahrhundert". (En allemand, voir page allemand, s.v.p)
- Holm, Hans J. (2009):Albanische Basiswortlisten und die Stellung des Albanischen in den indogermanischen Sprachen. Zeitschrift für Balkanologie Nr. 45-2. Wiesbaden, Harrassowitz. 171-205. - Examen critique de quelques listes lexicales utilisées dans les travaux lexicostatiques -
[Résumé : Après avoir étudié la méthodologie des nouvelles tentatives lexicostatiques de classification des langues indo-européennes dans Holm, Hans J. (2007: The new Arboretum of Indo-European 'trees', in: Journal of Quantitative Linguistics, 14-2), nous testons ici les données rapprochées, en l’occurrence la partie sur l’albanais de trois travaux représentatifs. Nous proposons de nouvelles solutions à de nombreux cas jusqu’alors problématiques, par exemple quelques emprunts au turc des Balkans. En outre, le fort taux de remplacement en albanais est un autre argument fort contre l’hypothèse des taux de remplacement de la glottochronologie.]
- Holm, Hans J.,Besprechung zu: Frank Sirocko (Hg.) "Wetter, Klima, Menschheitsentwickung, Von der Eiszeit bis ins 21. Jahrhundert".
(En allemand, voir page allemand, s.v.p.)
- Holm, Hans J. (2008): The Distribution of Data in Word Lists and its Impact on the Subgrouping of Languages. In: Ch. Preisach, H. Burkhardt, L. Schmidt-Thieme, R. Decker (Editors): Data Analysis, Machine Learning, and Applications. Proceedings of the 31th Annual Conference of the German Classification Society (GfKl), à l'Université de Freiburg, Mars 7-9, 2007. Springer-Verlag, Heidelberg-Berlin: 629-636. Pour voir l'ébauche s.v.p. cliquer >SLRD.pdf; Voir la présentation originale à Holm_Indo-European_Subgrouping_by_SLRD_Freiburg_2007_21155000/. - Résolution de problèmes de distribution dans les corpus naturels -> « arbre généalogique » indo-européen amélioré -
[Résumé : Les linguistes supposent généralement que deux langues sont d’autant plus proches qu’elles possèdent un nombre élevé de caractères communs, et en particulier d’innovations communes. Dans Holm 2003, nous avons démontré que cette thèse est erronée car le nombre de concordances entre deux langues est un phénomène stochastique qui dépend de trois autres paramètres. Seule l’utilisation de l’estimateur de probabilité maximale de la distribution hypergéométrique permet de déterminer le nombre de caractères communs à deux langues au moment de leur séparation. On peut ainsi obtenir un ordre de séparation des langues au sein des familles pour lesquelles on dispose des données requises. L’application aux données du « Indogermanisches Etymologisches Wörterbuch » (Pokorny 1959) a montré une séparation tardive du hittite, de l’albanais et de l’arménien – la chose s’expliquait assez naturellement par la situation géographique centrale de ces langues et ne paraissait donc pas suspecte. Mais l’application aux données de la famille Mixe-Zoque a permis la même observation, à savoir que les langues peu documentées semblaient s’être séparées tardivement. Nous avons alors soupçonné une erreur systématique. Les présents travaux révèlent l’origine de cette erreur, qui apparaît uniquement dans les corpus naturels, par opposition aux cas de tests stochastiques sur des données distribuées normalement utilisés dans Holm 2007a. Pour cette étude, nous avons pu puiser nos données dans le « Lexikon der indogermanischen Verben » (Rix et al. 2001), nettement plus moderne et plus fiable. Nos soupçons se sont effectivement confirmés, et nous montrons comment des listes de données mal distribuées peuvent néanmoins fournir un ordre de séparation correct. On obtient ainsi un nouvel ordre de séparation des principales branches indo-européennes qui concorde avec les réalités grammaticales et la distribution géographique. Il apparaît surtout clairement que les langues anatoliennes n’ont pas pu se séparer les premières, ce qui réfute de manière incontestable la thèse « indo-hittite ».]

- Holm, Hans J. (2007a): Language Subgrouping. In: Grzybek, P. & R. Köhler (Editors), Exact Methods in the Study of Language and Text. Dedicated to Professor Gabriel Altmann on the occasion of his 75th birthday. [Quantitative Linguistics 62]. Berlin: de-Gruyter: 225-235. - Utilisation de la dispersion stochastique dans les classifications multiples -
[Résumé : Après plusieurs années d’essais et face à la concurrence de nombreuses autres méthodes, nous affinons la méthode de reconstitution du niveau de séparation (Holm 2000, passim) en termes de données et d’exigences stochastiques. Nous cherchons à distinguer dispersion stochastique et mauvaises données et à améliorer l’acquisition des données.]
- Holm, Hans J. (2007b): The new Arboretum of Indo-European "Trees". Can new Algorithms Reveal the Phylogeny and even Prehistory of IE? In: Journal of Quantitative Linguistics 14-2, S. 167-214. (ébauche un peu datée - les citations ne sont pas autorisées >Arboretum IE Trees.pdf ). - Actualisation jusqu’en 2006, nouvelles approches lexicostatistiques -
[Résumé : Les spécialisations dans les domaines de la linguistique, d’une part, et de la bioinformatique, d’autre part, conduisent à des méprises et à des résultats faux en raison d’une connaissance insuffisante des conditions des méthodes et des matériaux utilisés. Celles-ci sont analysées, et les résultats sont utilisés pour évaluer la multitude d’arbres généalogiques des langues indo-européennes qui fleurissent actuellement.]

- Holm, Hans J. (2005): Genealogische Verwandtschaft. In 'QUANTITATIVE LINGUISTIK'; Ein internationales Handbuch' [HSK-Serie, Bd. 27], Berlin: de Gruyter. Kapitel 45. - Les approches lexicostatiques dans la classification des langues au XXe siècle. Actualisation voir ci-dessous 2008 -
[Sommaire : 1. Wann sind Sprachen "verwandt"? 2. Datenbewertung; 3. Beziehungsmaße; 3.1. Synchrone ~; 3.2. Diachrone Beziehungsmaße; 4. Strukturierung genealogischer Abhaengigkeiten.]

- Holm, Hans J. (2003): The proportionality trap, Or: what is wrong with lexicostatistical subgrouping? In: Indogermanische Forschungen 108: 39-47. - Principes fondamentaux en anglais; convient aux non-mathématiciens -
[Résumé : Nous montrons, par le biais d’une expérience, que le chiffre brut des concordances (des cognats, par exemple) entre deux langues apparentées ne peut pas refléter leur degré de parenté généalogique. Nous démontrons ensuite qu’il est possible de reconstituer le niveau originel de points communs à deux langues et leur ordre de séparation en considérant tous les paramètres statistiques déterminants.]

- Holm, Hans J. & Embleton, Sheila (2001): Review of 'Mathematical foundations of Linguistics' (by Hubey, H.Mark, 1999, LINCOM handbooks in Linguistics 10, Muenchen: LINCOM); In: Journal of Quantitative Linguistics 8-2:149-62.
- Holm, Hans J. (2000): Genealogy of the Main Indo-European Branches Applying the Separation Base Method. In: Journal of Quantitative Linguistics 7-2:73-95. - Application au dictionnaire étymologique indo-européen de Pokorny; actualisation voir ci-dessous 2007,2008. Voir les actualisées 2007a,b -
[Résumé : Dans les analyses quantitatives des relations généalogiques entre des langues effectuées précédemment, la distorsion systématique due aux remplacements lexicaux n’a pas été éliminée correctement, ce qui a conduit à des résultats faux. Seul le dépouillement de l’immense masse de données du « Indogermanisches Etymologisches Wörterbuch » (J.Pokorny 1959, Bern: Francke) par N. Bird dans « Distribution of Indo-European root morphemes » (1982, Wiesbaden: Harrassowitz) a permis, en dépit de quelques défauts connus, d’évaluer le nombre de lexèmes communs à l’époque de la séparation de toute paire de langues à l’aide d’un estimateur robuste. Les résultats permettent de déduire leur ordre de séparation. Ces résultats plus différenciés devraient supplanter les hypothèses manichéennes habituelles qui ne rendent pas compte des développements réels – pour ou contre une parenté italo-celtique, par exemple.]
------------

Nouveaux à partir de 2010-05-27:
free counters
addr