Un possible foyer originel des langues indo-européennes

et les migrations de leurs locuteurs, sous l'angle de la méthode développée de reconstitution du niveau de séparation (Separation Level Recovery under Two Distributions, SLR2D)

                           >Version anglaise                >Deutsche Version

Par Hans J. J. G. Holm (grand merci à Caroline Barzilaï pour la traduction primordiale)

0. La plupart des gens cultivés ont une vague idée de ce que sont les langues « indo-européennes »: ce sont les nombreuses langues qui sont parlées du nord-ouest de l’Europe au sous-continent indien (et même, historiquement, au Xinjiang, dans le nord-ouest de la Chine) et qui sont liées par leur grammaire et par un fond lexical commun hérité (système numérique ou pronoms, par exemple). Pour les notions de base, on peut se reporter aux grandes encyclopédies. Les correspondantes pages Wikipedia sont médiocres. La plus grande prudence s’impose concernant les nombreuses pages Internet ésotériques et farfelues qui sont dénuées de tout fondement linguistique, archéologique ou statistique (voir Holm 2007c); ces pages se reconnaissent souvent à leurs maigres références bibliographiques et à leurs inepties raciales.

1. La principale question qui fait encore débat concerne les liens originels et les développements préhistoriques de ces langues, l’ordre dans lequel les différentes branches se sont séparées du tronc commun. La principale erreur (commise encore aujourd’hui) consiste à croire que deux langues sont d’autant plus proches qu’elles possèdent un grand nombre de caractères communs. Cette vision superficielle néglige le fait que la quantité de caractères communs dépend, entre autres, du degré de conservation des caractères d’origine, autrement dit du nombre de remplacements lexicaux intervenus après la séparation des langues étudiées (voir Holm 2003). Il est évident que des langues ayant subi des pertes importantes (comme l’albanais et l’arménien) présentent moins de concordances, malgré leur étroite parenté, que des langues à grand corpus comme le grec ou l’indien. Malheureusement, cette donnée est trop souvent négligée.

1.1. Exprimés mathématiquement, ces paramètres sont dans un rapport de dépendance hypergéométrique et nécessitent une transformation préalable. Seule la transformation SLRD permet de déterminer la quantité de caractères communs à deux langues au moment de leur séparation, qu’on appellera leur « niveau de séparation ». On trouvera dans Holm 2000 le niveau de séparation de 91 paires de langues appartenant à 14 branches indo-européennes établies.

1.2. Comme le nombre de caractères originels ne peut que décroître au fil des influences historiques successives, il est possible de déduire un ordre de séparation univoque (à ne pas confondre avec la « glottochronologie »), représenté ici sous la forme simplifiée d’un >arbre généalogique avec indications des mots servant à désigner la main dans les différentes branches (forme la plus ancienne de ces mots). Cet ordre de séparation peut et doit être appliqué aux différentes hypothèses concernant le foyer originel (« Urheimat ») et les migrations des locuteurs du proto-indo-européen.

1.3. Les contactes prouvées linguistiques entre les langues indo-européennes et uraliennes à partir de les plus premières âges tout porte à croire que ce foyer originel ce foyer originel se situe au nord de la mer Noire (région du Pont, voir par exemple Anthony 2007). On trouvera ici ma proposition d'une >carte de migrations. On notera qu’à ce jour, aucune thèse des voies de migration n’a pu être validée.

2. Si l’on remonte à partir des données historiques avérées sur les Hittites, il apparaît clairement que l’expansion des langues indo-européennes et l’adoption de la métallurgie du bronze, des charrettes à bœufs à quatre roues et des tumulus funéraires sont des phénomènes parallèles. Cela ne signifie pas que les Indo-Européens aient inventé ces techniques ou ces coutumes, mais cela indique tout de même qu’ils les ont largement employées. Les Indo-Européens étaient des bergers nomades qui possédaient des chevaux et savaient probablement les monter, ce qui devait leur conférer un avantage tactique déterminant dans les guerres. La tentative de confirmer ou d’infirmer la domestication du cheval au moyen de traces de mors achoppe sur un point : il existe des dizaines de brides sans mors. En l’état actuel des connaissances, les migrations ont pu se dérouler beaucoup plus rapidement, mais aussi un peu plus tôt ou un peu plus tard.

3. Les langues dites anatoliennes, en particulier le hittite, sont un autre sujet de débat :
- étaient-elles membres à part entière du proto-indo-européen
- ou les dernières n’ont-elles achevé leur développement qu’après la séparation du hittite ?

4. Reconstituer des arbres généalogiques à l’aide de paquets de logiciels issus de la biosystématique, qu’on utilise de manière machinale, semble être à la mode. Or ces reconstructions reposent sur au moins l’une des hypothèses erronées suivantes :
4.1. le principe primitif de ressemblance qui néglige totalement les interdépendances réelles évoquées au point [1] et prétend que plus les langues partagent de « cognates », plus elles sont proches (confusion avec la « distance créée par l’évolution », voir le « piège de la proportionnalité » dans Holm 2003),
4.2. l’hypothèse selon laquelle les mots seraient remplacés à un rythme donné, résurgence malheureuse de la glottochronologie douteuse. Il suffit de regarder n’importe quel mot dans un dictionnaire étymologique et de tenter de comprendre son origine pour voir l’absurdité de cette thèse : l’apparition d’un mot n’est jamais liée à un cycle quelconque, mais à un événement historique (culturel, technique ou militaire), par nature imprévisible et incalculable. Ainsi environ 50 % du vocabulaire germanique de l’anglais a été remplacé non pas à un rythme donné, mais du fait de la domination des Normands, qui ont remporté la bataille d’Hastings, et de la longue prédominance du latin en théologie et dans les sciences, comme tout Anglais un peu instruit le sait. Le fait que dans le « vocabulaire de base », ces remplacements lexicaux soient de moins en moins fréquents ne change rien au caractère imprévisible de leur origine socio-historique. D’ailleurs, le « vocabulaire de base » de l’anglais contient encore 6 % d’emprunts aux dialectes vikings – fait négligé par les « experts » (voir Holm 2007c). On ne peut reprocher aux journalistes de ne pas saisir les implications de ces théories. Mais il est regrettable que des chercheurs ignorent ces données de base et reprennent aveuglement des méthodes de comparaison machinales.
--------



 5. Publications :
ORCID iD iconorcid.org/0000-0001-9527-0553 - Holm, Hans J. J. G. (2019, in print): The Earliest Wheel Finds, their Archeology and Indo- European Terminology in Time and Space, and Early Migrations around the Caucasus. Series Minor. Budapest: ARCHAEOLINGUA ALAPÍTVÁNY - 130 découvertes représentatives de roues avant 1900 ANE, dans le contexte archéologique et indo-européen.
[Résumé : Le rôle que la roue a joué dans la vie des Indo-Européennes a été examiné principalement du point de vue des spécialistes, souvent sans tenir suffisamment compte des disciplines voisines concernées. A cette fin, nous avons recherché une table archéologique des plus anciennes découvertes de roues (avant 2000 aEC), avec maintenant 130 découvertes représentatives entre la mer du Nord, l'Asie centrale et l'Inde. Par la suite, nous avons élaboré les cinq désignations des roues des principales familles indo- européennes, en particulier en ce qui concerne les aspects onomasiologiques. Afin de relier les deux résultats au développement des langues indo-européennes, un cadre chronologique est requis, pour lequel nous incluons un calcul glottochronologique actuel de la divergence indo-européenne. Cela permet déjà de connaître l'âge de certaines désignations et d'établir des parallèles clairs avec certains types de construction. En outre, deux questions fréquemment discutées sont traitées sur cette base actualisée. En ce qui concerne la séparation des Anatoliens (indo-européens) et des Tokhariens, il y a de nombreuses indications que cela s'est produit dans le Caucase et dans la branche primaire orientale. Enfin, les hypothèses pour « l'invention » de la roue sont remplacées par celle, beaucoup plus réaliste, d'un développement durable dans un vaste réseau de communication.]
- Holm, Hans J. (2017): Steppe Homeland of Indo-Europeans Favored by a Bayesian Approach with Revised Data and Processing. Glottometrics 37: 54-81. http://www.ram-verlag.eu/journals-e-journals/glottometrics/ - Approche Bayesienne, avec des paralleles archeologiques et linguistiques.
[Résumé : Malgré des dizaines d'hypothèses, l'origine et le développement de la famille des langues indo-européennes font encore débat. Une approche glottochronologique publiée dans Science (2012/2013) selon la méthodologie bayésienne prétend avoir fourni des preuves de simultanéité avec l'expansion néolithique, et donc de la prétendue "hypothèse anatolienne". Ces dates ont fait l'objet de nombreuses critiques de la part d'autres disciplines. Ici, la preuve alléguée pour les temps calculés fait maintenant l'objet d'une enquête en reproduisant la méthodologie publiée à l'aide de notre propre ensemble de données, qui a été amélioré. Il en résulta d'abord une origine vers 4800 ANE, bien que la structure des pedigrees ait varié considérablement dans plusieurs centaines d'essais. Ce problème a été contré par les travaux précédents avec des directives topologiques précises. La dichotomie ouest-est d'un travail lexicostatistique basé sur 1400 verbes a été choisie ici, ce qui a abouti à une origine vers 4100 ANE. Au cours de ces tests, une autre approche (Language, 2015) a permis de trouver une date d'origine comprise entre 3950 et 4740 ANE. L'une des conclusions de cette étude était que les résultats antérieurs avaient été considérablement perturbés par des langues mal attestées, qui ont donc été supprimées étape par étape. Le nouvel arbre généalogique reflète de nouvelles découvertes issues de la linguistique, de l'archéologie et de la recherche génétique, qui parlent en faveur de l'hypothèse de la steppe. Surtout, une nouvelle juxtaposition archéologique-linguistique de la terminologie des roues de wagons montre que les différentes désignations indo-européennes des roues de wagons sont en corrélation avec les différents types de construction dans les zones linguistiques correspondantes. Enfin, les cultures se trouvant sur les voies de propagation et les temps possibles sont placées en superposition sur le pedigree calculé, sans toutefois postuler leur caractère indo-européen.]
- Holm, Hans J. (en cours): >Holm's cartes d'histoire personelles de l'Europe ; de le Biscay à la mer Caspienne - de la période glaciaire à la moyen Age, dans 27 tranches de temps. - J'essaie de garder les cartes à jour quand j'ai le temps... .
- Holm, Hans J. (2016, en cours): >Ma "liste Swadesh" - indo-européenne (M. Swadesh's 1971 posthum =amélioration finale). Avec les traductions possiblement non marquées en 17 représentant éteintes et vivantes des langues indo-européennes. - Convient uniquement aux travaux statistiques sur les 12 branches principales indo-européennes!
- Holm, Hans J. (2011b): "Swadesh lists" of Albanian Revisited and Consequences for Its Position in the Indo-European Languages. The Journal of Indo-European Studies 39-1&2. - Version anglaise, légèrement améliorée de l'allemand, voir 2009) >Corrigenda, actuellement inactif -
[In the last decade, several scholars claimed to have finally solved the subgrouping of Indo-European by new lexicostatistical attempts. The public of course was not able to perceive the questionable outcomes, of which the different and idiosyncratic positions of Albanian are particularly conspicuous. One reason for this is the inadequate methods, simply copied from bioinformatics (cf. Holm, H. J. 2007). That defective data may contribute a great deal to these mistakes, is now first demonstrated here by analysing the Albanian part of three representative lists frequently employed in these studies: Thirteen percent of the data on these lists contains errors and this mixes inextricably with the overlooked stochastic dispersion. Seventeen new etymologies are proposed; however, about thirty per-cent of the list remains unsolved or questionable. Moreover, the high amount of differently changing replacements in Albanian is one more compelling argument against the rate assumption in glottochronology.]
- Holm, Hans J. (2011a): Archäoklimatologie des Holozäns: Ein durchgreifender Vergleich der "Wuchshomogenität" mit der Sonnenaktivität und anderen Klimaanzeigern ("Proxies"). - Il est montré que les largeurs des cernes des arbres en général, ainsi que les approximations climatiques, qui ne couvrent pas au moins l'Holocène, sont tellement soumises au hasard qu'elles ne permettent pas d'établir des déclarations climatiques fiables. - Archäologisches Korrespondenzblatt 41-1: 119-132. Pour voir le pdf, s.v.p. click >Archéoclimatologie
[Résumé : Les approches récentes en regard de la validité de l’homogénéité de croissance des chênes de l’Europe centrale et du deux proxies (indicateurs climatiques) de l’activité du soleil ne supportent pas notre comparaison tranchante. Ceci est valable avant tout á l’égard des allégations climatiques, p.ex. de la précipitation. Au contraire, des meilleures correspondances paraient reconnaissables pour les derniers 9 000 ans entre les limites d’arbre dans les Alpes, en tant que l’interprétation de la température de carotte de glace du forage NGRIP.]
- Holm, Hans J. (2010), Frank Sirocko (Hg.) "Wetter, Klima, Menschheitsentwickung, Von der Eiszeit bis ins 21. Jahrhundert". (critique, en allemand, voir >Mauvaise présentation du climat., s.v.p.)
- Holm, Hans J. (2009): Albanische Basiswortlisten und die Stellung des Albanischen in den indogermanischen Sprachen. Zeitschrift für Balkanologie Nr. 45-2. Wiesbaden, Harrassowitz: 171-205. - Examen critique de quelques listes lexicales utilisées dans les travaux lexicostatiques - (Annotation: Aujourd'hui, je remplacerais le terme trompeur "Listes de mots de base" par "Listes Swadesh", plus précisément "Listes de termes universels")
[Résumé : Après avoir étudié la méthodologie des nouvelles tentatives lexicostatiques de classification des langues indo-européennes dans Holm, Hans J. (2007: The new Arboretum of Indo-European 'trees', in: Journal of Quantitative Linguistics, 14-2), nous testons ici les données rapprochées, en l’occurrence la partie sur l’albanais de trois travaux représentatifs. Nous proposons de nouvelles solutions à de nombreux cas jusqu’alors problématiques, par exemple quelques emprunts au turc des Balkans. En outre, le fort taux de remplacement en albanais est un autre argument fort contre l’hypothèse des taux de remplacement de la glottochronologie.]
- Holm, Hans J. (2008): The Distribution of Data in Word Lists and its Impact on the Subgrouping of Languages. In: Ch. Preisach, H. Burkhardt, L. Schmidt-Thieme, R. Decker (Editors): Data Analysis, Machine Learning, and Applications. Proceedings of the 31th Annual Conference of the German Classification Society (GfKl), à l'Université de Freiburg, Mars 7-9, 2007. Springer-Verlag, Heidelberg-Berlin: 629-636. Pour voir l'ébauche s.v.p. cliquer >SLRD.pdf; voir la présentation originale à >Holm_Indo-European_Subgrouping_by_SLRD_Freiburg_2007_21155000/. - Résolution de problèmes de distribution dans les corpus naturels -> « arbre généalogique » indo-européen amélioré -
[Résumé : Les linguistes supposent généralement que deux langues sont d’autant plus proches qu’elles possèdent un nombre élevé de caractères communs, et en particulier d’innovations communes. Dans Holm 2003, nous avons démontré que cette thèse est erronée car le nombre de concordances entre deux langues est un phénomène stochastique qui dépend de trois autres paramètres. Seule l’utilisation de l’estimateur de probabilité maximale de la distribution hypergéométrique permet de déterminer le nombre de caractères communs à deux langues au moment de leur séparation. On peut ainsi obtenir un ordre de séparation des langues au sein des familles pour lesquelles on dispose des données requises. L’application aux données du « Indogermanisches Etymologisches Wörterbuch » (Pokorny 1959) a montré une séparation tardive du hittite, de l’albanais et de l’arménien – la chose s’expliquait assez naturellement par la situation géographique centrale de ces langues et ne paraissait donc pas suspecte. Mais l’application aux données de la famille Mixe-Zoque a permis la même observation, à savoir que les langues peu documentées semblaient s’être séparées tardivement. Nous avons alors soupçonné une erreur systématique. Les présents travaux révèlent l’origine de cette erreur, qui apparaît uniquement dans les corpus naturels, par opposition aux cas de tests stochastiques sur des données distribuées normalement utilisés dans Holm 2007a. Pour cette étude, nous avons pu puiser nos données dans le « Lexikon der indogermanischen Verben » (Rix et al. 2001), nettement plus moderne et plus fiable. Nos soupçons se sont effectivement confirmés, et nous montrons comment des listes de données mal distribuées peuvent néanmoins fournir un ordre de séparation correct. On obtient ainsi un nouvel ordre de séparation des principales branches indo-européennes qui concorde avec les réalités grammaticales et la distribution géographique. Il apparaît surtout clairement que les langues anatoliennes n’ont pas pu se séparer les premières, ce qui réfute de manière incontestable la thèse « indo-hittite ».]
- Holm, Hans J. (2007d): Ausgliederungsreihenfolge der Indogermania auf Grundlage des LIV2. Conférence à l'Institut de linguistique indo-européenne comparée de l'Université de Bonn. Diapositives réduites (veuillez sauvegarder et décompresser) >SLRD_BN07.
- Holm, Hans J. (2007c): Language Subgrouping. In: Grzybek, P. & R. Köhler (Editors), Exact Methods in the Study of Language and Text. Dedicated to Professor Gabriel Altmann on the occasion of his 75th birthday. [Quantitative Linguistics 62]. Berlin: de-Gruyter: 225-235. - Utilisation de la dispersion stochastique dans les classifications multiples -
[Résumé : Après plusieurs années d’essais et face à la concurrence de nombreuses autres méthodes, nous affinons la méthode de reconstitution du niveau de séparation (Holm 2000, passim) en termes de données et d’exigences stochastiques. Nous cherchons à distinguer dispersion stochastique et mauvaises données et à améliorer l’acquisition des données.]
- Holm, Hans J. (2007b): The Distribution of Data in Word Lists and its Impact on the Subgrouping of Languages. Conférence pour la Société de classification de l'Université de Fribourg. Via Holm_Indo-European_Subgrouping_by_SLRD_Freiburg_2007_21155000/. (In English)
- Holm, Hans J. (2007a): The new Arboretum of Indo-European "Trees". Can new Algorithms Reveal the Phylogeny and even Prehistory of IE? In: Journal of Quantitative Linguistics 14-2, S. 167-214. (ébauche un peu datée - les citations ne sont pas autorisées >Arboretum IE Trees.pdf ). - Actualisation jusqu’en 2006, nouvelles approches lexicostatistiques -
[Résumé : Les spécialisations dans les domaines de la linguistique, d’une part, et de la bioinformatique, d’autre part, conduisent à des méprises et à des résultats faux en raison d’une connaissance insuffisante des conditions des méthodes et des matériaux utilisés. Celles-ci sont analysées, et les résultats sont utilisés pour évaluer la multitude d’arbres généalogiques des langues indo-européennes qui fleurissent actuellement.]
- Holm, Hans J. (2005): Genealogische Verwandtschaft. In: QUANTITATIVE LINGUISTIK; Ein internationales Handbuch [HSK-Serie, Bd. 27], Berlin: de Gruyter. Kapitel 45. - Les approches lexicostatiques dans la classification des langues au XXe siècle. Actualisation voir ci-dessous 2008 -
[Sommaire : 1. Wann sind Sprachen "verwandt"? 2. Datenbewertung; 3. Beziehungsmaße; 3.1. Synchrone ~; 3.2. Diachrone Beziehungsmaße; 4. Strukturierung genealogischer Abhängigkeiten.]
- Holm, Hans J. (2003): The proportionality trap, Or: what is wrong with lexicostatistical subgrouping? In: Indogermanische Forschungen 108: 39-47. - Principes fondamentaux en anglais; convient aux non-mathématiciens -
[Résumé : Nous montrons, par le biais d’une expérience, que le chiffre brut des concordances (des cognats, par exemple) entre deux langues apparentées ne peut pas refléter leur degré de parenté généalogique. Nous démontrons ensuite qu’il est possible de reconstituer le niveau originel de points communs à deux langues et leur ordre de séparation en considérant tous les paramètres statistiques déterminants.]
- Holm, Hans J. & Embleton, Sheila (2001): Review of 'Mathematical foundations of Linguistics' (by Hubey, H.Mark, 1999, LINCOM handbooks in Linguistics 10, München: LINCOM); In: Journal of Quantitative Linguistics 8-2:149-62.
- Holm, Hans J. (2000): Genealogy of the Main Indo-European Branches Applying the Separation Base Method. In: Journal of Quantitative Linguistics 7-2:73-95. - Application au dictionnaire étymologique indo-européen de Pokorny; actualisation voir ci-dessous 2007,2008. Voir les actualisées 2007a,b -
[Résumé : Dans les analyses quantitatives des relations généalogiques entre des langues effectuées précédemment, la distorsion systématique due aux remplacements lexicaux n’a pas été éliminée correctement, ce qui a conduit à des résultats faux. Seul le dépouillement de l’immense masse de données du « Indogermanisches Etymologisches Wörterbuch » (J.Pokorny 1959, Bern: Francke) par N. Bird dans « Distribution of Indo-European root morphemes » (1982, Wiesbaden: Harrassowitz) a permis, en dépit de quelques défauts connus, d’évaluer le nombre de lexèmes communs à l’époque de la séparation de toute paire de langues à l’aide d’un estimateur robuste. Les résultats permettent de déduire leur ordre de séparation. Ces résultats plus différenciés devraient supplanter les hypothèses manichéennes habituelles qui ne rendent pas compte des développements réels – pour ou contre une parenté italo-celtique, par exemple.]
------------

Nouveaux à partir de 2010-05-27:
free counters