可信探索语言上网
互联网是语言学家的宝贵资源,因为它提供易于访问和广度空间,他们可观察语言随时间演化Daniel Pimienta互联网语言和文化多样性观察站主管开发方法论测量存在语言类上We网站近年大增这种方法指导开发综合数据库,支持语言研究、语言相关公共政策和电子商务策略
互联网的出现和广泛使用为语言学习开通了有趣的新渠道网络上使用不同语言为未来使用开发提供宝贵提示
可靠估计互联网语言使用最终可指导公共政策开发,以影响其在网络空间的存在互联网语言和文化多样性观察站是1996年创建的研究所,专门开发有效方法测量在线语言的存在和演进
语言识别算法 — — 计算工具识别书面语言 — — 似似理想工具判定在线语言流行程度,但Web现在已经变得如此庞大,以至于将这些工具应用到在线所有内容高度不切实际。一些研究使用这些算法分析在线内容子集,然而这一实验方法被认为无效,导致偏向性并往往不可靠结果

最近最受咨询统计源与在线语言使用相关W3Techs依赖算法分析网站类访问量最大虽然这些统计提供一些有趣的洞察力,但它们可能无法准确反映在线语言的存在,原因是不考虑网站常多语言性质触发重要偏差
2017年,互联网语言和文化多样性观察站设计出新方法,帮助更好地跟踪在线语言的进展和普及Daniel Pimienta和他的同事使用这个方法识别出有意义的指标,概述互联网上343种语言的存在
在线语言存在指标
早在1998年,天文台的研究人员就采用了一种支配式方法研究7种语言在线存在问题,这些语言依赖AltaVista和Google等搜索引擎收集的数据。搜索引擎报告变得不可靠,
2017年引入的新方法解决了与先前研究领域相关努力相关的强偏差问题。最初研究者对138种语言应用这一方法,即讲500万以上原语者语言,但他们最近能够扩展至343种语言,即100万以上原语语言
Pimienta和同僚使用建议方法编译一套指标显示这343种在线语言这些指标划分为三大类,即中间值、宏和高级指标
中间指标均表示百分比,包括跨行数(即讲特定语言连接互联网)、使用特定互联网服务或应用以及网站或应用报告流量数据库中还包括数字语言支持水平近似值和所谓的索引,即基于信息社会参数并分语言评分的国家评分
第二组指标被称为宏观指标或模型输出物,由连通讲者组成(即全球第一语言和第二语言讲者与互联网连接的百分比)、网络内容每种语言百分比、内容生产率(网络内容与区域间比)和虚拟存在(网络内容与讲者比)。
最后,研究人员确定的较高级指标包括语言网络地理学或换句话说,网络语言划分地理组类(i、European、Asian、Ariban、American和Africa)和所谓的网络化指标使用其他一些指标计算出此值,基本归纳互联网上特定语言的“战略优势”。
新方法研究语言的存在
观测站新方法间接接近网络内容每种语言的相对量这样做时,它也考虑到关键因素,在描述语言上网时往往忽略这些关键因素,但应考虑防止错误或偏差。
第一,团队考虑可能存在在线通信的`经济法',它连接出价(i,Web语言可用内容)和需求(i,与互联网连通语言讲者数)。以往发现显示,使用特定语言者越多连接互联网,使用该语言的网页越多。
W3Techs提供统计显示英语在线稳定化, 占在线内容的50%以上,此外,过去的研究表明,互联网用户往往偏爱用母语通信时内容可用,但他们乐于使用第二语言或语言而不使用第二语言或语言在某些情况下,互联网用户出于经济原因还可能以第二语言创建内容,并可利用翻译服务这样做。
语言在线还连接到不同地点互联网流量、社交网络订阅数和不同国家互联网相关服务进度由研究者创建的互联网存在指标集体考虑所有这些因素,从而画出更详细的图解,说明在线语言多多以方式存在
易访问数据库
Pimienta和同事使用方法计算全球超过100万人民本族语言在线存取指标允许他们编译综合数据库汇总在线语言,观察站计划逐年更新
所生成的值非常有趣,因为它们往往不匹配其他语言研究实现值网站W3Techs提供统计显示英语代表稳定并远为网络内容(超过50%),
Pimienta及其同事发现网站内容较多的语言为英语和汉语每种语言估计都占所有Web内容的16-26%,其次是西班牙文(7-9%)、阿拉伯文、印地文、俄文、法文和葡萄牙文(3-4%)、日文、德文和马来文(2-3%)、孟加拉文(1.5-2.3%)和土耳其文、越南文、意大利文、韩文和波斯文(0.8-1.2%)整体而言,团队结果显示在线内容越来越多语言化,英语普及率从1998年的80%逐步下降至今天的20%。值得注意的是,这并不意味着英文内容量随时间推移而下降,而是说网络内容以许多其他语言增加,转而降低英文内容百分比
其余215语言合起来占Web内容的18-26%研究者数据库通过研究在线语言存在的若干指标,提供数种其他深入知识,为语言研究、公共政策和电子商务策略提供参考
Pimienta和同事发现说挪威语者最常上网,98.8%接通者惊人,其次是丹麦语(98.7%)、瑞士德语(94.1%)、加泰隆尼亚语(94.5%)和芬兰语(92.8%)此外,讲日语者似乎是目前最常使用者,按连接数成比例生成比连接使用其他语言者更多内容
讲日语者似乎是目前最常见者,比连接使用其他语言者产生相应多内容相关指标网络语言地理学并提供宝贵的洞见举例说,他们显示,虽然非洲100多万人语言数大于其他每个地理区域语言数,但非洲语言使用者与互联网连接比其他区域语言使用者少,尽管最近趋势是增长。
最后,网络化指标强调讲英语和法语的战略优势换句话说,讲这两种语言似乎为互联网用户未来创造更多机会
可信探索互联网语言普及
语言和文化多样性观察站最近在因特网上开展的工作导致制作可靠新数据汇总不同语言在线存在互联网使用量继续全球增长后, 这些数据可以说明互联网用户使用语言在Web上的进展方式
许多现有语言上网统计证明极有误导作用,无法充分表示在线语言存在的程度值得注意的是,其中一些统计在语言研究中广泛使用并在媒体平台上报告,导致进一步的混淆和误报

观察所数据库可在线公开获取,并很快可供正在探索不同语言在线存在的语言学家使用。同时,它也可以为决策者、电子商务策略家和互联网提供商提供参考,帮助他们深入了解互联网上使用不同语言的情况。
个人响应
是什么启发你展开这项研究1995年在科托努法语国家峰会期间,法国总统希拉克把互联网画成100%英语域在此期间,我是网络开发基金会的网络传教士,我感到声明不正确,不站出来接受经验证的数据响应时,我决定启动研究努力,以测量互联网语言流行程度该项目于1998年成熟,并得到了Liane联盟的帮助,开发出到2007年的一系列结果历经2007年和2017年之余困难之旅,当时它能重新站立于一种有希望的新方法中,扩展语言处理范围
数据库语言指数编译
今天,加强语言战略必须主要侧重于网络空间,因为网络空间具有强大的全球影响。不论你开发何种领域的政策,你都需要有意义、可靠和常年指标来确定策略并能够频繁评估行动结果并相应调整干预网络空间语言政策指标长期以来以偏差数据为特征,广泛高估英语存在的现实,并低估互联网多语制,从而降低本地内容制作努力的士气并授权所有行动实现网络多语制

