DIVERSIDADE LINGÚISTICA, IA E GOVERNANÇA DA INFOSFERA: POR QUE PORTAIS DE DADOS LINGUÍSTICOS DEVEM SER CONCEBIDOS COMO DATA TRUSTS E DATA COMMONS
Resumen
RESUMO: A rápida difusão de grandes modelos de linguagem (LLMs) transformou a linguagem em infraestrutura estratégica para produção de conhecimento, administração pública e participação econômica. Embora exista amplo consenso de que a desigualdade linguística em sistemas de IA constitui problema estrutural, há muito menos consenso sobre como enfrentá-la institucionalmente. Este artigo argumenta que iniciativas de diversidade linguística em IA devem ir além da expansão técnica e engajar-se com governança de dados e desenho institucional. Baseando-se em trabalhos contemporâneos sobre ética da informação (Floridi), governança de comuns (Ostrom) e administração fiduciária de dados (Delacroix & Lawrence), o artigo defende que portais de dados linguísticos devem ser concebidos como data trusts e/ou data commons—não como repositórios neutros. A análise demonstra que a marginalização de línguas não-hegemônicas representa não apenas falha técnica, mas sintoma de assimetrias estruturais na governança tecnológica global que ameaça justiça epistêmica e soberania informacional.
Pesquisa: Este estudo investiga a governança de dados linguísticos no desenvolvimento de sistemas de IA focalizando a marginalização estrutural de línguas não-hegemônicas em grandes modelos de linguagem. A questão central é: como estruturas institucionais de governança podem transformar portais de dados linguísticos de meros repositórios técnicos em instrumentos de justiça epistêmica, soberania cultural e sustentabilidade digital? A pesquisa parte de constatações empíricas: línguas indígenas e minoritárias representam menos de 1% dos dados de treinamento para LLMs; línguas africanas (30% da diversidade linguística global) correspondem a menos de 1% da produção de pesquisa em NLP; dados da América do Sul representam menos de 0,2% de datasets multimodais. Essa sub-representação não constitui problema técnico de escala, mas manifesta assimetrias estruturais com consequências para justiça epistêmica, soberania informacional e sustentabilidade cultural.
Metodologia: A pesquisa emprega análise conceitual interdisciplinar combinada com estudo comparativo de casos e desenvolvimento de framework normativo-institucional, integrando métodos de: filosofia da tecnologia (Floridi), economia institucional (Ostrom), teoria política (Pettit, Mouffe), estudos críticos de raça e tecnologia (Benjamin, Noble, Rosa & Flores), e direito/governança de dados. O framework emerge de síntese iterativa entre literatura teórica, análise de casos internacionais (CLARIN ERIC, Mozilla Common Voice, FirstVoices, DECODE, MIDATA) e princípios normativos. O processo seguiu lógica abdutiva (Peirce): identificação de padrões empíricos, formulação de hipóteses explicativas, refinamento através de confronto com teoria e casos adicionais. Limitações incluem viés de seleção (concentração no Global North), dados escassos sobre línguas indígenas brasileiras, e necessidade de validação da aplicabilidade universal do framework.
Resultados: A pesquisa produziu framework conceitual tripartite articulando dimensões: (A) Normativa – diversidade linguística como biodiversidade infosférica (Floridi), entropia informacional qualitativa, justiça epistêmica (Fricker) como critério avaliativo; (B) Institucional – princípios de Ostrom aplicados a recursos linguísticos, data trusts como mecanismo fiduciário, modelos híbridos commons-trust; (C) Político-Jurídica – princípios CARE, não-dominação (Pettit) como soberania informacional, interoperabilidade legal. Análise de casos internacionais (CLARIN ERIC, Mozilla Common Voice, FirstVoices, DECODE, MIDATA) gerou oito princípios de design: administração contextual, arquitetura federada, acesso graduado, participação significativa, transparência/accountability, fluxos de benefício, sustentabilidade longo prazo, integração técnico-legal. Inovações conceituais incluem: Interoperabilidade Cultural (métrica avaliando fidelidade ontológica, sensibilidade pragmática, respeito ético, accountability histórica); Licenciamento Recíproco (sustentabilidade via taxação comercial redistribuída); Linguicídio Digital ("pegada de carbono digital"); LDII (instrumento avaliativo).
Contribuições: Avanços Teóricos Centrais: síntese sistemática inovadora integrando ética informacional, economia institucional, teoria política, estudos críticos raça/tecnologia e soberania indígena; expansão da teoria da infosfera ao domínio linguístico-digital ("biodiversidade infosférica"); resolução de tensões commons-trust via demonstração de complementaridade funcional; teorização de "colonialismo semântico" capturando perpetuação colonial através de categorias linguísticas em IA.
Aplicações Práticas e Normativas: Framework de Interoperabilidade Cultural operacionalizando justiça epistêmica em critérios avaliativos; Licenciamento Recíproco oferecendo modelo financeiro sustentável; LDII como ferramenta de procurement público fornecendo blueprint para agência do Sul Global; argumento ético fundamentando diversidade como necessidade epistêmica (não apenas preservação cultural); reframing de questão multilíngue de desafio técnico para governança institucional, visibilizando conexões entre marginalização digital e padrões históricos coloniais/racistas.
Palavras-Chave: Diversidade Linguística; Governança de Dados; Data Trusts; Data Commons; Inteligência Artificial
Abstract: The rapid diffusion of large language models (LLMs) has transformed language into strategic infrastructure for knowledge production, public administration, and economic participation. While there is broad consensus that linguistic inequality in AI systems constitutes a structural problem, there is far less agreement on how to address it institutionally. This article argues that linguistic diversity initiatives in AI must move beyond technical expansion and engage with data governance and institutional design. Drawing on contemporary work in information ethics (Floridi), commons governance (Ostrom), and data stewardship (Delacroix & Lawrence), the article contends that linguistic data portals should be conceived as data trusts and/or data commons—not as neutral repositories. The analysis demonstrates that the marginalization of non-hegemonic languages represents not merely a technical failure, but a symptom of structural asymmetries in global technological governance that threatens both epistemic justice and informational sovereignty.
Research: This study investigates the governance of linguistic data in AI system development, focusing on the structural marginalization of non-hegemonic languages in large language models. The central question is: how can institutional governance structures transform linguistic data portals from mere technical repositories into instruments of epistemic justice, cultural sovereignty, and digital sustainability? The research begins from empirical findings: Indigenous and minority languages represent less than 1% of training data for LLMs; African languages (30% of global linguistic diversity) account for less than 1% of NLP research output; South American data represents less than 0.2% of multimodal datasets. This underrepresentation does not constitute a technical scaling problem, but manifests structural asymmetries with consequences for epistemic justice, informational sovereignty, and cultural sustainability.
Methodology: The research employs interdisciplinary conceptual analysis combined with comparative case study and normative-institutional framework development, integrating methods from: philosophy of technology (Floridi), institutional economics (Ostrom), political theory (Pettit, Mouffe), critical race and technology studies (Benjamin, Noble, Rosa & Flores), and law/data governance. The framework emerges from iterative synthesis among theoretical literature, analysis of international cases (CLARIN ERIC, Mozilla Common Voice, FirstVoices, DECODE, MIDATA), and normative principles. The process followed abductive logic (Peirce): identification of empirical patterns, formulation of explanatory hypotheses, refinement through confrontation with theory and additional cases. Limitations include selection bias (concentration in the Global North), scarce data on Brazilian Indigenous languages, and the need for validation of the framework's universal applicability.
Results: The research produced a tripartite conceptual framework articulating three dimensions: (A) Normative—linguistic diversity as infospheric biodiversity (Floridi), qualitative informational entropy, epistemic justice (Fricker) as evaluative criterion; (B) Institutional—Ostrom's principles applied to linguistic resources, data trusts as fiduciary mechanism, hybrid commons-trust models; (C) Political-Legal—CARE principles, non-domination (Pettit) as informational sovereignty, legal interoperability. Analysis of international cases (CLARIN ERIC, Mozilla Common Voice, FirstVoices, DECODE, MIDATA) generated eight design principles: contextual stewardship, federated architecture, graduated access, meaningful participation, transparency/accountability, benefit flows, long-term sustainability, technical-legal integration. Conceptual innovations include: Cultural Interoperability (metric assessing ontological fidelity, pragmatic sensitivity, ethical respect, historical accountability); Reciprocal Licensing (sustainability via redistributed commercial taxation); Digital Linguicide ("digital carbon footprint"); LDII (evaluative instrument).
Contributions: Core Theoretical Advances: First systematic synthesis integrating information ethics, institutional economics, political theory, critical race/technology studies, and Indigenous sovereignty; expansion of infosphere theory to the linguistic-digital domain ("infospheric biodiversity"); resolution of commons-trust tensions via demonstration of functional complementarity; theorization of "semantic colonialism" capturing colonial perpetuation through linguistic categories in AI. Practical and Normative Applications: Cultural Interoperability framework operationalizing epistemic justice into evaluative criteria; Reciprocal Licensing offering sustainable financial model; LDII as public procurement tool providing blueprint for Global South agency; ethical argument grounding diversity as epistemic necessity (not merely cultural preservation); reframing of multilingual question from technical challenge to institutional governance, making visible connections between digital marginalization and historical colonial/racist patterns.
Keywords: Linguistic Diversity; Data Governance; Data Trusts; Data Commons; Artificial Intelligence
Palabras clave
Texto completo:
PDF (Português (Brasil))Referencias
ARDILA, R., et al. (2020). Common Voice: A Massively-Multilingual Speech Corpus. Proceedings of LREC 2020.
BENDER, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots. ACM FAccT 2021, 610-623.
BENJAMIN, R. (2019). Race After Technology. Polity Press.
BRASIL. Lei nº 13.709/2018. Lei Geral de Proteção de Dados Pessoais (LGPD).
BRASIL. MCTI (2024). Plano Brasileiro de Inteligência Artificial (PBIA).
BRENNAN, M., Afroz, S., & Greenstadt, R. (2012). Adversarial Stylometry. ACM TISSEC, 15(3), 1-22.
CARROLL, S. R., et al. (2020). The CARE Principles for Indigenous Data Governance. Data Science Journal, 19(1), 43.
COULDRY, N., & Mejias, U. A. (2019). The Costs of Connection. Stanford University Press.
DELACROIX, S., & Lawrence, N. D. (2019). Bottom-up Data Trusts. International Data Privacy Law, 9(4), 236-252.
DOVCHIN, S. (2020). Linguistic Racism and International Students. IJBEB, 23(7), 804-818.
DWORK, C., & Roth, A. (2014). The Algorithmic Foundations of Differential Privacy. Foundations and Trends in TCS, 9(3-4), 211-407.
FLORIDI, L. (2013). The Ethics of Information. Oxford University Press.
FLORIDI, L. (2014). The Fourth Revolution: How the Infosphere is Reshaping Human Reality. Oxford University Press.
FLORIDI, L. (2018). Soft Ethics and the Governance of the Digital. Philosophy & Technology, 31(1), 1-8.
FRICKER, M. (2007). Epistemic Injustice. Oxford University Press.
FRISCHMANN, B. M., Madison, M. J., & Strandburg, K. J. (Eds.). (2014). Governing Knowledge Commons. Oxford University Press.
JOSHI, P., et al. (2020). The State and Fate of Linguistic Diversity in NLP. Proceedings of ACL 2020, 6282-6293.
KREUTZER, J., et al. (2022). Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets. TACL, 10, 50-72.
Kukutai, T., & Taylor, J. (Eds.). (2016). Indigenous Data Sovereignty: Toward an Agenda. ANU Press.
LONGPRE, S., et al. (2024). The Data Provenance Initiative. arXiv preprint arXiv:2408.04110.
MAFFI, L. (Ed.). (2001). On Biocultural Diversity. Smithsonian Institution Press.
MARIANI, J. J. (2024). Language Technology for All: A Challenge. UNESCO Report on Languages.
MAZZUCATO, M. (2018). The Value of Everything. PublicAffairs.
MOUFFE, C. (2000). The Democratic Paradox. Verso Books.
NISSENBAUM, H. (2009). Privacy in Context. Stanford University Press.
NOBLE, S. U. (2018). Algorithms of Oppression. NYU Press.
OSTROM, E. (1990). Governing the Commons. Cambridge University Press.
OSTROM, E. (2015). Governing the Commons (Canto Classics edition). Cambridge University Press.
PETTIT, P. (1997). Republicanism: A Theory of Freedom and Government. Oxford University Press.
ROSA, J., & FLORES, N. (2017). Unsettling Race and Language. Language in Society, 46(5), 621-647.
ROSA, J., & FLORES, N. (2021). Hearing Language Gaps and Reproducing Social Inequalities. In The Handbook of Language and Race (pp. 345-362). Routledge.
SKUTNABB-KANGAS, T. (2000). Linguistic Genocide in Education. Lawrence Erlbaum Associates.
STIEGLER, B. (1998). Technics and Time, 1. Stanford University Press.
STIEGLER, B. (2014). Symbolic Misery, Volume 1. Polity Press.
UNESCO (2023). Generative AI and the Diversity of Cultural Expressions. Paris: UNESCO.
UNESCO (2024). Guidance for Governing AI for the Diversity of Cultural Expressions. Paris: UNESCO.
UNESCO (2025). Report of the Independent Group of Experts on AI and Culture (CULTAI). Paris: UNESCO.
UNITED NATIONS (2007). Declaration on the Rights of Indigenous Peoples. UN Doc. A/RES/61/295.
ZUBOFF, S. (2019). The Age of Surveillance Capitalism. PublicAffairs.
DOI: http://dx.doi.org/10.26668/revistajur.2316-753X.v1i86.8206
Enlaces refback
- No hay ningún enlace refback.
Revista Jurídica e-ISSN: 2316-753X
Rua Chile, 1678, Rebouças, Curitiba/PR (Brasil). CEP 80.220-181
