Kala India

किसकी आवाज़ सुनता है भारतीय एआई? भाषा संप्रभुता और तकनीकी बहिष्करण

February 10, 2026 • 1 min read

किसकी आवाज़ सुनता है भारतीय एआई? भाषा संप्रभुता और तकनीकी बहिष्करण

महाराष्ट्र के एक गाँव में, पचास वर्षीय किसान रमेश पाटिल अपने फ़ोन पर सरकारी कृषि सलाहकार ऐप खोलते हैं। ऐप मराठी में बोलने का दावा करता है। लेकिन जब रमेश बोलते हैं — अपने गाँव की मराठी में, पुणे या मुंबई की मराठी से थोड़ी अलग, जिसमें उनके दादा-परदादा सदियों से बोलते आए हैं — ऐप “नहीं समझ पाया” कहता है। तीन बार कोशिश। तीन बार विफलता। रमेश फ़ोन बंद कर देते हैं। सरकार ने कहा था यह तकनीक किसानों के लिए है। लेकिन यह तकनीक उन्हें सुनती नहीं। सवाल यह नहीं कि रमेश गलत बोल रहे थे। सवाल यह है: किसने तय किया कि कौन सी मराठी “सही” है?

भारत अपने एआई सिस्टम को भाषाएँ सिखा रहा है। भाषिनी परियोजना, इंडियाएआई मिशन का हिस्सा, देश की 22 अनुसूचित भाषाओं में अनुवाद और वॉयस रिकग्निशन का वादा करती है। सरकारी स्वास्थ्य चैटबॉट, कृषि सलाहकार, योजना पात्रता परीक्षक — सभी अब “आपकी भाषा में” उपलब्ध होने का दावा करते हैं। यह एक उपलब्धि है। दुनिया के कुछ ही देशों में बहुभाषी एआई इतने पैमाने पर तैनात किया जा रहा है।

लेकिन यहाँ वह सवाल है जो प्रेस विज्ञप्तियाँ नहीं पूछतीं: जब हम कहते हैं “हिंदी में एआई,” तो हम किसकी हिंदी की बात कर रहे हैं? जब भाषिनी “मराठी” कहता है, तो क्या उसका मतलब पुणे की मराठी है, मुंबई की मराठी है, विदर्भ की मराठी है, या महाराष्ट्र के 365 तहसीलों में बोली जाने वाली मराठी की सभी विविधताएँ हैं? और जब कोई प्रणाली 22 अनुसूचित भाषाओं को कवर करने का दावा करती है, तो उन 19,500+ भाषाओं और बोलियों का क्या होता है जो भारत की जनगणना में दर्ज हैं लेकिन संविधान की आठवीं अनुसूची में नहीं?

भोजपुरी को 5 करोड़ से अधिक लोग बोलते हैं — नॉर्वे और स्वीडन की संयुक्त आबादी से अधिक — लेकिन यह एक अनुसूचित भाषा नहीं है। संताली, एक अनुसूचित जनजातीय भाषा, अक्सर एआई सिस्टम द्वारा “पहचाना नहीं गया” के रूप में चिह्नित की जाती है। तुलु, जो केरल और कर्नाटक के तटीय क्षेत्रों में लाखों लोग बोलते हैं, ज्यादातर एआई प्रशिक्षण डेटा में अनुपस्थित है। और फिर हजारों बोलियाँ हैं जिनके अपने नाम भी नहीं हैं, बस “वह तरीका जिस तरह से हम यहाँ बोलते हैं।”

जब एआई इन आवाज़ों को नहीं सुनता, तो यह तकनीकी सीमा नहीं है। यह संरचनात्मक बहिष्करण है, जो तकनीकी सीमा के रूप में प्रच्छन्न है। और यह हानिरहित नहीं है।

संताली भाषा में बात करने वाली एक आंगनवाड़ी कार्यकर्ता स्वास्थ्य ऐप खोलती है जो “भारतीय भाषाओं” का समर्थन करने का दावा करता है। ऐप उसे नहीं सुनता। वह हिंदी में स्विच करने की कोशिश करती है — वह हिंदी जो उसने सरकारी कार्यालयों के लिए सीखी थी, लेकिन जो उसकी मातृभाषा नहीं है। ऐप आधी बात समझता है। गर्भवती महिला जिसके लिए वह जानकारी खोज रहीं थीं, अधूरी सलाह के साथ चली जाती है। तकनीक ने सेवा करने का वादा किया। लेकिन यह केवल उन लोगों की सेवा करता है जो “मानक” बोलते हैं।

या भोजपुरी भाषी किसान पर विचार करें जो मौसम पूर्वानुमान चैटबॉट से पूछ रहा है। चैटबॉट हिंदी समझता है, लेकिन वह हिंदी नहीं जो पूर्वी उत्तर प्रदेश के खेतों में बोली जाती है। किसान को अपनी बात को “सही” हिंदी में अनुवाद करना होगा — वह हिंदी जो दिल्ली की खड़ीबोली से आती है, जो दिल्ली दरबार की भाषा थी। हर बार जब वह अपने फोन से बात करता है, तो वह अपनी आवाज़ का एक टुकड़ा पीछे छोड़ता है। यह अनुवाद नहीं है। यह विलोपन है।

भाषा संप्रभुता की समस्या गहरी है क्योंकि भाषा पहचान है। जब कोई व्यवस्था आपकी बोली को नहीं पहचानती, तो वह कह रही है: “आप जिस तरह से आप हैं, वह मायने नहीं रखता। बदलो, या अदृश्य रहो।” यह सिर्फ सुविधा की समस्या नहीं है। यह गरिमा की समस्या है। और जब सरकारी सेवाएं — स्वास्थ्य, कृषि, योजना पात्रता — एआई-मध्यस्थ हो जाती हैं, तो वह गरिमा की समस्या पहुंच की समस्या बन जाती है। उन 5 करोड़ भोजपुरी भाषियों को कल्याण से बाहर रखा गया है क्योंकि उनकी भाषा “नहीं गिना गया।”

यहाँ वह चीज़ है जो इसे सिर्फ तकनीकी चुनौती से अधिक बनाती है: जो भाषाएं एआई प्रशिक्षण डेटा में समाप्त होती हैं, वे वे भाषाएं नहीं हैं जो सबसे अधिक बोली जाती हैं। वे वे भाषाएं हैं जिनमें सबसे अधिक डिजिटल पाठ पहले से मौजूद है। अंग्रेजी-भाषा के समाचार लेख, हिंदी फिल्म उपशीर्षक, शहरी सोशल मीडिया पोस्ट। एआई मॉडल इंटरनेट पर जो पाते हैं उस पर प्रशिक्षित होते हैं। और इंटरनेट पहले से ही उन लोगों की ओर झुका हुआ है जो शहरी, साक्षर और विशेषाधिकार प्राप्त हैं।

ग्रामीण बोली, मौखिक परंपराएं, बिना लिपि वाली भाषाएं — ये डेटासेट में कम प्रतिनिधित्व वाली हैं क्योंकि वे उन रूपों में मौजूद हैं जिन्हें कंप्यूटर आसानी से नहीं खा सकते। तो एआई शिक्षा-प्राप्त, शहरी भारत की भाषा सीखता है और इसे “भारतीय भाषा” कहता है। बाकी को पीछे छोड़ दिया जाता है। यह डिजिटल उपनिवेशवाद नहीं है। यह डिजिटल जातिवाद है — एक प्रणाली जो पहले से ही शक्तिशाली लोगों की आवाज़ को बढ़ाती है और बाकी को शोर के रूप में व्यवहार करती है।

और फिर भी, भारत वास्तव में कुछ उल्लेखनीय कर रहा है। भाषिनी परियोजना, पूरी तरह से लागू होने पर, दुनिया की सबसे महत्वाकांक्षी बहुभाषी एआई पहलों में से एक होगी। इंडिक एनएलपी शोधकर्ता मॉडल बना रहे हैं जो 22 अनुसूचित भाषाओं को कवर करते हैं। एआई4भारत जैसी परियोजनाएं कम-संसाधन वाली भाषाओं के लिए डेटासेट बना रही हैं। डिजिटल इंडिया कार्यक्रम ने लाखों सरकारी दस्तावेजों को कई भाषाओं में डिजिटाइज़ किया है। यह महत्वपूर्ण काम है। और यह गंभीरता से लिया जा रहा है, इस तरह से कि बहुत कम देश बहुभाषावाद को गंभीरता से लेते हैं।

लेकिन गति पर्याप्त नहीं है। हर दिन जो एआई सिस्टम तैनात किए जाते हैं जो केवल “मानक” भाषाएं समझते हैं, वे खाई को गहरा करते हैं। हर बार जब एक ग्रामीण उपयोगकर्ता एक चैटबॉट खोलता है जो उनकी बोली को नहीं पहचानता है और हार मान लेता है, तो यह एक और सबक है: तकनीक आपके लिए नहीं है। एक बार जब यह पैटर्न सेट हो जाता है — कि एआई केवल शहरी, शिक्षित, “मानक”-भाषी भारत के लिए काम करता है — तो इसे उलटना बहुत कठिन हो जाता है।

वैश्विक संदर्भ यहां मायने रखता है। यूरोप 24 आधिकारिक भाषाओं के साथ संघर्ष करता है। संयुक्त राज्य अमेरिका को अंग्रेजी-केंद्रित एआई की लक्जरी है। चीन ने मंदारिन के आसपास मानकीकृत किया है, बोलियों को दबाते हुए। भारत ने एक अलग मार्ग चुना है: संवैधानिक प्रतिबद्धता कि कई भाषाएं समान रूप से वैध हैं। हम 22 अनुसूचित भाषाओं, 121 के साथ रहते हैं जनगणना-दर्ज भाषाएं, और 19,500+ बोलियाँ बिना किसी एक पर सांस्कृतिक प्रभुत्व लागू किए।

यह भाषाई विविधता एक बग नहीं है। यह एक विशेषता है। यह भारत को भारत बनाती है। और अगर हमारे एआई सिस्टम उस विविधता को संभाल नहीं सकते, तो वे भारत के लिए नहीं बने हैं। वे एक छोटे, शहरी, पहले से विशेषाधिकार प्राप्त भारत के लिए बने हैं जो बाकी के लिए खड़ा होने का दिखावा करते हैं।

डिजिटल धर्म — वह नैतिक ढांचा जो House of 7 का मार्गदर्शन करता है — यहां चार प्रश्न पूछता है:

सत्य (Satya – सत्य): क्या यह सच है कि भारतीय एआई “भारतीय भाषाओं” में बोलता है जब वह केवल शहरी, मानक संस्करणों को पहचानता है? सत्य की मांग है कि हम स्वीकार करें: हम जिसे “हिंदी में एआई” कहते हैं, वह वास्तव में “दिल्ली की खड़ीबोली हिंदी में एआई” है। बाकी को “त्रुटि” के रूप में व्यवहार किया जाता है। यह सत्य नहीं है। यह वर्चस्व है।

अहिंसा (Ahimsa – अहिंसा): जब एआई बोलियों को नहीं सुनता, तो यह हिंसा है। हर बार जब संताली-भाषी आंगनवाड़ी कार्यकर्ता को “नहीं समझ पाया” मिलता है, तो यह उस घायल करता है जो वह है। हर बार जब भोजपुरी किसान “सही” हिंदी में अनुवाद करता है, तो वह अपनी आवाज़ का एक टुकड़ा पीछे छोड़ता है। यह शारीरिक हिंसा नहीं है। यह अदृश्यता की हिंसा है, एक ऐसी प्रणाली द्वारा जो आपको आपके रूप में नहीं देखती।

न्याय (Nyaya – न्याय): किसे लाभ? जब एआई सिस्टम केवल शहरी, शिक्षित, मानक-भाषी उपयोगकर्ताओं को सुनते हैं, तो वे पहले से ही विशेषाधिकार प्राप्त लोगों को सेवा देते हैं। जब सरकारी योजनाएं एआई-मध्यस्थ हो जाती हैं, तो वे योजनाएं गैर-मानक भाषा बोलने वालों तक नहीं पहुंचती हैं। यह केवल असुविधा नहीं है। यह संरचनात्मक अन्याय है।

सेवा (Seva – सेवा): एआई को कई लोगों की सेवा करनी चाहिए, न कि केवल कुछ विशेषाधिकार प्राप्त लोगों की। लेकिन एआई जो केवल 22 अनुसूचित भाषाओं की मानक किस्मों को सुनता है, वह 10 करोड़+ ऐसे भारतीयों की सेवा नहीं कर रहा है जो गैर-मानक बोलियाँ बोलते हैं। यह सेवा नहीं है। यह चयनात्मक सेवा है, जो शक्ति वाले लोगों के लिए आरक्षित है।

समाधान तकनीकी नहीं हैं। वे राजनीतिक, नैतिक और संरचनात्मक हैं।

बोली डेटा एकत्र करना एक नैतिक आवश्यकता है। यदि भाषिनी वास्तव में “सभी भारत की आवाज़” होने का दावा करती है, तो इसे ग्रामीण, गैर-मानक, हाशिए की बोलियों से डेटा एकत्र करना चाहिए। यह आसान नहीं है। इसके लिए जमीनी कार्य की आवश्यकता है, सामुदायिक सहमति, गोपनीयता सुरक्षा। लेकिन बिना इसके, एआई उन लोगों की सेवा जारी रखेगा जो पहले से ही सबसे अधिक आवाज़ रखते हैं।

“पहचान विफलता” को नीति विफलता के रूप में मापें। अभी, एआई सिस्टम की सफलता सटीकता द्वारा मापी जाती है: क्या यह ज्यादातर समय सही ढंग से समझता है? लेकिन “ज्यादातर” का मतलब है “शहरी, मानक भाषा उपयोगकर्ताओं के लिए।” यदि हम मापना शुरू करते हैं कि कितने उपयोगकर्ता गैर-पहचान के कारण बाहर रखे गए हैं, तो आंकड़े बहुत अलग दिखेंगे। और नीति निर्माता ध्यान देंगे।

भाषा पहचान को डिजिटल अधिकार बनाएं। भारत का संविधान मातृभाषा शिक्षा के अधिकार को पहचानता है। डिजिटल युग में, उस अधिकार का विस्तार होना चाहिए: आपकी अपनी भाषा में प्रौद्योगिकी का उपयोग करने का अधिकार। यदि सरकारी एआई सिस्टम आपकी बोली को नहीं सुनते हैं, तो वे आपके संवैधानिक अधिकारों का उल्लंघन कर रहे हैं।

समुदाय की आवाज़ का मालिक है। जब शोधकर्ता बोली डेटा एकत्र करते हैं, तो उन्हें निष्कर्षण के रूप में नहीं, बल्कि सहयोग के रूप में करना चाहिए। समुदायों को यह कहना चाहिए कि उनकी भाषा कैसे प्रतिनिधित्व की जाती है। उन्हें उस प्रौद्योगिकी से लाभ उठाना चाहिए जो उनके डेटा पर बनाई गई है। यह शोषण नहीं है। यह सम्मान है।

भारत के एआई का भविष्य एक विकल्प है। हम एक ऐसा एआई बना सकते हैं जो केवल उन लोगों को सुनता है जो पहले से ही सुने जाते हैं, जो शहरी, शिक्षित, मानक-भाषी भारत की सेवा करता है और बाकी को पीछे छोड़ देता है। या हम एक ऐसा एआई बना सकते हैं जो वास्तव में भारत की भाषाई विविधता को सम्मानित करता है, जो संताली और तुलु और भोजपुरी को उतना ही वैध मानता है जितना हिंदी और अंग्रेजी को। जो समझता है कि मराठी एक नहीं बल्कि बहुत सारी चीजें हैं, और यह कि हर संस्करण सुने जाने के योग्य है।

यह सिर्फ तकनीकी क्षमता की बात नहीं है। यह मूल्यों की बात है। हम किस तरह के भारत का निर्माण कर रहे हैं? ऐसा भारत जहां तकनीक शक्तिशाली की सेवा करती है, या ऐसा भारत जहां तकनीक सभी की सेवा करती है? ऐसा भारत जहां आपको सुनने के लिए अपनी आवाज़ बदलनी होती है, या ऐसा भारत जहां तकनीक सुनना सीखती है?

रमेश पाटिल अभी भी अपनी मराठी में बात करते हैं। संताली आंगनवाड़ी कार्यकर्ता अभी भी अपनी भाषा में सोचती है। भोजपुरी किसान अभी भी उस तरह से बोलता है जिस तरह से उसके पिता ने किया था। सवाल यह नहीं है कि क्या वे बदलेंगे। सवाल यह है कि क्या हम उन्हें सुनने के लिए तैयार हैं।

किसकी आवाज़ सुनता है भारतीय एआई? भाषा संप्रभुता और तकनीकी बहिष्करण

Leave a Reply Cancel reply