Kala India

जब मशीन हमारी बोली सीखती है: भारत के “वॉयस-फर्स्ट” AI के लिए डिजिटल धर्म

March 11, 2026 • 1 min read

लिड (Lede)

मुंबई की एक लोकल ट्रेन में अक्सर एक दृश्य दिखता है: किसी के हाथ में स्मार्टफोन है, स्क्रीन पर लिखे अक्षर छोटे हैं, पर बातचीत बड़ी है। कोई UPI से भुगतान कर रहा है, कोई अस्पताल की रिपोर्ट का फोटो दिखा रहा है, कोई सरकारी फ़ॉर्म भरने की कोशिश कर रहा है—और बीच-बीच में किसी का वॉयस नोट चल पड़ता है, जैसे लिखना नहीं, बोलना ही असली इंटरफ़ेस हो। भारत में डिजिटल दुनिया का सबसे स्वाभाविक दरवाज़ा अक्सर कीबोर्ड नहीं, आवाज़ है।

यहीं से “वॉयस-फर्स्ट” AI का वादा जन्म लेता है: अगर मशीन हमारी भाषा—और उससे भी बढ़कर हमारी बोली, हमारा लहजा, हमारे उच्चारण—समझ ले, तो डिजिटल सेवाएँ सच में “सबके लिए” हो सकती हैं। लेकिन इस वादे के भीतर एक धर्म-प्रश्न भी छिपा है: क्या यह तकनीक सेवा (सेवा) बनकर आएगी, या नई तरह की असमानता और निगरानी का औज़ार बनकर?

संदर्भ (Context)

भारत की डिजिटल सार्वजनिक संरचना (DPI) ने पिछले दशक में असंभव-सा दिखने वाला काम किया: पहचान, भुगतान, दस्तावेज़ और सेवाओं को बड़े पैमाने पर जोड़ना। पर भाषा—भारत की सबसे गहरी, सबसे बहुस्तरीय वास्तविकता—अब भी सबसे बड़ी बाधा रही है। देश में 22 अनुसूचित भाषाएँ हैं, और सैकड़ों बोलियाँ; डिजिटल दुनिया, अक्सर, कुछ ही भाषाओं की सुविधा पर खड़ी है।

इसी गैप को भरने के लिए सरकार ने राष्ट्रीय भाषा अनुवाद मिशन (NLTM) के तहत “BHASHINI (BHASHa INterface for India)” को आगे बढ़ाया है—एक ऐसा प्लेटफ़ॉर्म जो AI/NLP के ज़रिये अनुवाद, स्पीच-टू-टेक्स्ट, टेक्स्ट-टू-स्पीच जैसी क्षमताएँ प्रदान कर भाषा-दीवारों को कम करने का दावा करता है। PIB के एक विवरण के अनुसार, BHASHINI का उद्देश्य भारत की भाषाई विविधता में डिजिटल सामग्री और सेवाओं तक पहुँच को लोकतांत्रिक बनाना है, और यह डिजिटल इंडिया कॉरपोरेशन के अंतर्गत BHASHINI डिविज़न द्वारा लागू किया जा रहा है।¹

मुद्दा यह नहीं कि ऐसी तकनीक संभव है या नहीं—संभव है। मुद्दा यह है कि यह तकनीक किसके लिए संभव बनेगी, किस कीमत पर, और किन अदृश्य लोगों की आवाज़ों को वह “शोर” समझकर हटा देगी।

विश्लेषण (Analysis)

1) सेवा: जब भाषा इंटरफ़ेस बनती है

भारत का “वॉयस-फर्स्ट” भविष्य केवल सुविधा का सवाल नहीं; यह समावेशन का सवाल है। जिन लोगों के लिए पढ़ना-लिखना कठिन है—या जिनकी शिक्षा भाषा-नीतियों और सामाजिक असमानताओं के कारण बाधित रही है—उनके लिए आवाज़ एक बराबरी की राह खोल सकती है। एक मल्टी-लिंगुअल चैटबॉट, एक बोलकर भरने वाला फ़ॉर्म, या अपनी भाषा में समझाया गया सरकारी निर्देश—ये सब “सेवा” की तरह लगते हैं, क्योंकि ये नागरिक को सिस्टम के पास नहीं, सिस्टम को नागरिक के पास लाते हैं।

लेकिन सेवा का धर्म तब ही पूरा होता है, जब यह केवल “हिंदी+अंग्रेज़ी” की कहानी न बने। भारत की डिजिटल दुनिया में असली परीक्षा उन भाषाओं/बोलियों की है जिनके पास ना बाज़ार का दबाव है, ना डेटा का पहाड़—मैथिली, संथाली, गोंडी, कोंकणी के कुछ उच्चारण-समूह, या पूर्वोत्तर के छोटे भाषिक समुदाय। अगर AI इन जगहों पर भी काम करे, तब यह सच में “सबके लिए” कहलाएगा।

2) सत्य: मॉडल क्या “समझता” है—और क्या “मान” लेता है

भाषा-तकनीक का सबसे बड़ा भ्रम यह है कि अनुवाद = समझ। अक्सर मॉडल शब्दों को एक भाषा से दूसरी में बदल देता है, पर अर्थ—और संदर्भ—वहाँ गिर जाता है। भारत में एक ही शब्द अलग राज्यों में अलग भाव रख सकता है; जाति-संदर्भ, स्थानीय इतिहास, और सामाजिक संबंधों में अर्थ बदलता है।

सत्य (Satya) का आग्रह कहता है: “मशीन ने कहा” को सच न मानो। यह पूछो: क्या यह परिणाम संदर्भ-समृद्ध है? क्या यह अपमानजनक अर्थ पैदा कर रहा है? क्या यह किसी समुदाय की बोली को ‘गलत’ घोषित कर रहा है? क्या यह महिलाओं की आवाज़ को कम सटीक पहचान रहा है, क्योंकि डेटा में वे कम थीं? भारत में ‘सत्य’ एक तकनीकी मीट्रिक नहीं; यह सामाजिक जिम्मेदारी है।

3) न्याय: भाषा-समर्थन का वितरण ही असमानता का नक्शा बन सकता है

न्याय (Nyaya) सिर्फ़ “कितनी भाषाएँ” का सवाल नहीं; यह “किस गुणवत्ता से, किस उपयोग-केस में, किस भरोसेमंदता के साथ” का सवाल है। अगर किसी भाषा में केवल टेक्स्ट अनुवाद ठीक है, पर स्पीच पहचान खराब है, तो उस भाषा के बुज़ुर्ग, कम पढ़े-लिखे लोग, या वे लोग जो टाइप नहीं कर पाते—सब पीछे रह जाते हैं।

यहाँ एक सूक्ष्म खतरा है: DPI के साथ जुड़ते हुए, भाषा-परत सेवाओं के दरवाज़े खोल सकती है, और साथ ही नागरिक के हर सवाल, हर मांग, हर शिकायत को डेटा-बिंदु बना सकती है। न्याय की कसौटी पूछती है: यह डेटा किसके पास जाएगा? क्या नागरिक को ‘ना’ कहने का अधिकार होगा? क्या छोटे समुदायों की भाषाएँ “ट्रेनिंग डेटा” के रूप में ली जाएँगी, पर लाभ बड़े प्लेटफ़ॉर्म उठा लेंगे?

4) अहिंसा: गलत अनुवाद भी हिंसा हो सकता है

अहिंसा (Ahimsa) का मतलब सिर्फ़ शारीरिक हिंसा नहीं—यह उस नुकसान से भी बचना है जो सिस्टम की त्रुटि से होता है। एक स्वास्थ्य सलाह का गलत अनुवाद, एक कानूनी नोटिस की गलत व्याख्या, या किसी किसान को गलत तिथि/स्थान का निर्देश—ये सब वास्तविक नुकसान पैदा कर सकते हैं।

वॉयस-फर्स्ट सिस्टम में अहिंसा की मांग बढ़ जाती है, क्योंकि लोग अक्सर आवाज़ पर भरोसा ज़्यादा करते हैं। अगर मशीन आत्मविश्वास से गलत बोले, तो वह “झूठ” नहीं, “विश्वासघात” बन जाता है। इसलिए उच्च-जोखिम डोमेन (स्वास्थ्य, न्याय, वित्त) में भाषा-AI के लिए सत्यापन, मानव-इन-द-लूप, और स्पष्ट अस्वीकरण (disclaimer) केवल नीति नहीं—धर्म है।

5) संतोष: टिकाऊ भाषा-प्रौद्योगिकी का सवाल

भाषा मॉडल बनाना एक बार का प्रोजेक्ट नहीं; यह सतत रख-रखाव है। भाषाएँ बदलती हैं, नए शब्द आते हैं, राजनीति और संस्कृति शब्दों को नए अर्थ देती है। अगर किसी भाषा का सपोर्ट “लॉन्च” के बाद उपेक्षित हो जाए, तो वह समुदाय फिर हाशिए पर चला जाएगा।

संतोष (Santosha) का अर्थ यहाँ ‘लंबी जिम्मेदारी’ है: डेटा सेट्स का स्थानीय स्वामित्व, ओपन APIs, शोध-सहयोग, और उन लोगों को भुगतान/मान्यता जिनकी आवाज़ों और पाठ से मॉडल सीखते हैं। PIB के विवरण में BHASHINI को सहयोगी/पार्टनरशिप और क्षमता निर्माण जैसे उद्देश्यों से जोड़ा गया है—यह दिशा ठीक है, पर इसे ज़मीनी स्तर पर मापना होगा।¹

हाउस रिफ्लेक्शन (House Reflection)

हाउस ऑफ 7 में हम तकनीक को “सिर्फ़ शक्ति” नहीं मानते; हम उसे संबंध मानते हैं। भाषा संबंध की सबसे पहली डोर है। जब कोई दादी अपने ही मुहावरे में सरकारी सेवा समझ लेती है, तो यह सिर्फ़ UX नहीं—यह गरिमा है।

पर गरिमा, बिना अधिकारों के, टिकती नहीं। डिजिटल धर्म का आग्रह है कि भाषा-AI को एक नया “डिजिटल पंचायत” बनने दें—जहाँ नागरिक अपने शब्दों में प्रश्न कर सके—पर उसे एक नया “डिजिटल थाना” न बनने दें—जहाँ हर आवाज़ निगरानी का संकेत बन जाए।

हमारा आदर्श बहुत सीधा है: सेवाएँ बहुभाषी हों, पर सत्ता एकभाषी न बने। यानी नागरिक की भाषा में सुविधा बढ़े, पर सिस्टम की जवाबदेही भी उतनी ही बढ़े।

समापन प्रश्न (Closing Question)

अगर आने वाले वर्षों में भारत का AI सचमुच “वॉयस-फर्स्ट” हो जाता है—तो हम किस तरह का देश बनेंगे: वह जहाँ हर नागरिक अपनी भाषा में राज्य से बात कर सके, या वह जहाँ राज्य हर नागरिक की भाषा को सुनकर उसे ट्रैक कर सके?

स्रोत
1) PIB (16 Jan 2025): “BHASHINI: Transforming Maha Kumbh through Multilingual Innovation” — BHASHINI/NLTM के उद्देश्य और कार्यान्वयन का विवरण। https://www.pib.gov.in/PressReleaseIframePage.aspx?PRID=2093333

House of 7