नेपाली ब्याकरण बुझ्ने सफ्टवेयर
नेपाली हिज्जे जाँच्ने, अनलाइनमा प्रकाशित सामग्री संग्रहित हुने र हुबहु साभार गरिएको पत्ता लगाउने सफ्टवेयर डेभलप भएको छ।
नेपालीमा टाइप गर्दा पनि अंग्रेजीमा जस्तै स्पेलिङ शुद्ध भए/नभएको जानकारी कम्प्युटर आफैंले देखाउने प्रविधि भए कस्तो हुन्थ्यो होला? अझ ह्रस्व–दीर्घ मिले/नमिलेको जाँचेर विकल्प देखाउने प्रविधि पनि भइदिए? नेपाली कम्प्युटर प्रयोगकर्ताहरूको यस्तो चाहना बुझेका आधा दर्जन इन्जिनियरहरूले त्यस्तो सफ्टवेयर बनाएका छन्, जसको नाम हो– नेपाली हिज्जे जाँच प्रणाली।
खासमा, कम्प्युटर इन्जिनियर सन्त बस्नेतले अंग्रेजीको 'स्पेल चेकर' र 'अटो करेक्ट' जस्तै नेपाली भाषामा पनि हिज्जे जाँच्ने उपाय खोजिरहेका थिए, सन् २००७ देखि नै।
साथीहरूसँग मिलेर सन् २०१२ मा इन्टिग्रेटेड आईसीटी प्रालि नामक संस्था स्थापना गरेका उनी अन्ततः त्यस्तो प्रणाली डेभलप गर्न सफल भए। यो प्रणालीमा हिज्जे गलत छ भने शब्दको तल रातो धर्सो देखिन्छ। त्यसमा क्रसर राखेर राइट क्लिक गर्दा सम्भावित सही विकल्प देखिन्छ।
कम्पनीका अध्यक्ष रहेका बस्नेतले यो हिज्जे जाँच प्रणालीमा आठ लाख शब्द संकलन भइसकेको बताए। यसमा जगहिमाली, जगहिमाल, प्रिती, कान्तिपुर वा जुनसुकै नेपाली फन्ट (आस्की) बाट युनिकोडमा र युनिकोडबाट ती सबै फन्टमा कन्भर्ट गर्न सकिने 'फन्ट युनिफिकेसन फ्रेमवर्क' प्रयोग भएको छ। उनी भन्छन्, “यसमा जुनसुकै नेपाली फन्टमा हिज्जे जाँच गर्न मिल्छ।”
बस्नेतका अनुसार, केही सञ्चारगृहले यो सफ्टवेयरको परीक्षण प्रयोग थालिसकेकाले व्यावसायिक रूप लिन धेरै समय लाग्ने छैन। सामाजिक सञ्जालमा स्टाटस् वा एक–दुई पेजसम्म लेख्नेहरूका लागि भने यो सफ्टवेयर (नेपाली हिज्जे जाँच प्रणाली) निःशुल्क हुने जानकारी बस्नेतले दिए। अबको एक महीनाभित्र वेबसाइटमार्फत निःशुल्क संस्करण उपलब्ध हुने बताउँदै उनी भन्छन्, “नेपाली भाषाको मौलिकतालाई कुरुप नबनाइकनै प्रविधि प्रयोग गर्न सकियोस् भनेर यो प्रणाली विकास गरेका हौं।”
नपरियोस् हुबहुमा!
लामा–लामा अनुसन्धानमूलक लेख/प्रतिवेदन तयार पर्ने व्यक्ति वा संस्था, सञ्चारगृह, प्रकाशनगृह, सरकारी तथा गैरसरकारी कार्यालय आदिलाई लक्षित गरिएको नेपाली हिज्जे जाँच प्रणाली भाषा सम्पादक नराखी सञ्चालित अनलाइन न्यूज पोर्टलका लागि निकै उपयोगी हुनेछ।
इन्टिग्रेटेड आईसीटी प्रालिले पत्रकार आचारसंहितालाई बेवास्ता गरी सञ्चालित अनलाइन पोर्टलहरूलाई अनुगमन गर्न मिल्ने प्रविधि पनि प्रयोगमा ल्याएको छ, जसलाई प्रेस काउन्सिल, नेपालले प्रयोग गर्न थालिसकेको छ।
गत ३० भदौबाट परीक्षणको रूपमा प्रयोगमा आएको 'अनलाइन मिडिया अनुगमन प्रणाली' ले अनलाइनमा प्रकाशित हरेक समाचारको स्त्रि्कनसर्ट र कन्टेन्ट जस्ताको तस्तै क्याप्चर गरेर संग्रह गर्छ। यसका लागि इन्टरनेट स्पीड र डेटा संग्रहका लागि ठूलो क्षमताको ब्याकअप भने चाहिन्छ। जथाभावी लेखेर विवादमा परेपछि 'डिलिट' गरिएका समाचार सामग्री क्याप्चर गरेर राखेको स्क्रिनशट र कन्टेन्टमा जस्ताको तस्तै हेर्न मिल्छ।
अनलाइनमा जुनसुकै सामग्री प्रकाशित हुने बित्तिकै नियामक निकाय प्रेस काउन्सिलको अभिलेखमा संग्रहित हुन पुग्छ। पछि कसैको उजुरी पर्दा वा छानबीन आवश्यक हुँदा प्रमाणको रूपमा स्क्रिनशट पेश हुन्छ। अन्य सञ्चारमाध्यमबाट हुबहु चोरिएको थाहा पाउन क्याप्चर कन्टेन्ट हेरिन्छ।
यो प्रणालीको प्रयोगबाट समाचारहरूको अभिलेखालय तयार हुने र अनलाइन मिडिया अनुगमनको कार्य छिटो र सहज हुने इन्टिग्रेटेड आईसीटीका प्रमुख कार्यकारी अधिकृत (सीईओ) विरोध रिजाल बताउँछन्।
उता प्रेस काउन्सिलमा दर्ताका लागि आवेदन परेका ४६३ अनलाइनका सामग्रीको निरन्तर अनुगमन भइरहेको छ। पत्रकार आचारसंहिता विपरीतका शब्दहरू प्रयोग भएको रहेछ भने काउन्सिलमा अटोमेटिक जानकारी पुर्याउने काम यो प्रविधिले गर्छ। यो प्रणाली डेभलप गर्दा नेपाली भाषाको वर्णविन्यास विश्लेषण गरिएको छ।
भाषामैत्री प्रविधि
सफ्टवेयर विकास र अनुसन्धानका लागि चार वर्षअघि स्थापित इन्टिग्रेटेड आईसीटी प्रालिको बोर्डमा ६ जना इन्जिनियर छन्– सन्त बस्नेत अध्यक्ष, विरोध रिजाल सीईओ, डा. शैलेस पाण्डे रिसर्च हेड, दिनेश डंगोल सफ्टवेयर आर्किटेक्ट, रूपेशदही श्रेष्ठ प्रोडक्ट म्यानेजर र तृष्णा सिंह चिफ टेक्नोलोजी अफिसर। सिंहले पूर्वाञ्चल विश्वविद्यालयबाट र बाँकीले नेपाल इन्जिनियरिङ कलेजबाट सन् २००४, २००५ र २००६ मा 'ग्य्राजुएट' गरेका हुन्।
२००५ ताका नेपाल इन्जिनियरिङ कलेजको सामाजिक प्रतिरक्षा प्रविधि अनुसन्धान केन्द्रमा अनुसन्धान गर्दाताका यो टीम बनेको हो। टीमले सामाजिक उत्तरदायित्व लिने गरी कम्पनी खोलेको सीईओ रिजाल बताउँछन्। उनका अनुसार, समाज र संस्कृतिमा नकारात्मक प्रभाव नपर्ने गरी प्रविधि विकास गर्ने सोचको नतीजा हो, यो कम्पनी।
विना लगानी शुरू भएको कम्पनीमा अहिले १२ जना कार्यरत छन्। ललितपुरको कुपण्डोलमा जग्गा भाडामा लिएर प्रि–फ्याबको कार्यालय बनाएका अध्यक्ष बस्नेत विना लगानीको कम्पनी, व्यवस्थापन विनै चलिरहेको बताउँछन्।
बेलायत र थाइल्याण्डबाट मास्टर्स तहको पढाइ पूरा गरेकाहरूको यो कम्पनीले स्थापनाताका इ–लर्निङ सिस्टम डेभलप गरेको थियो, तत्काल खर्चको जोहो गर्न।
त्यसक्रममा मेशीन लर्निङ डेटा एनालाइसिस्, सफ्टवेयर पर्फमेन्स टेस्टिङ, फङ्सनल टेस्टिङ, सफ्टवेयर सेक्युरिटी भल्नेरेबिलिटी टेस्टिङ, इफिसेन्ट एण्ड इफेक्टिभ इन्टरफेज डिजाइन जस्ता कामहरू भए। तर, टीमको मूल उद्देश्य भने प्रविधिमैत्री भाषा प्रयोग गरिरहेका नेपालीलाई भाषामैत्री प्रविधिमा डोर्याउनु थियो। बस्नेत भन्छन्, “प्रविधिमा डोरिंदै जाने होइन, हाम्रो भाषा–संस्कृति अनुसारको प्रविधि बनाउने हो।”
युवाबहुल यो टीमले पुराना कम्प्युटर इन्जिनियर डा. सुरेश मानन्धरको साथ पाएको छ। नेपालमा २०२८ सालमा कम्प्युटर भित्रिएपछि त्यसको अपरेटिङमा संलग्न डा. मानन्धर अहिले बेलायतको युनिभर्सिटी अफ योर्कमा अध्यापन गर्छन्।
अब नेपालीमा ओसीआर पनि
बहुचर्चित सर्च इन्जिन गुगलमा अंग्रेजीमा प्रकाशित सामग्री खोज्न जति सहज छ, नेपाली भाषाका सामग्री पाउन उति नै गाह्रो। यो टीमले नेपाली भाषाका शब्दहरूको वर्णविन्यास गरी सर्च गर्ने प्रविधिको पनि विकास गरेर प्रयोगमा ल्याइसकेको छ। अझ प्रिन्टेड डकुमेन्टलाई स्क्यान गरेर राखेको डिजिटल अभिलेखालयमा नेपाली भाषाको कन्टेन्ट सर्च गर्न त कुनै उपाय छैन।
त्यसैले स्क्यान गरेका डकुमेन्टमा नेपाली सामग्री सर्च गर्दा सहजै उपलब्ध हुने नेपाली भाषा रिड गर्ने सफ्टवेयर अप्टिकल क्यारेक्टर (ओसीआर) चाहिन्छ। “हामीले त्यसको पनि पूर्वाधार तयार पारिसकेका छौं”, सीईओ रिजाल भन्छन्, “एक वर्षमा प्रयोगमा ल्याउने गरी काम भइरहेको छ।”
उनका अनुसार नेपालीमा लेखेको पढ्ने र नेपाली भाषाको आवाजलाई लेख्ने सफ्टवेयर बनाउने काम पनि भइरहेको छ। टेक्स्ट टु स्पिच (टीटीएस) भनिने यो सफ्टवेयर खासगरी देख्न नसक्नेहरूका लागि र स्पिच टु टेक्स्ट (एसटीटी) भनिने हात चलाउन नसक्नेहरूका लागि उपयोगी हुनेछ।