अनुप्रयोगांची संख्या आणि व्हॉइस इंटरफेसचे महत्त्व वेगाने वाढत आहे
तंत्रज्ञान

अनुप्रयोगांची संख्या आणि व्हॉइस इंटरफेसचे महत्त्व वेगाने वाढत आहे

पोर्टलँड, ओरेगॉन येथील एका अमेरिकन कुटुंबाला अलीकडेच कळले की अॅलेक्सच्या व्हॉइस असिस्टंटने त्यांच्या खाजगी चॅट रेकॉर्ड केल्या आणि त्या मित्राला पाठवल्या. घराच्या मालकाने, मीडियाद्वारे डॅनिएल म्हणून नाव दिले, पत्रकारांना सांगितले की ती "ते उपकरण पुन्हा कधीही प्लग इन करणार नाही कारण तिच्यावर विश्वास ठेवला जाऊ शकत नाही."

अलेक्सा, लाखो यूएस घरांमध्ये इको (1) स्पीकर आणि इतर गॅझेट्सद्वारे प्रदान केलेले, वापरकर्त्याद्वारे बोललेले त्याचे नाव किंवा "कॉल शब्द" ऐकल्यावर रेकॉर्डिंग सुरू होते. याचा अर्थ असा की टीव्ही जाहिरातीमध्ये जरी "अलेक्सा" शब्दाचा उल्लेख असला तरी, डिव्हाइस रेकॉर्डिंग सुरू करू शकते. या प्रकरणात नेमके तेच घडले आहे, असे हार्डवेअर वितरक अॅमेझॉनचे म्हणणे आहे.

"उरलेल्या संभाषणाचा व्हॉईस असिस्टंटने संदेश पाठवण्याची आज्ञा म्हणून अर्थ लावला," कंपनीने एका निवेदनात म्हटले आहे. "काही क्षणी, अलेक्साने मोठ्याने विचारले: "कोणाला?" हार्डवुड फ्लोअरिंगबद्दल कौटुंबिक संभाषण सुरू ठेवणे हे मशीनला ग्राहकाच्या संपर्क यादीतील एक वस्तू म्हणून समजले पाहिजे. निदान ऍमेझॉनला तरी असे वाटते. अशा प्रकारे, भाषांतर अपघातांच्या मालिकेपर्यंत कमी होते.

चिंता मात्र कायम आहे. कारण काही कारणास्तव, ज्या घरात आम्हाला अजूनही आराम वाटतो, तिथे आम्हाला "व्हॉईस मोड" मध्ये प्रवेश करावा लागतो, आपण काय बोलतो, टीव्ही काय प्रसारित करतो आणि अर्थातच, छातीवर हा नवीन स्पीकर काय आहे ते पहावे लागेल. ड्रॉर्स म्हणतात. आम्हाला

तथापि, तंत्रज्ञानातील अपूर्णता आणि गोपनीयतेची चिंता असूनही, Amazon Echo सारख्या उपकरणांच्या लोकप्रियतेत वाढ झाल्यामुळे, लोकांना त्यांचा आवाज वापरून संगणकाशी संवाद साधण्याची सवय होऊ लागली आहे..

अॅमेझॉनचे सीटीओ वर्नर वोगेल्स यांनी 2017 च्या उत्तरार्धात त्यांच्या AWS re:Invent सत्रादरम्यान नमूद केल्याप्रमाणे, तंत्रज्ञानाने आतापर्यंत संगणकांशी संवाद साधण्याची आमची क्षमता मर्यादित केली आहे. आम्ही कीबोर्ड वापरून Google मध्ये कीवर्ड टाइप करतो, कारण मशीनमध्ये माहिती प्रविष्ट करण्याचा हा सर्वात सामान्य आणि सर्वात सोपा मार्ग आहे.

व्होगेल्स म्हणाले. -

मोठे चार

फोनवर Google शोध इंजिन वापरताना, आम्हाला कदाचित बर्याच काळापूर्वी बोलण्यासाठी कॉल असलेले मायक्रोफोन चिन्ह लक्षात आले. या गूगल आता (२), ज्याचा वापर शोध क्वेरी लिहिण्यासाठी, आवाजाद्वारे संदेश प्रविष्ट करण्यासाठी केला जाऊ शकतो. अलिकडच्या वर्षांत, Google, Apple आणि Amazon मध्ये खूप सुधारणा झाली आहे. आवाज ओळख तंत्रज्ञान. अॅलेक्सा, सिरी आणि गुगल असिस्टंट सारखे व्हॉइस असिस्टंट फक्त तुमचा आवाज रेकॉर्ड करत नाहीत तर तुम्ही त्यांना काय म्हणता ते देखील समजून घेतात आणि प्रश्नांची उत्तरे देतात.

Google Now सर्व Android वापरकर्त्यांसाठी विनामूल्य उपलब्ध आहे. अनुप्रयोग, उदाहरणार्थ, अलार्म सेट करू शकतो, हवामान अंदाज तपासू शकतो आणि Google नकाशे वर मार्ग तपासू शकतो. Google Now चा संभाषणात्मक विस्तार सांगते Google सहाय्यक () - उपकरणाच्या वापरकर्त्याला आभासी सहाय्य. हे प्रामुख्याने मोबाइल आणि स्मार्ट होम उपकरणांवर उपलब्ध आहे. Google Now च्या विपरीत, ते द्वि-मार्ग एक्सचेंजमध्ये सहभागी होऊ शकते. सहाय्यकाने मे 2016 मध्ये Google मेसेजिंग अॅप Allo चा भाग म्हणून तसेच Google Home व्हॉइस स्पीकर (3) मध्ये पदार्पण केले.

3. Google Home

IOS सिस्टीममध्ये स्वतःचे व्हर्च्युअल असिस्टंट देखील आहे, Siri, जो Apple च्या ऑपरेटिंग सिस्टम iOS, watchOS, tvOS homepod आणि macOS सह समाविष्ट केलेला प्रोग्राम आहे. लेटस् टॉक आयफोन कॉन्फरन्समध्ये ऑक्टोबर 5 मध्ये Siri ने iOS 4 आणि iPhone 2011s सह पदार्पण केले.

हे सॉफ्टवेअर संभाषणात्मक इंटरफेसवर आधारित आहे: ते वापरकर्त्याचे नैसर्गिक भाषण ओळखते (iOS 11 सह स्वहस्ते आदेश प्रविष्ट करणे देखील शक्य आहे), प्रश्नांची उत्तरे देते आणि कार्ये पूर्ण करते. मशीन लर्निंगची ओळख करून दिल्याबद्दल धन्यवाद, कालांतराने एक सहाय्यक वैयक्तिक प्राधान्यांचे विश्लेषण करते वापरकर्ता अधिक संबंधित परिणाम आणि शिफारसी प्रदान करण्यासाठी. Siri ला सतत इंटरनेट कनेक्शन आवश्यक आहे - येथे माहितीचे मुख्य स्त्रोत Bing आणि Wolfram Alpha आहेत. iOS 10 ने तृतीय-पक्ष विस्तारांसाठी समर्थन सादर केले.

मोठ्या चारपैकी आणखी एक कोर्टाना. मायक्रोसॉफ्टने तयार केलेला हा एक बुद्धिमान वैयक्तिक सहाय्यक आहे. हे Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android आणि iOS प्लॅटफॉर्मवर समर्थित आहे. Cortana ची प्रथम ओळख सॅन फ्रान्सिस्को येथे एप्रिल 2014 मध्ये Microsoft Build Developer Conference मध्ये करण्यात आली होती. कार्यक्रमाचे नाव हेलो गेम मालिकेतील पात्राच्या नावावरून आले आहे. Cortana इंग्रजी, इटालियन, स्पॅनिश, फ्रेंच, जर्मन, चीनी आणि जपानी भाषेत उपलब्ध आहे.

आधीच नमूद केलेल्या प्रोग्रामचे वापरकर्ते अलेक्सा त्यांनी भाषेच्या निर्बंधांचा देखील विचार केला पाहिजे - डिजिटल सहाय्यक फक्त इंग्रजी, जर्मन, फ्रेंच आणि जपानी बोलतो.

Amazon Virtual Assistant चा वापर प्रथम Amazon Echo आणि Amazon Echo Dot स्मार्ट स्पीकर्स मध्ये Amazon Lab126 ने विकसित केला होता. हे व्हॉईस संवाद, संगीत प्लेबॅक, टू-डू लिस्ट तयार करणे, अलार्म सेटिंग, पॉडकास्ट स्ट्रीमिंग, ऑडिओबुक प्लेबॅक आणि रिअल-टाइम हवामान, रहदारी, खेळ आणि बातम्या (4) सारख्या इतर बातम्यांची माहिती सक्षम करते. होम ऑटोमेशन सिस्टम तयार करण्यासाठी अलेक्सा अनेक स्मार्ट डिव्हाइस नियंत्रित करू शकते. Amazon स्टोअरमध्ये सोयीस्कर खरेदी करण्यासाठी देखील याचा वापर केला जाऊ शकतो.

4. वापरकर्ते इको कशासाठी वापरतात (संशोधनानुसार)

वापरकर्ते अलेक्सा "कौशल्य" (), तृतीय पक्षांद्वारे विकसित केलेली अतिरिक्त वैशिष्ट्ये स्थापित करून अलेक्सा अनुभव वाढवू शकतात, ज्यांना इतर सेटिंग्जमध्ये हवामान आणि ऑडिओ प्रोग्राम सारखे अॅप्स म्हणून सामान्यतः संदर्भित केले जाते. बहुतेक अलेक्सा डिव्हाइसेस तुम्हाला तुमचा व्हर्च्युअल असिस्टंट वेक-अप पासवर्डसह सक्रिय करण्याची परवानगी देतात, ज्याला म्हणतात.

आज स्मार्ट स्पीकर मार्केटमध्ये Amazon निश्चितपणे वर्चस्व गाजवत आहे (5). मार्च 2018 मध्ये नवीन सेवा सादर करणारी IBM पहिल्या चारमध्ये प्रवेश करण्याचा प्रयत्न करत आहे वॉटसनचा सहाय्यक, ज्या कंपन्यांना व्हॉइस कंट्रोलसह व्हर्च्युअल असिस्टंटची स्वतःची सिस्टम तयार करायची आहे त्यांच्यासाठी डिझाइन केलेले. IBM सोल्यूशनचा फायदा काय आहे? कंपनीच्या प्रतिनिधींच्या मते, सर्व प्रथम, वैयक्तिकरण आणि गोपनीयता संरक्षणाच्या मोठ्या संधींवर.

प्रथम, वॉटसन सहाय्यक ब्रँडेड नाही. कंपन्या या प्लॅटफॉर्मवर त्यांचे स्वतःचे उपाय तयार करू शकतात आणि त्यांना त्यांच्या स्वतःच्या ब्रँडसह लेबल करू शकतात.

दुसरे, ते त्यांच्या सहाय्यक प्रणालींना त्यांचे स्वतःचे डेटा संच वापरून प्रशिक्षण देऊ शकतात, जे IBM म्हणते की इतर VUI (व्हॉइस यूजर इंटरफेस) तंत्रज्ञानापेक्षा त्या प्रणालीमध्ये वैशिष्ट्ये आणि आदेश जोडणे सोपे होते.

तिसरे म्हणजे, वॉटसन सहाय्यक आयबीएमला वापरकर्त्याच्या क्रियाकलापांबद्दल माहिती प्रदान करत नाही - प्लॅटफॉर्मवरील समाधानांचे विकसक केवळ मौल्यवान डेटा स्वतःकडे ठेवू शकतात. दरम्यान, जो कोणी उपकरणे बनवतो, उदाहरणार्थ अलेक्सासह, त्यांचा मौल्यवान डेटा Amazon वर संपेल याची जाणीव असावी.

वॉटसन असिस्टंटकडे आधीपासूनच अनेक अंमलबजावणी आहेत. प्रणाली वापरली गेली, उदाहरणार्थ, हरमनने, ज्याने मासेराती संकल्पना कार (6) साठी व्हॉइस असिस्टंट तयार केला. म्युनिक विमानतळावर, IBM सहाय्यक प्रवाशांना फिरण्यास मदत करण्यासाठी पेपर रोबोटला शक्ती देतो. तिसरे उदाहरण म्हणजे कॅमेलियन टेक्नॉलॉजीज, जेथे स्मार्ट होम मीटरमध्ये व्हॉइस तंत्रज्ञान वापरले जाते.

6. मासेराती कॉन्सेप्ट कारमध्ये वॉटसन असिस्टंट

हे जोडण्यासारखे आहे की येथे अंतर्निहित तंत्रज्ञान देखील नवीन नाही. वॉटसन असिस्टंटमध्ये विद्यमान IBM उत्पादनांसाठी एन्क्रिप्शन क्षमता, वॉटसन संभाषण आणि वॉटसन व्हर्च्युअल एजंट, तसेच भाषा विश्लेषण आणि चॅटसाठी API समाविष्ट आहेत.

Amazon केवळ स्मार्ट व्हॉईस तंत्रज्ञानात आघाडीवर नाही तर ते थेट व्यवसायात बदलत आहे. तथापि, काही कंपन्यांनी इको इंटिग्रेशनचा प्रयोग खूप पूर्वी केला आहे. BI आणि विश्लेषण उद्योगातील कंपनी, Sisense ने जुलै 2016 मध्ये Echo इंटिग्रेशन सादर केले. या बदल्यात, स्टार्टअप Roxy ने हॉस्पिटॅलिटी उद्योगासाठी स्वतःचे आवाज-नियंत्रित सॉफ्टवेअर आणि हार्डवेअर तयार करण्याचा निर्णय घेतला. या वर्षाच्या सुरुवातीला, Synqq ने नोट-टेकिंग अॅप सादर केले जे कीबोर्डवर टाइप न करता नोट्स आणि कॅलेंडर नोंदी जोडण्यासाठी आवाज आणि नैसर्गिक भाषा प्रक्रिया वापरते.

या सर्व लघुउद्योगांच्या उच्च महत्त्वाकांक्षा आहेत. तथापि, बहुतेक, त्यांनी हे शिकले की प्रत्येक वापरकर्त्याला त्यांचा डेटा Amazon, Google, Apple किंवा Microsoft वर हस्तांतरित करायचा नाही, जे व्हॉइस कम्युनिकेशन प्लॅटफॉर्म तयार करण्यासाठी सर्वात महत्वाचे खेळाडू आहेत.

अमेरिकन खरेदी करू इच्छित आहेत

2016 मध्ये, व्हॉइस शोध सर्व Google मोबाइल शोधांपैकी 20% होते. जे लोक हे तंत्रज्ञान दररोज वापरतात ते त्याच्या सर्वात मोठ्या फायद्यांमध्ये त्याची सोय आणि मल्टीटास्किंगचा उल्लेख करतात. (उदाहरणार्थ, कार चालवताना शोध इंजिन वापरण्याची क्षमता).

व्हिजनगेन विश्लेषकांचा अंदाज आहे की स्मार्ट डिजिटल असिस्टंटचे सध्याचे बाजार मूल्य $1,138 अब्ज आहे. अशा अधिकाधिक यंत्रणा आहेत. गार्टनरच्या मते, 2018 च्या अखेरीस आधीच आमच्या परस्परसंवादांपैकी 30% तंत्रज्ञानासह व्हॉइस सिस्टमसह संभाषण केले जाईल.

ब्रिटीश रिसर्च फर्म IHS मार्किटचा अंदाज आहे की AI-शक्तीच्या डिजिटल सहाय्यकांची बाजारपेठ या वर्षाच्या अखेरीस 4 अब्ज उपकरणांपर्यंत पोहोचेल आणि 2020 पर्यंत ही संख्या 7 अब्जपर्यंत वाढू शकेल.

eMarketer आणि VoiceLabs च्या अहवालानुसार, 2017 दशलक्ष अमेरिकन लोकांनी 35,6 मध्ये महिन्यातून किमान एकदा व्हॉइस कंट्रोलचा वापर केला. याचा अर्थ मागील वर्षाच्या तुलनेत जवळपास 130% वाढ झाली आहे. 2018 मध्ये एकट्या डिजिटल असिस्टंट मार्केटमध्ये 23% वाढ होण्याची अपेक्षा आहे. याचा अर्थ तुम्ही ते आधीच वापरत असाल. 60,5 दशलक्ष अमेरिकन, ज्यामुळे त्यांच्या उत्पादकांना ठोस पैसे मिळतील. RBC कॅपिटल मार्केट्सचा अंदाज आहे की अलेक्सा इंटरफेस 2020 पर्यंत Amazon साठी $10 अब्ज कमाई करेल.

धुवा, बेक करा, स्वच्छ करा!

व्हॉइस इंटरफेस अधिकाधिक धैर्याने घरगुती उपकरणे आणि ग्राहक इलेक्ट्रॉनिक्स मार्केटमध्ये प्रवेश करत आहेत. हे आधीच गेल्या वर्षीच्या IFA 2017 प्रदर्शनादरम्यान पाहिले जाऊ शकते. अमेरिकन कंपनी Neato Robotics ने, उदाहरणार्थ, एक रोबोट व्हॅक्यूम क्लिनर सादर केला जो Amazon Echo सिस्टीमसह अनेक स्मार्ट होम प्लॅटफॉर्म्सपैकी एकाला जोडतो. इको स्मार्ट स्पीकरशी बोलून, तुम्ही मशीनला दिवसा किंवा रात्री विशिष्ट वेळी तुमचे संपूर्ण घर स्वच्छ करण्याची सूचना देऊ शकता.

तुर्की कंपनी वेस्टेलने तोशिबा ब्रँड अंतर्गत विकल्या गेलेल्या स्मार्ट टीव्हीपासून ते जर्मन कंपनी ब्युररच्या गरम ब्लँकेटपर्यंत इतर व्हॉइस-सक्रिय उत्पादने शोमध्ये प्रदर्शित करण्यात आली. यापैकी अनेक इलेक्ट्रॉनिक उपकरणे स्मार्टफोनचा वापर करून दूरस्थपणे देखील सक्रिय केली जाऊ शकतात.

तथापि, बॉशच्या प्रतिनिधींच्या मते, गृह सहाय्यक पर्यायांपैकी कोणता पर्याय प्रबळ होईल हे सांगणे खूप लवकर आहे. IFA 2017 मध्ये, जर्मन तांत्रिक गटाने वॉशिंग मशिन (7), ओव्हन आणि कॉफी मशिनचे प्रदर्शन केले जे इकोला जोडतात. बॉशला भविष्यात त्यांची उपकरणे Google आणि Apple व्हॉइस प्लॅटफॉर्मशी सुसंगत असावीत अशीही इच्छा आहे.

7. बॉश वॉशिंग मशीन जे Amazon Echo ला जोडते

Fujitsu, Sony आणि Panasonic सारख्या कंपन्या त्यांचे स्वतःचे AI-आधारित व्हॉइस असिस्टंट सोल्यूशन्स विकसित करत आहेत. शार्प हे तंत्रज्ञान ओव्हन आणि बाजारात दाखल होणाऱ्या छोट्या रोबोटमध्ये जोडत आहे. Nippon Telegraph & Telephone एक आवाज-नियंत्रित कृत्रिम बुद्धिमत्ता प्रणाली अनुकूल करण्यासाठी हार्डवेअर आणि खेळणी निर्मात्यांना कामावर घेत आहे.

जुनी संकल्पना. शेवटी तिची वेळ आली आहे का?

खरं तर, व्हॉइस यूजर इंटरफेस (VUI) ही संकल्पना अनेक दशकांपासून आहे. स्टार ट्रेक किंवा 2001: ए स्पेस ओडिसी अनेक वर्षांपूर्वी पाहिलेल्या कोणीही कदाचित 2000 च्या आसपास आपण सर्व संगणक आपल्या आवाजाने नियंत्रित करू अशी अपेक्षा केली असावी. तसेच, या प्रकारच्या इंटरफेसची क्षमता केवळ विज्ञान कथा लेखकांनी पाहिली नाही. 1986 मध्ये, निल्सन संशोधकांनी आयटी व्यावसायिकांना विचारले की त्यांना 2000 पर्यंत वापरकर्ता इंटरफेसमधील सर्वात मोठा बदल काय वाटेल. त्यांनी बहुतेकदा व्हॉईस इंटरफेसच्या विकासाकडे लक्ष वेधले.

अशा समाधानाची आशा ठेवण्याची कारणे आहेत. शाब्दिक संप्रेषण हा लोकांसाठी जाणीवपूर्वक विचारांची देवाणघेवाण करण्याचा सर्वात नैसर्गिक मार्ग आहे, त्यामुळे मानवी-मशीन परस्परसंवादासाठी त्याचा वापर करणे हा आतापर्यंतचा सर्वोत्तम उपाय आहे.

पहिल्या VUI पैकी एक, म्हणतात शूबॉक्स, IBM द्वारे 60 च्या दशकाच्या सुरुवातीला तयार केले गेले. हे आजच्या आवाज ओळख प्रणालीचे अग्रदूत होते. तथापि, व्हीयूआय उपकरणांचा विकास संगणकीय शक्तीच्या मर्यादेद्वारे मर्यादित होता. रिअल टाइममध्ये मानवी भाषणाचे विश्लेषण आणि अर्थ लावण्यासाठी खूप प्रयत्न करावे लागतील, आणि ज्या ठिकाणी ते प्रत्यक्षात शक्य झाले तेथे पोहोचण्यासाठी पन्नास वर्षांहून अधिक वर्षे लागली.

व्हॉईस इंटरफेस असलेली उपकरणे 90 च्या दशकाच्या मध्यात मोठ्या प्रमाणात उत्पादनात दिसू लागली, परंतु लोकप्रियता प्राप्त झाली नाही. व्हॉईस कंट्रोल (डायलिंग) असलेला पहिला टेलिफोन होता फिलिप्स स्पार्क1996 मध्ये प्रसिद्ध झाले. तथापि, हे नाविन्यपूर्ण आणि वापरण्यास सोपे उपकरण तांत्रिक मर्यादांपासून मुक्त नव्हते.

व्हॉईस इंटरफेससह सुसज्ज इतर फोन (आरआयएम, सॅमसंग किंवा मोटोरोला सारख्या कंपन्यांनी तयार केलेले) नियमितपणे बाजारात येतात, जे वापरकर्त्यांना व्हॉइसद्वारे डायल करण्यास किंवा मजकूर संदेश पाठविण्याची परवानगी देतात. तथापि, त्या सर्वांसाठी, विशिष्ट आज्ञा लक्षात ठेवणे आणि त्या त्या काळातील उपकरणांच्या क्षमतेनुसार, सक्तीने, कृत्रिम स्वरूपात उच्चारणे आवश्यक होते. यामुळे मोठ्या प्रमाणात त्रुटी निर्माण झाल्या, ज्यामुळे वापरकर्त्यांचा असंतोष निर्माण झाला.

तथापि, आम्ही आता संगणनाच्या एका नवीन युगात प्रवेश करत आहोत, ज्यामध्ये मशीन लर्निंग आणि आर्टिफिशियल इंटेलिजन्समधील प्रगती तंत्रज्ञानाशी संवाद साधण्याचा एक नवीन मार्ग म्हणून संभाषणाची क्षमता अनलॉक करत आहे (8). व्हॉइस परस्परसंवादाला समर्थन देणार्‍या उपकरणांची संख्या हा एक महत्त्वाचा घटक बनला आहे ज्याचा VUI च्या विकासावर मोठा प्रभाव पडला आहे. आज, जगातील जवळपास 1/3 लोकसंख्येकडे आधीपासूनच स्मार्टफोन आहेत जे या प्रकारच्या वर्तनासाठी वापरले जाऊ शकतात. असे दिसते की बहुतेक वापरकर्ते शेवटी त्यांचे व्हॉइस इंटरफेस अनुकूल करण्यास तयार आहेत.

8. व्हॉईस इंटरफेसच्या विकासाचा आधुनिक इतिहास

तथापि, ए स्पेस ओडिसीच्या नायकांप्रमाणे आपण संगणकावर मोकळेपणाने बोलू शकण्यापूर्वी, आपण अनेक समस्यांवर मात केली पाहिजे. भाषिक बारकावे हाताळण्यासाठी यंत्रे अजूनही फारशी चांगली नाहीत. याशिवाय शोध इंजिनला व्हॉईस कमांड देताना अनेक लोकांना अजूनही अस्वस्थ वाटते.

आकडेवारी दर्शवते की व्हॉइस सहाय्यक प्रामुख्याने घरी किंवा जवळच्या मित्रांमध्ये वापरले जातात. मुलाखत घेतलेल्यापैकी कोणीही सार्वजनिक ठिकाणी व्हॉईस शोध वापरल्याचे मान्य केले नाही. मात्र, या तंत्रज्ञानाच्या प्रसाराने ही नाकेबंदी नाहीशी होण्याची शक्यता आहे.

तांत्रिकदृष्ट्या कठीण प्रश्न

सिस्टम (ASR) ला भेडसावणारी समस्या म्हणजे स्पीच सिग्नलमधून उपयुक्त डेटा काढणे आणि एखाद्या व्यक्तीसाठी विशिष्ट अर्थ असलेल्या विशिष्ट शब्दाशी जोडणे. प्रत्येक वेळी निर्माण होणारे आवाज वेगळे असतात.

भाषण सिग्नल परिवर्तनशीलता त्याची नैसर्गिक मालमत्ता आहे, ज्यामुळे आपण, उदाहरणार्थ, उच्चारण किंवा स्वर ओळखतो. स्पीच रेकग्निशन सिस्टमच्या प्रत्येक घटकाचे एक विशिष्ट कार्य असते. प्रक्रिया केलेले सिग्नल आणि त्याच्या पॅरामीटर्सवर आधारित, एक ध्वनिक मॉडेल तयार केले जाते, जे भाषा मॉडेलशी संबंधित आहे. ओळख प्रणाली लहान किंवा मोठ्या संख्येच्या नमुन्यांच्या आधारावर कार्य करू शकते, जी ती कार्य करते त्या शब्दसंग्रहाचा आकार निर्धारित करते. ते असू शकतात लहान शब्दकोश वैयक्तिक शब्द किंवा आज्ञा ओळखणाऱ्या प्रणालींच्या बाबतीत, तसेच मोठे डेटाबेस भाषा संचाच्या समतुल्य असलेले आणि भाषा मॉडेल (व्याकरण) लक्षात घेऊन.

प्रथम स्थानावर व्हॉइस इंटरफेसच्या समस्या भाषण योग्यरित्या समजून घ्या, ज्यामध्ये, उदाहरणार्थ, संपूर्ण व्याकरणात्मक क्रम अनेकदा वगळले जातात, भाषिक आणि ध्वन्यात्मक चुका, चुका, वगळणे, उच्चार दोष, समरूप, अयोग्य पुनरावृत्ती इ. या सर्व ACP प्रणालींनी जलद आणि विश्वासार्हपणे कार्य केले पाहिजे. किमान त्या अपेक्षा आहेत.

अडचणींचा स्त्रोत देखील ओळखल्या जाणार्‍या भाषणाव्यतिरिक्त ध्वनिक सिग्नल आहेत जे ओळख प्रणालीच्या इनपुटमध्ये प्रवेश करतात, म्हणजे. सर्व प्रकार हस्तक्षेप आणि आवाज. सर्वात सोप्या बाबतीत, आपल्याला त्यांची आवश्यकता आहे फिल्टर करा. हे कार्य नियमित आणि सोपे दिसते - सर्व केल्यानंतर, विविध सिग्नल फिल्टर केले जातात आणि प्रत्येक इलेक्ट्रॉनिक्स अभियंत्याला अशा परिस्थितीत काय करावे हे माहित असते. तथापि, जर उच्चार ओळखण्याचा परिणाम आपल्या अपेक्षा पूर्ण करत असेल तर हे अत्यंत काळजीपूर्वक आणि काळजीपूर्वक केले पाहिजे.

सध्या वापरलेले फिल्टरिंग स्पीच सिग्नलसह, मायक्रोफोनद्वारे उचललेला बाह्य आवाज आणि स्पीच सिग्नलचे अंतर्गत गुणधर्म काढून टाकणे शक्य करते, ज्यामुळे ते ओळखणे कठीण होते. तथापि, अधिक जटिल तांत्रिक समस्या उद्भवते जेव्हा विश्लेषण केलेल्या स्पीच सिग्नलमध्ये हस्तक्षेप होतो ... दुसरा स्पीच सिग्नल, म्हणजे, उदाहरणार्थ, आजूबाजूला मोठ्याने चर्चा. हा प्रश्न साहित्यात तथाकथित म्हणून ओळखला जातो. यासाठी आधीच जटिल पद्धतींचा वापर आवश्यक आहे, तथाकथित. deconvolution (उकल ​​करणे) सिग्नल.

उच्चार ओळखण्याच्या समस्या तिथेच संपत नाहीत. हे लक्षात घेण्यासारखे आहे की भाषणात विविध प्रकारची माहिती असते. मानवी आवाज लिंग, वय, मालकाचे भिन्न वर्ण किंवा त्याची आरोग्य स्थिती सूचित करतो. स्पीच सिग्नलमध्ये आढळणाऱ्या वैशिष्ट्यपूर्ण ध्वनिक घटनांवर आधारित विविध रोगांचे निदान करण्यासाठी बायोमेडिकल इंजिनिअरिंगचा एक विस्तृत विभाग आहे.

असेही अॅप्लिकेशन्स आहेत जिथे स्पीच सिग्नलच्या ध्वनिक विश्लेषणाचा मुख्य उद्देश स्पीकरला ओळखणे किंवा तो कोण असल्याचा दावा करतो हे सत्यापित करणे (की, पासवर्ड किंवा PUK कोड ऐवजी आवाज). हे महत्त्वाचे असू शकते, विशेषतः स्मार्ट बिल्डिंग तंत्रज्ञानासाठी.

भाषण ओळख प्रणालीचा पहिला घटक आहे मायक्रोफोन. तथापि, मायक्रोफोनद्वारे उचलले जाणारे सिग्नल सहसा फारसे उपयोगाचे नसतात. अभ्यास दर्शविते की ध्वनी लहरीचा आकार आणि मार्ग व्यक्ती, भाषणाचा वेग आणि अंशतः संवादकाराच्या मूडवर अवलंबून असतो - परंतु थोड्या प्रमाणात ते बोललेल्या आदेशांची सामग्री प्रतिबिंबित करतात.

म्हणून, सिग्नल योग्यरित्या प्रक्रिया करणे आवश्यक आहे. आधुनिक ध्वनीशास्त्र, ध्वनीशास्त्र आणि संगणक विज्ञान एकत्रितपणे साधनांचा एक समृद्ध संच प्रदान करतात ज्याचा वापर भाषण सिग्नलवर प्रक्रिया करण्यासाठी, विश्लेषण करण्यासाठी, ओळखण्यासाठी आणि समजून घेण्यासाठी केला जाऊ शकतो. सिग्नलचे डायनॅमिक स्पेक्ट्रम, तथाकथित डायनॅमिक स्पेक्ट्रोग्राम. ते मिळवणे अगदी सोपे आहे आणि डायनॅमिक स्पेक्ट्रोग्रामच्या स्वरूपात सादर केलेले भाषण प्रतिमा ओळखण्यासाठी वापरल्या जाणार्‍या तंत्रांप्रमाणेच ओळखणे तुलनेने सोपे आहे.

भाषणाचे साधे घटक (उदाहरणार्थ, आज्ञा) संपूर्ण स्पेक्ट्रोग्रामच्या साध्या समानतेद्वारे ओळखले जाऊ शकतात. उदाहरणार्थ, व्हॉइस-सक्रिय मोबाइल फोन डिक्शनरीमध्ये फक्त काही दहा ते काही शंभर शब्द आणि वाक्ये असतात, सामान्यत: पूर्व-स्टॅक केलेले असतात जेणेकरून ते सहज आणि कार्यक्षमतेने ओळखले जाऊ शकतात. हे साध्या नियंत्रण कार्यांसाठी पुरेसे आहे, परंतु ते संपूर्ण अनुप्रयोगास कठोरपणे मर्यादित करते. योजनेनुसार तयार केलेली प्रणाली, नियमानुसार, केवळ विशिष्ट स्पीकर्सला समर्थन देतात ज्यासाठी आवाज विशेष प्रशिक्षित आहेत. म्हणून जर कोणी नवीन असेल ज्याला सिस्टम नियंत्रित करण्यासाठी त्यांचा आवाज वापरायचा असेल तर ते बहुधा स्वीकारले जाणार नाहीत.

या ऑपरेशनचा परिणाम म्हणतात 2-W स्पेक्ट्रोग्राम, म्हणजे, द्विमितीय स्पेक्ट्रम. या ब्लॉकमध्ये आणखी एक क्रियाकलाप आहे ज्याकडे लक्ष देणे योग्य आहे - विभाजन. साधारणपणे बोलायचे झाल्यास, आम्ही सतत स्पीच सिग्नलला स्वतंत्रपणे ओळखल्या जाऊ शकणार्‍या भागांमध्ये खंडित करण्याबद्दल बोलत आहोत. या वैयक्तिक निदानांवरूनच संपूर्ण ओळख निर्माण होते. ही प्रक्रिया आवश्यक आहे कारण एकाच वेळी लांब आणि जटिल भाषण ओळखणे शक्य नाही. स्पीच सिग्नलमध्ये कोणते सेगमेंट वेगळे करायचे याबद्दल संपूर्ण खंड आधीच लिहिले गेले आहेत, म्हणून आम्ही आता ठरवणार नाही की वेगळे विभाग फोनेम्स (ध्वनी समतुल्य), अक्षरे किंवा कदाचित अॅलोफोन्स असावेत.

स्वयंचलित ओळखीची प्रक्रिया नेहमी वस्तूंच्या काही वैशिष्ट्यांचा संदर्भ देते. स्पीच सिग्नलसाठी वेगवेगळ्या पॅरामीटर्सच्या शेकडो सेटची चाचणी घेण्यात आली आहे. स्पीच सिग्नलमध्ये आहे ओळखल्या जाणार्‍या फ्रेममध्ये विभागलेले आणि असणे निवडलेली वैशिष्ट्येज्याद्वारे या फ्रेम्स ओळखण्याच्या प्रक्रियेत सादर केल्या जातात, आम्ही (प्रत्येक फ्रेमसाठी स्वतंत्रपणे) कार्य करू शकतो. वर्गीकरण, म्हणजे फ्रेमला एक अभिज्ञापक नियुक्त करणे, जे भविष्यात त्याचे प्रतिनिधित्व करेल.

पुढील टप्पा फ्रेम्सचे स्वतंत्र शब्दांमध्ये एकत्रीकरण - बहुतेकदा तथाकथित वर आधारित. अंतर्निहित मार्कोव्ह मॉडेलचे मॉडेल (HMM-). मग शब्दांची मांडणी येते पूर्ण वाक्ये.

आम्ही आता एका क्षणासाठी अलेक्सा प्रणालीवर परत येऊ शकतो. त्याचे उदाहरण एखाद्या व्यक्तीची मशीन "समजून घेण्याची" बहु-स्टेज प्रक्रिया दर्शवते - अधिक अचूकपणे: त्याने दिलेली आज्ञा किंवा विचारलेला प्रश्न.

शब्द समजणे, अर्थ समजणे आणि वापरकर्त्याचा हेतू समजून घेणे या पूर्णपणे भिन्न गोष्टी आहेत.

म्हणून, पुढील चरण म्हणजे एनएलपी मॉड्यूल (), ज्याचे कार्य आहे वापरकर्ता हेतू ओळख, म्हणजे आदेश/प्रश्नाचा अर्थ ज्या संदर्भात तो उच्चारला गेला होता. जर हेतू ओळखला गेला तर तथाकथित कौशल्ये आणि क्षमतांची नियुक्ती, म्हणजे स्मार्ट असिस्टंटद्वारे समर्थित विशिष्ट वैशिष्ट्य. हवामानाबद्दलच्या प्रश्नाच्या बाबतीत, हवामान डेटा स्त्रोतांना कॉल केले जाते, जे भाषणात प्रक्रिया करणे बाकी आहे (TTS - यंत्रणा). परिणामी, वापरकर्त्याने विचारलेल्या प्रश्नाचे उत्तर ऐकले.

आवाज? ग्राफिक आर्ट्स? किंवा कदाचित दोन्ही?

सर्वाधिक ज्ञात आधुनिक परस्परसंवाद प्रणाली मध्यस्थावर आधारित आहेत ग्राफिकल यूजर इंटरफेस (ग्राफिकल इंटरफेस). दुर्दैवाने, डिजिटल उत्पादनाशी संवाद साधण्याचा GUI हा सर्वात स्पष्ट मार्ग नाही. यासाठी वापरकर्त्यांनी प्रथम इंटरफेस कसा वापरायचा हे शिकणे आवश्यक आहे आणि त्यानंतरच्या प्रत्येक संवादासह ही माहिती लक्षात ठेवा. बर्याच परिस्थितींमध्ये, आवाज अधिक सोयीस्कर आहे, कारण तुम्ही फक्त डिव्हाइसशी बोलून VUI शी संवाद साधू शकता. एक इंटरफेस जो वापरकर्त्यांना काही आज्ञा किंवा परस्परसंवाद पद्धती लक्षात ठेवण्यास आणि लक्षात ठेवण्यास भाग पाडत नाही त्यामुळे कमी समस्या उद्भवतात.

अर्थात, VUI च्या विस्ताराचा अर्थ अधिक पारंपारिक इंटरफेस सोडून देणे असा नाही - उलट, संकरित इंटरफेस उपलब्ध असतील जे परस्परसंवादाचे अनेक मार्ग एकत्र करतात.

व्हॉइस इंटरफेस मोबाईल संदर्भातील सर्व कार्यांसाठी योग्य नाही. त्यासह, आम्ही कार चालवणाऱ्या मित्राला कॉल करू आणि त्याला एसएमएस देखील पाठवू, परंतु नवीनतम हस्तांतरण तपासणे खूप कठीण असू शकते - सिस्टम () मध्ये प्रसारित केलेल्या आणि सिस्टम (सिस्टम) द्वारे व्युत्पन्न केलेल्या माहितीच्या प्रमाणामुळे. रॅचेल हिनमनने तिच्या मोबाईल फ्रंटियर या पुस्तकात सुचविल्याप्रमाणे, इनपुट आणि आउटपुट माहितीचे प्रमाण कमी असलेल्या कार्ये करताना VUI वापरणे सर्वात प्रभावी ठरते.

इंटरनेटशी कनेक्ट केलेला स्मार्टफोन सोयीस्कर पण गैरसोयीचा आहे (9). प्रत्येक वेळी जेव्हा वापरकर्त्याला एखादी वस्तू खरेदी करायची असेल किंवा नवीन सेवा वापरायची असेल तेव्हा त्यांना दुसरे अॅप डाउनलोड करावे लागेल आणि नवीन खाते तयार करावे लागेल. व्हॉईस इंटरफेसच्या वापरासाठी आणि विकासासाठी एक फील्ड येथे तयार केले गेले आहे. वापरकर्त्यांना अनेक भिन्न अॅप्स स्थापित करण्यास किंवा प्रत्येक सेवेसाठी स्वतंत्र खाती तयार करण्यास भाग पाडण्याऐवजी, तज्ञ म्हणतात की VUI या अवजड कामांचा भार AI-शक्तीच्या व्हॉइस असिस्टंटकडे वळवेल. त्याला कठोर क्रियाकलाप करणे सोयीचे होईल. आम्ही त्याला फक्त आदेश देऊ.

9. स्मार्ट फोनद्वारे व्हॉइस इंटरफेस

आज, फक्त एक फोन आणि संगणक इंटरनेटशी जोडलेले आहेत. स्मार्ट थर्मोस्टॅट्स, दिवे, केटल आणि इतर अनेक IoT-एकात्मिक उपकरणे देखील नेटवर्कशी जोडलेली आहेत (10). अशा प्रकारे, आपल्या आजूबाजूला अशी वायरलेस उपकरणे आहेत जी आपले जीवन भरून काढतात, परंतु ते सर्व ग्राफिकल यूजर इंटरफेसमध्ये नैसर्गिकरित्या बसत नाहीत. VUI वापरल्याने तुम्हाला ते आमच्या वातावरणात सहजपणे समाकलित करण्यात मदत होईल.

10. इंटरनेट ऑफ थिंग्जसह व्हॉइस इंटरफेस

व्हॉईस यूजर इंटरफेस तयार करणे हे लवकरच एक प्रमुख डिझायनर कौशल्य बनेल. ही एक खरी समस्या आहे - व्हॉईस सिस्टम लागू करण्याची गरज तुम्हाला प्रोएक्टिव्ह डिझाईनवर अधिक लक्ष केंद्रित करण्यास प्रोत्साहित करेल, म्हणजे, वापरकर्त्याचे प्रारंभिक हेतू समजून घेण्याचा प्रयत्न करणे, संभाषणाच्या प्रत्येक टप्प्यावर त्यांच्या गरजा आणि अपेक्षांची अपेक्षा करणे.

व्हॉईस हा डेटा प्रविष्ट करण्याचा एक कार्यक्षम मार्ग आहे—हे वापरकर्त्यांना त्यांच्या स्वतःच्या अटींवर सिस्टमला त्वरित आदेश जारी करण्यास अनुमती देते. दुसरीकडे, स्क्रीन माहिती प्रदर्शित करण्याचा एक कार्यक्षम मार्ग प्रदान करते: ते सिस्टमला एकाच वेळी मोठ्या प्रमाणात माहिती प्रदर्शित करण्यास अनुमती देते, वापरकर्त्यांच्या मेमरीवरील भार कमी करते. हे तर्कसंगत आहे की त्यांना एका प्रणालीमध्ये एकत्र करणे उत्साहवर्धक वाटते.

Amazon Echo आणि Google Home सारखे स्मार्ट स्पीकर्स व्हिज्युअल डिस्प्ले अजिबात देत नाहीत. मध्यम अंतरावर आवाज ओळखण्याच्या अचूकतेमध्ये लक्षणीय सुधारणा करून, ते हँड्स-फ्री ऑपरेशनला परवानगी देतात, ज्यामुळे त्यांची लवचिकता आणि कार्यक्षमता वाढते - ज्या वापरकर्त्यांकडे आधीपासूनच व्हॉइस कंट्रोलसह स्मार्टफोन आहेत त्यांच्यासाठी देखील ते इष्ट आहेत. तथापि, स्क्रीनची कमतरता ही एक मोठी मर्यादा आहे.

वापरकर्त्यांना संभाव्य आदेशांची माहिती देण्यासाठी फक्त बीपचा वापर केला जाऊ शकतो आणि सर्वात मूलभूत कार्ये वगळता आउटपुट मोठ्याने वाचणे कंटाळवाणे होते. स्वयंपाक करताना व्हॉइस कमांडसह टायमर सेट करणे चांगले आहे, परंतु किती वेळ शिल्लक आहे हे विचारणे आवश्यक नाही. नियमित हवामानाचा अंदाज मिळवणे ही वापरकर्त्यासाठी स्मरणशक्तीची चाचणी बनते, ज्यांना संपूर्ण आठवडाभरातील तथ्यांची मालिका एका दृष्टीक्षेपात स्क्रीनवरून उचलण्याऐवजी ऐकावी लागते आणि आत्मसात करावी लागते.

डिझाइनर आधीच आहेत संकरित समाधान, इको शो (11), ज्याने मूलभूत इको स्मार्ट स्पीकरमध्ये डिस्प्ले स्क्रीन जोडली. हे उपकरणाची कार्यक्षमता मोठ्या प्रमाणात वाढवते. तथापि, स्मार्टफोन आणि टॅब्लेटवर बर्याच काळापासून उपलब्ध असलेली मूलभूत कार्ये करण्यासाठी इको शो अद्याप खूपच कमी सक्षम आहे. ते (अद्याप) वेब सर्फ करू शकत नाही, पुनरावलोकने दाखवू शकत नाही किंवा Amazon शॉपिंग कार्टची सामग्री प्रदर्शित करू शकत नाही, उदाहरणार्थ.

व्हिज्युअल डिस्प्ले हा केवळ आवाजापेक्षा लोकांना माहितीचा खजिना प्रदान करण्याचा एक अधिक प्रभावी मार्ग आहे. व्हॉइस प्राधान्याने डिझाइन केल्याने व्हॉइस इंटरअॅक्शनमध्ये मोठ्या प्रमाणात सुधारणा होऊ शकते, परंतु दीर्घकाळात, परस्परसंवादासाठी व्हिज्युअल मेनूचा अनियंत्रितपणे वापर न करणे म्हणजे पाठीमागे एक हात बांधून लढण्यासारखे होईल. एंड-टू-एंड इंटेलिजेंट व्हॉइस आणि डिस्प्ले इंटरफेसच्या वाढत्या जटिलतेमुळे, विकासकांनी इंटरफेससाठी संकरित दृष्टिकोनाचा गांभीर्याने विचार केला पाहिजे.

भाषण निर्मिती आणि ओळख प्रणालीची कार्यक्षमता आणि गती वाढवण्यामुळे ते अशा अनुप्रयोगांमध्ये आणि क्षेत्रांमध्ये वापरणे शक्य झाले आहे, उदाहरणार्थ:

• सैन्य (विमान किंवा हेलिकॉप्टरमधील आवाज आदेश, उदाहरणार्थ, F16 VISTA),

• स्वयंचलित मजकूर प्रतिलेखन (भाषण ते मजकूर),

• परस्परसंवादी माहिती प्रणाली (प्राइम स्पीच, व्हॉइस पोर्टल्स),

• मोबाइल उपकरणे (फोन, स्मार्टफोन, टॅबलेट),

• रोबोटिक्स (Cleverbot - ASR प्रणाली कृत्रिम बुद्धिमत्तेसह एकत्रित),

• ऑटोमोटिव्ह (कार घटकांवर हँड्स-फ्री नियंत्रण, जसे की ब्लू आणि मी),

• होम अॅप्लिकेशन्स (स्मार्ट होम सिस्टम).

सुरक्षिततेसाठी पहा!

ऑटोमोटिव्ह, होम अप्लायन्सेस, हीटिंग/कूलिंग आणि होम सिक्युरिटी सिस्टीम आणि अनेक घरगुती उपकरणे व्हॉइस इंटरफेस वापरण्यास सुरुवात करत आहेत, बहुतेकदा AI-आधारित. या टप्प्यावर, मशीनसह लाखो संभाषणांमधून प्राप्त केलेला डेटा पाठविला जातो संगणकीय ढग. हे स्पष्ट आहे की विक्रेत्यांना त्यांच्यामध्ये रस आहे. आणि फक्त त्यांनाच नाही.

Symantec सुरक्षा तज्ञांच्या अलीकडील अहवालाने शिफारस केली आहे की व्हॉईस कमांड वापरकर्त्यांनी सुरक्षितता वैशिष्ट्ये जसे की दरवाजाचे कुलूप नियंत्रित करू नये, घरातील सुरक्षा प्रणाली सोडा. पासवर्ड किंवा गोपनीय माहिती साठवण्याबाबतही हेच आहे. कृत्रिम बुद्धिमत्ता आणि स्मार्ट उत्पादनांच्या सुरक्षिततेचा अद्याप पुरेसा अभ्यास झालेला नाही.

जेव्हा संपूर्ण घरातील उपकरणे प्रत्येक शब्द ऐकतात, तेव्हा सिस्टम हॅक होण्याचा धोका आणि गैरवापर ही एक मोठी चिंता बनते. एखाद्या आक्रमणकर्त्याने स्थानिक नेटवर्क किंवा त्याच्याशी संबंधित ईमेल पत्त्यांवर प्रवेश मिळवल्यास, स्मार्ट डिव्हाइस सेटिंग्ज बदलल्या जाऊ शकतात किंवा फॅक्टरी सेटिंग्जवर रीसेट केल्या जाऊ शकतात, ज्यामुळे मौल्यवान माहिती गमावली जाईल आणि वापरकर्ता इतिहास हटवला जाईल.

दुसऱ्या शब्दांत, सुरक्षा व्यावसायिकांना भीती वाटते की व्हॉइस-चालित AI आणि VUI अद्याप आम्हाला संभाव्य धोक्यांपासून वाचवण्यासाठी पुरेसे स्मार्ट नाहीत आणि जेव्हा एखादी अनोळखी व्यक्ती काहीतरी विचारते तेव्हा आमचे तोंड बंद ठेवते.

एक टिप्पणी जोडा