GOOGLE का नया टेक्स्ट-टू-स्पीच AI इतना अच्छा है कि हम शर्त लगाते हैं कि आप इसे वास्तविक मानव से नहीं बता सकते

क्या आप एआई-जनरेटेड कंप्यूटर स्पीच और एक वास्तविक, जीवित इंसान के बीच अंतर बता सकते हैं? हो सकता है कि आपने हमेशा सोचा हो कि आप कर सकते हैं। हो सकता है कि आप एलेक्सा और सिरी के शौकीन हों, लेकिन विश्वास करें कि आप दोनों में से किसी को भी वास्तविक महिला के साथ भ्रमित नहीं करेंगे।

चीजें बहुत अधिक दिलचस्प होने वाली हैं। Google इंजीनियरों ने एक टेक्स्ट-टू-स्पीच सिस्टम बनाने में कड़ी मेहनत की है जिसे कहा जाता है टैकोट्रॉन 2 . एक के अनुसार कागज़ उन्होंने इस महीने प्रकाशित किया, सिस्टम पहले पाठ का एक स्पेक्ट्रोग्राम बनाता है, एक दृश्य प्रतिनिधित्व करता है कि भाषण कैसे ध्वनि करना चाहिए। उस छवि को Google के मौजूदा वेवनेट एल्गोरिथम के माध्यम से रखा गया है, जो छवि का उपयोग अत्यंत प्राकृतिक ध्वनि वाले मानव भाषण का उत्पादन करने के लिए करता है।

ग्रेस हेलबिग एक लेस्बियन है

इस पद्धति का उपयोग करते हुए, शोधकर्ता रिपोर्ट करते हैं, 'हमारा मॉडल पेशेवर रूप से रिकॉर्ड किए गए भाषण के लिए 4.58 के एमओएस की तुलना में 4.53 का औसत राय स्कोर (एमओएस) प्राप्त करता है।' (एक औसत राय स्कोर एक दूरसंचार शब्द है जो यह मापता है कि जीवन के लिए कितना सच है।)

जैसा कि Google के ऑडियो नमूने प्रदर्शित करते हैं, टैकोट्रॉन 2 संदर्भ से संज्ञा 'रेगिस्तान' और क्रिया 'रेगिस्तान' के साथ-साथ संज्ञा 'वर्तमान' और क्रिया 'वर्तमान' के बीच अंतर का पता लगा सकता है और तदनुसार इसका उच्चारण बदल सकता है। यह बड़े अक्षरों वाले शब्दों पर जोर दे सकता है और एक बयान देने के बजाय प्रश्न पूछते समय उचित विभक्ति लागू कर सकता है।

और यह ऐसा पाठ उत्पन्न कर सकता है जो मानव भाषण के समान लगता है कि अंतर जानना मुश्किल या असंभव है। यदि आप देखना चाहते हैं कि यह कितना कठिन है, तो Google पर जाएँ ऑडियो नमूने पृष्ठ , और 'टैकोट्रॉन 2 या ह्यूमन?' शीर्षक वाले नमूनों के अंतिम सेट तक स्क्रॉल करें। वहां आपको टैकोट्रॉन 2 और एक वास्तविक व्यक्ति मिलेगा, जो प्रत्येक वाक्य कहेगा, जैसे 'उस लड़की ने स्टार वार्स लिपस्टिक के बारे में एक वीडियो किया था।

SPOILER ALERT: अपने आप को परखने के लिए, नमूनों को सुनें और अनुमान लगाएं कि इस कॉलम के बाकी हिस्सों को पढ़ने से पहले कौन सा है।

तो कौन से नमूने टेक्स्ट-टू-स्पीच हैं और कौन से वास्तविक मानव आवाज हैं? Google के इंजीनियर नहीं कह रहे हैं, लेकिन उन्होंने एक बहुत बड़ा सुराग छोड़ा है। प्रत्येक .wav फ़ाइल नमूने में एक फ़ाइल नाम होता है जिसमें या तो शब्द 'gen' या 'gt' होता है। कागज के आधार पर, यह अत्यधिक संभावना है कि 'जीन' टैकोट्रॉन 2 द्वारा उत्पन्न भाषण को इंगित करता है, और 'जीटी' वास्तविक मानव भाषण है। ('जीटी' संभवतः 'जमीनी सच्चाई' के लिए है, एक मशीन लर्निंग शब्द जिसका मूल रूप से अर्थ 'असली सौदा' है।)

यह मानते हुए कि यह सही है, यहाँ परीक्षण के उत्तर दिए गए हैं: