Google VLOGGER: கூகுளின் அட்டகாசமான புதிய அம்சம்.. வ்ளாகர் மூலம் இனி உங்களுக்கென தனி அவதாரம்.. முழு விவரம்..
கூகுள் வ்ளாகர் (vlogger) என்ற புதிய அம்சம் நாம் தேர்ந்தெடுக்கும் புகைப்படத்தை செயற்கை நுண்ணறிவைப் பயன்படுத்தி ஒரு அவதாராக மாற்றியமைக்கும்.
கூகுள் நிறுவனம் மக்களுக்கு ஏற்றவாறு பல்வேறு புதிய அம்சங்களை அறிமுகம் செய்து வருகிறது. அந்த வகையில் தற்போது கூகுள் வ்ளாகர் (vlogger) என்ற புதிய அம்சத்தை அறிமுகப்படுத்தியுள்ளது. அதாவது இந்த வ்ளாகர், நாம் தேர்ந்தெடுக்கும் புகைப்படத்தை செயற்கை நுண்ணறிவு பயன்படுத்தி ஒரு அவதாராக மாற்றியமைக்கும். தற்போது வரை வ்ளாகர் பயன்பாட்டிற்கு கொண்டுவரப்படவில்லை என்றாலும், டெமோ மூலம் பயன்படுத்த முடியும்.
🚨 Breaking news:
— Madni Aghadi (@hey_madni) April 1, 2024
Google just dropped VLOGGER, and it's crazy.
This is going to transform the future of VIDEO forever
Here’s everything you need to stay ahead of the curve: 🧵 👇 pic.twitter.com/2VRc6EaKO8
அதாவது டெமோ பயன்பாட்டில் அவதார் உருவாக்கவும், குரலை பயன்படுத்தி அதைக் கட்டுப்படுத்தவும் முடியும். இந்த அவதார் மிகவும் தத்ரூபமாக இருக்கும் என தெரிவிக்கப்பட்டுள்ளது. தற்போது வ்ளாகர் என்பது டெமோ வீடியோக்கள் கொண்ட ஒரு ஆராய்ச்சித் திட்டமே தவிர வேறொன்றுமில்லை எனவும், பயன்பாட்டிற்கு கொண்டு வரப்பட்டால் குழுக்களுக்கு மத்தியில் தொடர்பு கொள்ள ஏதுவாக இருக்கும் எனவும் கூறப்படுகிறது.
இந்த செயற்கை நுண்ணறிவு மாடலானது, ஒரு புகைப்படத்திலிருந்து அனிமேஷன் செய்யப்பட்ட அவதாரத்தை உருவாக்கி, இறுதி வீடியோவின் ஒவ்வொரு ஃப்ரேமிலும் புகைப்படத்தில் இருக்கும் நபரின் தோற்றத்தை சற்றும் மாறாமல் வழங்கும். பின்னர் பேசும் நபரின் ஆடியோ க்ளிப்பையும் எடுத்துக்கொண்டு, அந்த நபர் ஏதேனும் பேசினால் அதனை அவதார் பிரதிபலிக்கும் வகையில் வடிவமைக்கப்பட்டுள்ளது. இதில் ஆடியோ க்ளிப்பை தவிர்த்து அவதார் தலை அசைவு, முகபாவனை, கண் பார்வை, கண் சிமிட்டுதல் கை அசைவுகள் மற்றும் மேல் உடல் அசைவு ஆகியவை தானாக இயங்கும் வகையில் உள்ளது.
VLOGGER is this cool new technology that can make photos come alive.
— Madni Aghadi (@hey_madni) April 1, 2024
It's wild - The AI animates your face, complete with natural gestures & expressions. pic.twitter.com/C7wYp3BkWY
ஒரு அவதார் உருவாக்க பல்வேறு கட்டங்கள் உள்ளது. முதலில் இது ஆடியோ மற்றும் புகைப்படத்தை உள்ளீடாக எடுத்து, அதை 3D மோஷன் ஜெனரேஷன் செயல்முறை மூலம் இயக்குகிறது. பின்னர் நேரம் மற்றும் இயக்கத்தை தீர்மானிக்க ஒரு "temporal diffusion" செயல்முறை மூலம் இயக்கி இறுதி முடிவு வெளியாகிறது.
ஒரு மாதிரியை உருவாக்க, MENTOR எனப்படும் ஒரு பெரிய மல்டிமீடியா தரவுத்தொகுப்பு தேவைப்படுவதாகவும், அதில் முகம் மற்றும் உடலின் ஒவ்வொரு பாகத்துடன் வெவ்வேறு நபர்கள் பேசும் 8,00,000 வீடியோக்கள் உள்ளதாகவும் தெரிவிக்கப்பட்டுள்ளது. ஆனால் சிறு வீடியோ பதிவுகளை மட்டுமே இது ஏற்றுக்கொள்ளும் என்றும் நீண்ட நேர வீடியோக்கள் பதிவேற்றம் செய்ய சில சிக்கல்கள் இருப்பதாகவும் தெரிவிக்கப்பட்டுள்ளது.