Tensorflow Lite Posenet या Pose का अनुमान एक मुख्य मॉडल का उपयोग करने का कार्य है, जो शरीर या जोड़ों के मुख्य स्थानों का आकलन करके किसी चित्र या वीडियो से किसी व्यक्ति की मुद्रा का अनुमान लगाता है।
पोज आकलन कंप्यूटर विज़न तकनीकों को संदर्भित करता है जो छवियों और वीडियो में मानव आंकड़ों का पता लगाता है, ताकि कोई निर्धारित कर सके, उदाहरण के लिए, जहां किसी की कोहनी एक छवि में दिखाई देती है। इस तथ्य से अवगत होना महत्वपूर्ण है कि मुद्रा का अनुमान केवल अनुमान लगाता है कि शरीर के प्रमुख जोड़ कहां हैं और यह नहीं पहचानता है कि छवि या वीडियो में कौन है।
PoseNet मॉडल इनपुट के रूप में एक संसाधित कैमरा छवि लेता है और keypoint के बारे में जानकारी आउटपुट करता है। पहचाने गए कीपॉइंट्स को एक पार्ट आईडी द्वारा अनुक्रमित किया जाता है, जिसमें 0.0 और 1.0 के बीच एक आत्मविश्वास स्कोर होता है। विश्वास स्कोर उस स्थिति में एक कुंजी बिंदु मौजूद होने की संभावना को इंगित करता है।
प्रदर्शन बेंचमार्क
प्रदर्शन आपके डिवाइस और आउटपुट स्ट्राइड (हीटमैप्स और ऑफसेट वैक्टर) के आधार पर भिन्न होता है। PoseNet मॉडल छवि आकार अपरिवर्तनीय है, जिसका अर्थ है कि यह मूल छवि के समान पोज़ पोज़िशन्स की भविष्यवाणी कर सकता है, भले ही छवि नीचे की ओर हो। इसका मतलब है कि आप प्रदर्शन की कीमत पर उच्च सटीकता के लिए मॉडल को कॉन्फ़िगर करते हैं।
आउटपुट स्ट्राइड यह निर्धारित करता है कि इनपुट इमेज साइज के सापेक्ष आउटपुट कितना घटाया गया है। यह परतों के आकार और मॉडल आउटपुट को प्रभावित करता है।
जितना अधिक आउटपुट स्ट्राइड होगा, नेटवर्क और आउटपुट में लेयर्स का रिज़ॉल्यूशन उतना ही कम होगा, और इसके बाद उनकी सटीकता। इस कार्यान्वयन में, आउटपुट स्ट्राइड में 8, 16 या 32 के मान हो सकते हैं। दूसरे शब्दों में, 32 के आउटपुट स्ट्राइड में सबसे तेज प्रदर्शन, लेकिन सबसे कम सटीकता होगी, जबकि 8 में उच्चतम सटीकता लेकिन धीमी गति से प्रदर्शन होगा। अनुशंसित प्रारंभिक मूल्य 16 है।