कंप्यूटरसूचना प्रौद्योगिकी

आधुनिक कंप्यूटर दृष्टि। कार्य और कंप्यूटर दूरदर्शिता प्रौद्योगिकी। अजगर में प्रोग्रामिंग कंप्यूटर विजन

कैसे एक कंप्यूटर सिखाने के लिए समझने के लिए चित्र या चित्रों में दिखाया गया है? यह सरल लगता है, लेकिन एक कंप्यूटर के लिए यह सिर्फ एक शून्य और जिसमें से आप महत्वपूर्ण जानकारी निकालना चाहते हैं से मिलकर मैट्रिक्स है।

कंप्यूटर दृष्टि क्या है? यह आपके कंप्यूटर "देख" की क्षमता है

विजन - इसे प्रयोग व्यक्ति के लिए जानकारी का एक महत्वपूर्ण स्रोत है, हम प्राप्त, विभिन्न अनुमानों के अनुसार, 70 से सभी जानकारी का 90% तक। और, बेशक, हम एक स्मार्ट कार बनाना चाहते हैं, हम एक ही कौशल और कंप्यूटर को लागू करने की जरूरत है।

कंप्यूटर दृष्टि की समस्या काफी स्पष्ट रूप से कहा जा सकता है। "देख" क्या है? समझा जाता है कि जहां देखकर सिर्फ कर रहे हैं। यही कारण है कि कंप्यूटर दृष्टि और मानव दृष्टि के मतभेद संपन्न हुआ। हमारे लिए विजन - यह दुनिया के बारे में ज्ञान का एक स्रोत है, साथ ही मीट्रिक जानकारी का एक स्रोत है - जो है, क्षमता दूरी और आकार को समझने के लिए।

सिमेंटिक गिरी छवि

चित्र को देखते हुए, हम इसे विशेषताओं का एक संख्या से वर्णन कर सकते हैं, तो बात करने के लिए, अर्थ जानकारी निकालने के लिए।

उदाहरण के लिए, इस तस्वीर को देखकर, हम कह सकते हैं कि यह सड़क पर है। शहर के यातायात क्या है। यही कारण है कि वहाँ कारें हैं। हम अनुमान लगा सकते हैं कि इस इमारत और चित्रलेख के विन्यास पर दक्षिण पूर्व एशिया है। माओ ज़ीडोंग के चित्र समझते हैं कि इस बीजिंग है, और अगर किसी को भी लाइव वीडियो देखा था या खुद वहाँ गया था, लगता है कि यह प्रसिद्ध त्यानआनमेन चौक है।

क्या हम चित्र के बारे में अधिक कह सकते हैं, यह देख रहे हैं? हम छवि में वस्तुओं की पहचान कर सकते हैं, कहने के लिए, वहाँ के लोगों यहाँ हैं कि करीब - बाड़। यहाँ छतरियों, कि भवन की पोस्टर। ये हैं वर्गों के उदाहरण बहुत महत्वपूर्ण वस्तुओं, जो इस समय के लिए खोज में लगे हुए हैं है।

फिर भी हम सुविधाओं या वस्तुओं की विशेषताओं में से कुछ सीख सकते हैं। उदाहरण के लिए, यहाँ हम तय कर सकते हैं कि यह एक साधारण चीनी, अर्थात्, माओ ज़ीडोंग का एक चित्र नहीं है।

वाहन के अनुसार निर्धारित किया जा सकता है कि यह एक चलती वस्तु है, और यह है कि आंदोलन के दौरान विकृत नहीं है कठिन है,। बारे में झंडे कहा जा सकता है कि यह वस्तुओं, वे भी आगे बढ़ रहे हैं, लेकिन वे कठिन लगातार विकृत नहीं कर रहे हैं। और दृश्य में वहाँ हवा है, जो झंडे के विकास के द्वारा निर्धारित किया जा सकता है, और यहां तक कि हवा की दिशा, उदाहरण के लिए, यह बाएं से दाएं बह रही है निर्धारित कर सकते हैं।

दूरी और कंप्यूटर दृष्टि में लंबाई

बहुत महत्वपूर्ण कंप्यूटर दृष्टि विज्ञान के बारे में मीट्रिक जानकारी है। इस दूरी के सभी प्रकार है। उदाहरण के लिए, रोवर के लिए विशेष रूप से महत्वपूर्ण है क्योंकि टीमों पृथ्वी से लगभग 20 मिनट कर रहे हैं और के रूप में ज्यादा का जवाब है। तदनुसार, और वापस लिंक - 40 मिनट। और यदि हम पृथ्वी के आंदोलन आदेशों के लिए एक योजना बनाने के लिए, आप इसे ध्यान में की जरूरत है।

सफलतापूर्वक वीडियो गेम में कंप्यूटर दृष्टि की तकनीक एकीकृत। वीडियो के अनुसार, आप वस्तुओं, लोगों के तीन आयामी मॉडल का निर्माण कर सकते हैं, और उपयोगकर्ता पर फ़ोटो शहरों की तीन आयामी मॉडल बहाल कर सकते हैं। और फिर उन पर चलते हैं।

कंप्यूटर दृष्टि - एक नहीं बल्कि विस्तृत श्रृंखला। यह बारीकी से विभिन्न अन्य विज्ञानों पर निर्भर होती हैं। कंप्यूटर दृष्टि का हिस्सा यह छवि प्रसंस्करण क्षेत्र को दर्शाता है और कभी कभी कंप्यूटर दृष्टि आबंटित करता है, ऐतिहासिक दृष्टि से।

विश्लेषण, पैटर्न मान्यता - श्रेष्ठ बुद्धि के निर्माण के लिए पथ

हमें अलग से इन अवधारणाओं की जांच करें।

इमेज प्रोसेसिंग - छवि, और हम उसे कुछ करना है - इस एल्गोरिदम के एक क्षेत्र है, जिसमें इनपुट और आउटपुट है।

छवि विश्लेषण - कंप्यूटर दृष्टि है, जो द्वि-आयामी चित्रों के साथ काम करते हैं और इस से निष्कर्ष पर केंद्रित है की क्षेत्र है।

पैटर्न पहचान - एक सार गणितीय अनुशासन है कि वैक्टर के रूप में डेटा को पहचानता है। यही कारण है कि कम से प्रवेश द्वार है, है - वेक्टर और हम इसे साथ क्या के लिए कुछ है। कहाँ वेक्टर है, हम जानते हैं के लिए इतना महत्वपूर्ण नहीं हैं।

कंप्यूटर दृष्टि - यह मूल रूप से दो आयामी छवियों की संरचना बहाल करने के लिए किया गया था। आज इस क्षेत्र व्यापक हो गया है और यह छवि के आधार पर, शारीरिक बनाने वस्तुओं की सभी की स्वीकृति के रूप में व्याख्या की जा सकती है। जो है, यह काम नहीं है कृत्रिम बुद्धि के।

एक पूरी तरह से अलग क्षेत्र में कंप्यूटर दृष्टि के साथ समानांतर में, भूगणित में, Photogrammetry विकसित किया गया है - दो आयामी चित्र पर ऑब्जेक्ट के बीच दूरी की माप।

रोबोट "देख" सकता

और अंत में - इस मशीन दृष्टि है। मशीन दृष्टि के तहत रोबोट का एक सपना होता है। यही कारण है कि कुछ उत्पादन की समस्याओं के निर्णय है। हम कह सकते हैं कि कंप्यूटर दृष्टि - एक बड़ा विज्ञान है। यह अन्य विज्ञान भाग में से कुछ को जोड़ती है। और जब कंप्यूटर दृष्टि किसी विशेष आवेदन हो जाता है, यह एक मशीन दृष्टि में बदल जाता है।

कंप्यूटर दृष्टि क्षेत्र व्यावहारिक अनुप्रयोगों की एक बड़े पैमाने पर है। यह उत्पादन के स्वचालन के साथ जुड़ा हुआ है। उद्यमों पर अधिक मशीन द्वारा शारीरिक श्रम को बदलने के लिए कुशल हो जाते हैं। मशीन थक नहीं मिलता है, सो नहीं, वह अनियमित काम अनुसूची था, वह एक साल में 365 दिन काम करने को तैयार है। तो, मशीन काम का उपयोग कर, हम एक गारंटीकृत परिणाम एक निश्चित समय पर प्राप्त कर सकते हैं, और यह काफी रोचक है। सभी कार्य कंप्यूटर दृष्टि प्रणाली के लिए एक स्पष्ट उपयोग कर सकते है। और वहाँ बेहतर ही गणना चरण में चित्र पर तुरंत परिणाम देखने के लिए की तुलना में कुछ भी नहीं है।

कृत्रिम बुद्धि की दुनिया की दहलीज पर

प्लस क्षेत्र - यह मुश्किल है! मस्तिष्क दृष्टि के लिए जिम्मेदार का एक महत्वपूर्ण हिस्सा है, और यह माना जाता है कि अगर आप को पढ़ाने के लिए "देख" आपके कंप्यूटर, कि है, पूरा उपयोग कंप्यूटर दृष्टि, यह पूर्ण कृत्रिम बुद्धि के उद्देश्यों में से एक है। हम मानव स्तर पर समस्या का समाधान कर सकते हैं, एक ही समय में सबसे अधिक संभावना है, हम ऐ की समस्या का समाधान होगा। यही कारण है कि बहुत अच्छा है! या बहुत अच्छा नहीं है, अगर आप देखो, "टर्मिनेटर 2"।

क्यों दृष्टि है - यह मुश्किल है? क्योंकि एक ही वस्तु की छवि को भिन्न हो सकते हैं बहुत बाह्य कारकों पर निर्भर करता है। अवलोकन अंक की वस्तु के आधार पर अलग-अलग दिखाई।

उदाहरण के लिए, एक और एक ही आंकड़ा के लिए, विभिन्न कोणों से लिया। और क्या एक आंख, दो आँखें और एक आधा हो सकता है कि चित्र में सबसे दिलचस्प है। और संदर्भ के आधार पर (यदि चित्रित आंखों के साथ एक कमीज़ में आदमी की इस छवि), नेत्र दो से अधिक हो सकता है।

कंप्यूटर अभी भी नहीं समझती, लेकिन यह "देखता है"

एक और पहलू है कि यह कठिन बना देता है - यह प्रकाश है। अलग प्रकाश व्यवस्था के साथ एक ही दृश्य अलग दिखेगा। वस्तु आकार भिन्न हो सकते हैं। इसके अलावा, किसी भी वर्ग की वस्तुओं। कैसे कर सकते हैं 2 मीटर की है कि उसकी ऊंचाई एक आदमी के बारे में कहा? कुछ भी नहीं। मानव विकास और 2.3 मीटर है, और 80 सेमी हो सकता है। वस्तुओं के अन्य प्रकार के साथ के रूप में, हालांकि, एक ही कक्षा की वस्तुओं रहे हैं।

विशेष रूप से रहने वाले वस्तुओं उपभेदों की एक किस्म से गुजरते हैं। बाल लोगों को, एथलीटों, जानवरों। चल घोड़ों की चित्रों को देखो, यह निर्धारित है कि उनके अयाल के साथ क्या हो रहा है और पूंछ बस असंभव है। एक छवि में एक अतिव्यापी वस्तुओं? यदि आप एक कंप्यूटर छवि, यहां तक कि सबसे शक्तिशाली मशीन भगाओ अगर सही फैसला देने के लिए कठिनाई पाते हैं।

अगला दृश्य - यह एक भेस है। कुछ वस्तुओं, जानवरों वातावरण के रूप में मुखौटा धारण कर लिया है, और काफी कुशलता। और एक ही धब्बे और रंग। फिर भी, हम उन्हें हालांकि हमेशा नहीं दूर से देखते हैं।

एक अन्य समस्या - आंदोलन। गति अकल्पनीय में वस्तुओं विरूपण गुज़रना पड़ता है।

वस्तुओं में से कई बहुत चर रहे हैं। यहाँ, उदाहरण के लिए, "कुर्सी" की वस्तुओं के नीचे दो तस्वीरों में।

और इस पर आप बैठ सकते हैं। लेकिन एक मशीन, ऐसी है कि आकार, रंग, सामग्री में अलग अलग बातें, सब कुछ एक वस्तु "कुर्सी" है सिखाने के लिए - बहुत मुश्किल है। यह चुनौती है। एकीकृत करने के लिए कंप्यूटर दृष्टि के तरीके - एक मशीन को पढ़ाने के लिए, समझने का विश्लेषण, सट्टा करने के लिए है।

विभिन्न प्लेटफार्मों में कंप्यूटर दृष्टि की एकता

कंप्यूटर दृष्टि की बड़े पैमाने पर 2001 में अधिक घुसना करने के लिए, जब उसने पहली चेहरा डिटेक्टर बनाया शुरू कर दिया। वियोला, जोन्स: हम यह दो लेखकों बनाया है। यह पहली बार तेजी से और विश्वसनीय पर्याप्त एल्गोरिथ्म, जो मशीन सीखने के तरीकों की शक्ति का प्रदर्शन किया था।

मानव चेहरे की मान्यता - अब कंप्यूटर दृष्टि पर्याप्त नई व्यावहारिक अनुप्रयोग हैं।

लेकिन फिल्मों में के रूप में आदमी की पहचान करने में - यादृच्छिक कोण, प्रकाश की भिन्न स्थितियों में - यह असंभव है। लेकिन समस्या यह है, या जो अलग प्रकाश व्यवस्था के साथ या एक अलग मुद्रा, पासपोर्ट में तस्वीर में रूप में इसी तरह के अलग अलग लोगों को है हल करने के लिए, यह विश्वास की एक उच्च डिग्री के साथ संभव है।

मोटे तौर पर चेहरा पहचानने एल्गोरिदम की सुविधा की वजह से एक पासपोर्ट फोटो आवश्यकताओं।

उदाहरण के लिए, यदि आप एक बायोमेट्रिक पासपोर्ट है, कुछ आधुनिक हवाई अड्डों में, आपको अपने आप पासपोर्ट नियंत्रण प्रणाली का उपयोग कर सकते हैं।

कंप्यूटर दृष्टि की अनसुलझी समस्या - किसी भी लेख को पहचानने की क्षमता

हो सकता है कि किसी ओसीआर प्रणाली का इस्तेमाल किया। इन में से एक - एक ललित रीडर, RuNet प्रणाली में बहुत लोकप्रिय है। वहाँ कई रूपों जहां डेटा में भरने, वे पूरी तरह से, पर जांच की जाती सूचना प्रणाली द्वारा मान्यता प्राप्त है बहुत अच्छी तरह से कर रहे हैं। लेकिन चित्र में किसी भी पाठ के साथ स्थिति बहुत खराब है। यह समस्या अभी भी अनसुलझी बनी हुई है।

कंप्यूटर दृष्टि से जुड़े खेल, मोशन कैप्चर

अलग बड़े क्षेत्र - तीन आयामी मॉडल और मोशन कैप्चर (जो काफी सफलतापूर्वक कंप्यूटर गेम में कार्यान्वित किया जाता) की रचना है। पहला कार्यक्रम है, जो कंप्यूटर दृष्टि का उपयोग करता है - कंप्यूटर जेस्चर का उपयोग करके के साथ बातचीत के लिए एक प्रणाली। जब यह बनाया गया था यह चीजों को खुला का एक बहुत था।

एल्गोरिथ्म काफी बस डिज़ाइन किया गया है, लेकिन कॉन्फ़िगर करने के लिए यह एक लाख तस्वीरें प्राप्त करने के लिए लोगों के सिंथेटिक छवियों का एक जनरेटर बनाने के लिए ले लिया। उन लोगों के साथ सुपर कंप्यूटर कलन विधि, जिसके लिए वह अब अच्छी तरह से काम करता है के मापदंडों का चयन करें।

यही कारण है कि एक लाख छवियों और सप्ताह गणनीय सुपर कंप्यूटर संभव समय एक एल्गोरिथ्म है कि एक प्रोसेसर की क्षमता का 12% की खपत और एक व्यक्ति को वास्तविक समय में स्थिति को समझने के लिए अनुमति देता है बनाने के लिए है। यह माइक्रोसॉफ्ट Kinect प्रणाली (2010)।

सामग्री द्वारा चित्रों की खोज आप इस प्रणाली में तस्वीरें अपलोड करने की अनुमति देता है, और यह के परिणाम एक ही सामग्री के साथ सभी चित्रों को देने के लिए और उसी कोण से बना होगा।

कंप्यूटर दृष्टि के उदाहरण: तीन आयामी और दो आयामी नक्शे अब इसके साथ किए जा रहे हैं। नेविगेशन कारों के लिए नक्शे नियमित रूप से डीवीआर के अनुसार अपडेट किया जाता है।

वहाँ जियोटैग किए गए फ़ोटो के अरबों के साथ एक डेटाबेस है। डेटाबेस में चित्र डाउनलोड करके, आप तय कर सकते हैं जहां यह बनाया गया था, और भी कुछ परिप्रेक्ष्य के साथ। बेशक, बशर्ते कि जगह पर्याप्त है कि लोकप्रिय एक समय में पर्यटकों और बनाया क्षेत्र की तस्वीरों की एक संख्या में किया गया है।

रोबोट हर जगह हैं

किसी भी तरह से वर्तमान समय, हर जगह पर रोबोटिक, इसके बिना। अब वाहनों है कि विशेष कैमरों कि पैदल चलने वालों और सड़क के संकेत पहचान ड्राइवर (यह एक तरह से देखने के लिए एक कंप्यूटर प्रोग्राम में, मोटर यात्री मदद करता है) के लिए आदेश प्रसारित कर रहे हैं। और वहाँ एक पूरी तरह से स्वचालित रोबोट वाहनों है, लेकिन वे अतिरिक्त जानकारी की एक बड़ी राशि के उपयोग के बिना वीडियो कैमरा प्रणाली पर भरोसा नहीं कर सकते।

आधुनिक कैमरा - यह एक एनालॉग काला कैमरा है

के डिजिटल छवि के बारे में बात करते हैं। आधुनिक डिजिटल कैमरों काला कैमरा के सिद्धांत पर व्यवस्थित कर रहे हैं। छेद के माध्यम से जो प्रकाश किरण में प्रवेश करती है और इस विषय सर्किट के कक्ष के पीछे की दीवार पर प्रस्तावित का केवल इसके बजाय, हम एक विशेष ऑप्टिकल सिस्टम लेंस कहा जाता है। इसकी एक बड़ी वस्तु प्रकाश किरण को इकट्ठा करने और परिवर्तित ताकि सभी किरणों आदेश प्रक्षेपण प्राप्त करने और फिल्म या मैट्रिक्स पर एक चित्र का निर्माण करने के लिए एक आभासी बिंदु के माध्यम से पारित करने के लिए है।

आधुनिक डिजिटल कैमरों (मैट्रिक्स) अलग-अलग तत्वों से बना है - पिक्सेल। प्रत्येक पिक्सेल प्रकाश की ऊर्जा है, जो पिक्सेल कुल पर घटना है को मापने, और एक उत्पादन संख्या जारी कर सकते हैं। इसलिए, एक डिजिटल कैमरा में, हम छवि चमक सेट प्रकाश माप, एक एकल पिक्सेल में पकड़ा दर्ज करने के बजाय - कंप्यूटर दृश्य के क्षेत्र। इसलिए, जब छवि हम देखते हैं लाइनों और स्पष्ट आकृति, और विभिन्न रंगों में रंग का वर्गों का एक ग्रिड बहने नहीं है - पिक्सेल।

नीचे आप दुनिया में पहली डिजिटल छवि देखते हैं।

लेकिन इस तस्वीर में नहीं है? रंग। रंग क्या है?

रंग के मनोवैज्ञानिक धारणा

रंग - इस हम देखते है। एक के रंग और मानव और बिल्लियों के लिए एक ही बात अलग होगा। हम (मनुष्य) और पशु ऑप्टिकल सिस्टम के बाद से - दृष्टि अलग है। इसलिए, रंग - यह जब वस्तुओं और प्रकाश को देख होता है कि हमारी दृष्टि के मनोवैज्ञानिक गुणवत्ता है। और न वस्तु और प्रकाश की एक भौतिक संपत्ति। रंग - प्रकाश घटकों की बातचीत है, और हमारे दृश्य प्रणाली के दृश्य का परिणाम है।

लाइब्रेरी का उपयोग कर पायथन में प्रोग्रामिंग कंप्यूटर विजन

आप कंप्यूटर दृष्टि के अध्ययन में गंभीरता से संलग्न करने का फैसला किया है, तो तुरंत कठिनाइयों के एक नंबर के लिए तैयार करना चाहिए, इस विज्ञान के लिए सबसे आसान नहीं है और नुकसान की एक संख्या छुपाता है। लेकिन जनवरी इरिक सोलेमा की ग्रन्थकारिता "अजगर पर प्रोग्रामिंग कंप्यूटर विजन" - एक किताब है कि सभी सबसे सरल भाषा की रूपरेखा। यहाँ आप 3 डी में विभिन्न वस्तुओं की मान्यता के तरीकों के साथ परिचित हो जाएगा, स्टीरियो छवि, आभासी वास्तविकता और कंप्यूटर दृष्टि से कई अन्य अनुप्रयोगों के साथ काम करना सीखना। पुस्तक में अजगर में पर्याप्त उदाहरण हैं। लेकिन स्पष्टीकरण प्रस्तुत कर रहे हैं, इसलिए, बात करने के लिए सामान्यीकृत, इतनी के रूप में बहुत अधिक अनुसंधान और कठिन डेटा ओवरलोड नहीं। छात्रों, शौकीनों और उत्साही के लिए उपयुक्त कार्य करें। इस किताब को और दूसरों को कंप्यूटर दृष्टि (पीडीएफ प्रारूप) के बारे में डाउनलोड नेटवर्क में हो सकता है।

इस समय, कंप्यूटर दृष्टि एल्गोरिदम और छवि प्रसंस्करण और संख्यात्मक एल्गोरिदम OpenCV का खुला स्रोत पुस्तकालय है। यह सबसे आधुनिक प्रोग्रामिंग भाषाओं पर लागू किया जाता है, खुला स्रोत है। अगर हम कंप्यूटर दृष्टि के बारे में बात करते हैं, अजगर एक प्रोग्रामिंग भाषा के रूप में उपयोग करता है, यह भी पुस्तकालय का समर्थन हासिल है, इसके अलावा, यह लगातार विकास हो रहा है और एक महान समुदाय है।

कंपनी "माइक्रोसॉफ्ट" अपनी सेवाओं एपीआई-सक्षम तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए लोगों की छवियों के साथ यह काम करने के लिए प्रदान करता है। वहाँ भी कंप्यूटर दृष्टि लागू करने का अवसर है, अजगर एक प्रोग्रामिंग भाषा के रूप में उपयोग करता है।

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 hi.delachieve.com. Theme powered by WordPress.