Thursday 14 December 2017

Jaccard समानता बाइनरी विकल्प


सांख्यिकी विज्ञान की विश्वकोश से मैं समझता हूं कि दिये गये द्विगोच्छी गुण (बाइनरी: 1 प्रस्तुति 0 बीसेंट) विशेषताओं (वेरिएबल्स), हम किसी भी दो ऑब्जेक्ट्स i और j के नमूने के लिए आकस्मिकता तालिका बना सकते हैं: हम इन मूल्यों से किसी भी जोड़ी के समानता गुणांक की गणना कर सकते हैं ऑब्जेक्ट्स की, विशेष रूप से जैककर गुणांक फ्रैक और रसेल एंड राव गुणांक फ्रैक फ्रैक। इन गुणांक की गणना करते समय अलग-अलग मूल्य मिलेगा, लेकिन मैं किसी भी संसाधनों का पता नहीं लगा सकता, जो समझाता है कि मुझे दूसरे को क्यों चुनना चाहिए। क्या यह सिर्फ इसलिए कि कुछ डेटासेट के लिए, दोनों विशेषताओं का एक साथ अनुपस्थिति (डी) 13 जून को 21:24 जून को पूछे जाने वाले किसी भी जानकारी को व्यक्त नहीं करता है। इसमें कई तरह के गुणांक मौजूद हैं (सबसे ज्यादा यहाँ व्यक्त किए गए हैं)। बस सूत्रों में अंतर के परिणाम क्या हैं पर ध्यान देने की कोशिश करें, खासकर जब आप गुणांक के मैट्रिक्स की गणना करते हैं कल्पना कीजिए, उदाहरण के लिए, वस्तुओं 1 और 2 समान, जैसा कि वस्तुओं 3 और 4 हैं लेकिन 1 और 2 की सूची में कई विशेषताएं हैं, जबकि 3 और 4 में केवल कुछ गुण हैं। इस मामले में, रसेल-राव (सह-विशेषताओं का अनुपात विचाराधीन होने वाले गुणों की संख्या) जोड़ी के लिए 1-2 और जोड़ी 3-4 के लिए कम होगा। लेकिन जैकार्ड (गुणों की संयुक्त संख्या में सह-विशेषताओं का अनुपात दोनों वस्तुओं की संभावना है कि यदि दोनों ऑब्जेक्ट में एक विशेषता है तो वे दोनों ही हैं) जोड़ी 1-2 और 3-4 दोनों के लिए उच्च होगी गुणों के आधार पर संतृप्ति के आधार स्तर के लिए यह समायोजन जैककार्ड रसेल-राव से बहुत लोकप्रिय और अधिक उपयोगी बनाता है। जैसे क्लस्टर विश्लेषण या बहुआयामी स्केलिंग में आप एक अर्थ में, कुलक्ज़िन्स्की -2 माप का चयन करके उपरोक्त समायोजन को और परिष्कृत कर सकते हैं, जो अंकगणित माध्य संभावना है यदि एक ऑब्जेक्ट का एक विशेषता है, तो अन्य ऑब्जेक्ट में भी यह है: (फ्रैक फ्रैक) 2 यहां बेस (या फ़ील्ड) ) दो ऑब्जेक्ट के लिए विशेषताओं को जमा नहीं किया गया है, जैकार्ड में, लेकिन दो वस्तुओं में से प्रत्येक के लिए स्वयं है नतीजतन, अगर वस्तुएं उन विशेषताओं की संख्या पर बहुत भिन्न होती हैं, और इसके सभी गुणों में सबसे अमीर व्यक्ति के साथ गरीब ऑब्जेक्ट शेयर होते हैं, कुलक्ज़िन्स्की ऊंचे हो जाते हैं जबकि जैकार्ड मध्यम होगा। या आप ज्यामितीय माध्य की संभावना की गणना करना पसंद कर सकते हैं यदि एक ऑब्जेक्ट का कोई विशेषता है, तो दूसरे ऑब्जेक्ट में यह भी है, जो ओचीआइ मापता है: sqrt frac क्योंकि उत्पाद की तुलना में कमजोर बढ़ जाती है जब केवल एक शब्द बढ़ता है, ओचीयाई वास्तव में उच्च होगी केवल तभी दो अनुपात (संभावनाएं) दोनों उच्च हैं, जिसका अर्थ है कि ओचीआई के समान ही माना जा सकता है, वस्तुओं को उनके गुणों के महान शेयरों को साझा करना होगा। संक्षेप में, ओचियाई समानता को रोकता है अगर बी और सी असमान हैं। Ochiai वास्तव में कोसाइन समानता माप (और रसेल-राव डॉट उत्पाद समानता है) है क्या यह सिर्फ इसलिए कि कुछ डेटासेट के लिए, दोनों विशेषताओं का एक साथ अनुपस्थिति (डी) किसी भी जानकारी को व्यक्त नहीं करता है समानता उपायों के बारे में बात करते हुए, एक द्विआधारी विशेषताओं (वर्तमान बनाम अनुपस्थित) के साथ नाममात्र द्विपातिक गुण (उदाहरण के लिए महिला, पुरुष) मिश्रण नहीं करना चाहिए। बाइनरी विशेषता (सामान्य रूप में) सममित नहीं है, - यदि आप और मैं एक विशेषता को साझा करते हैं, तो यह हमें समान रूप से फोन करने का आधार है यदि आप और मैं दोनों विशेषता को याद करते हैं, तो यह समानता का सबूत नहीं माना जा सकता है या हो सकता है अध्ययन के संदर्भ इसलिए घ के भिन्न उपचार संभव है। ध्यान दें कि यदि आप 1 नाममात्र विशेषताओं (डिकोटामस या पॉल्टोमोस) के आधार पर वस्तुओं के बीच समानता की गणना करना चाहते हैं, तो प्रत्येक ऐसे चर को डमी बाइनरी वैरिएबल के सेट में याद रखें। फिर गणना करने के लिए अनुशंसित समानता उपाय पासा होगा (जो। जब डमी वैरिएबल के 1 सेट के लिए गणना की जाती है, तो ओचीिया और कुलस्किनस्की -2 के बराबर है)। 17 जून को 9:45 उत्तर दिया, सोने की मानक के अनुसार विभाजन की तुलना करते हुए, पारंपरिक सटीकता (यानी रसेल-राव) पर तनिमोटो गुणांक की उपयोगिता चित्र विश्लेषण में स्पष्ट होती है इन दो छवियों पर विचार करें: इनमें से प्रत्येक चित्र में द्विआधारी मास्क हैं, हमारे पास दो आकार हैं, लेकिन थोड़ा अलग स्थान पर हैं, और हम इस बात का मूल्यांकन करना चाहते हैं कि इन ऑब्जेक्ट आकार और स्थिति में उनके ओवरलैप का आकलन कर रहे हैं। । आमतौर पर एक (उदाहरण के लिए बैंगनी मुखौटा) एक विभाजन है (एक कंप्यूटर एल्गोरिदम द्वारा निर्मित), उदा। यह एक चिकित्सा छवि से दिल का पता लगाने का एक प्रयास हो सकता है दूसरा, (जैसे हरा) सोने का मानक है (यानी, दिल जिसे एक विशेषज्ञ क्लिनिस्ट द्वारा पहचाना गया है)। जहां सफेद रंग होता है, दो आकार ओवरलैप होता है। ब्लैक पिक्सल पृष्ठभूमि हैं दो छवियाँ समान हैं (अर्थात् विभाजन एल्गोरिदम का परिणाम, साथ ही साथ सोने के मानक, दोनों छवियों में समान हैं), दूसरी छवि में बहुत सारे पृष्ठभूमि पैडिंग को छोड़कर (उदाहरण के लिए यह दो अलग-अलग प्रयोगों के साथ दो प्रयोगों का प्रतिनिधित्व कर सकता है एक्स-रे मशीन, जहां 2 मशीन में अधिक शरीर क्षेत्र को कवर करने वाला एक व्यापक किरण था, लेकिन अन्यथा छवि के दोनों प्रकार में दिल का आकार समान है)। स्पष्ट रूप से, चूंकि दोनों छवियों में विभाजन और स्वर्ण मानक समान हैं, अगर हम सोने के मानक के विरूद्ध विभाजन की सटीकता का मूल्यांकन करते हैं, तो हम अपने मीट्रिक को दोनों प्रयोगों में एक ही सटीकता परिणाम का उत्पादन करना चाहते हैं। हालांकि, अगर हम रसेल-राव दृष्टिकोण का उपयोग करके विभाजन की गुणवत्ता का आकलन करने का प्रयास करते हैं, तो हम सही छवि (करीब 100) के लिए एक भ्रामक उच्च सटीकता प्राप्त करेंगे, क्योंकि पृष्ठभूमि पिक्सेल सही ढंग से पहचानते हैं क्योंकि पृष्ठभूमि पिक्सेल का समग्र शुद्धता में योगदान होता है सेट, और पृष्ठभूमि पिक्सल अपरिवर्तित रूप से दूसरे सेट में दर्शाए जाते हैं। ऑब्जेक्ट जिनकी ओवरलैप हम चिकित्सा विभाजन में मूल्यांकन करना चाहते हैं, वे अक्सर बड़े भूरे रंग के छोटे टुकड़े होते हैं, इसलिए यह हमारे लिए बहुत उपयोगी नहीं है। इसके अलावा, यह समस्याएं पैदा करेगा यदि हम एक सेगमेंट एल्गोरिथम की सटीकता की तुलना दूसरे से करने की कोशिश कर रहे थे, और दोनों को विभिन्न आकार (या, बराबर, अलग-अलग तराजू पर) के चित्रों पर मूल्यांकन किया गया था। एम्बेडिंग छवि के स्केलिंग आकार को सोने-मानक के खिलाफ विभाजन के मूल्यांकन में कोई अंतर नहीं करना चाहिए। इसके विपरीत, तनिमोटो गुणांक को पृष्ठभूमि पिक्सल के बारे में परवाह नहीं है, जिससे इसे पैमाने पर अपरिवर्तनीय बनाया जा सकता है। तो जहां तक ​​tanimoto गुणांक का संबंध है, दोनों सेटों की समानता एक समान होगी, जिससे यह एक अधिक उपयोगी समानता मीट्रिक बनाकर हमें एक सेगमेंट एल्गोरिथम की गुणवत्ता का मूल्यांकन करने के लिए उपयोग करेगी। उत्तर 25 जुलाई 16 को 0: 14 जाकॉर्ड समानता जैककार्ड समानता (जैकार्ड 1 9 02, जैककार्ड 1 9 12) द्विआधारी चर के लिए एक सामान्य सूचकांक है। इसे दो वस्तुओं के बीच जोड़ों के तुलनात्मक चर के चौराहे और संघ के बीच भागफल के रूप में परिभाषित किया गया है। समीकरण डी जेएडी में वस्तुओं के बीच जैककार्ड दूरी I और जे। एन बाइनरी वैरिएबल के साथ दो डेटा रिकॉर्ड्स के लिए और 0 से एन -1 के चर इंडेक्स की श्रेणी Y i, k और y j के बीच चार भिन्न संयोजन, बाइनरी चर की तुलना करते हुए कश्मीर को अलग किया जा सकता है। ये संयोजन हैं (00), (01), (10) और (11)। इन संयोजनों के सूत्रों को समूहीकृत किया जा सकता है: प्रत्येक युग्मित वैरिएबल इनमें से किसी एक समूह के अंतर्गत आती है जिसे आसानी से देखा जा सकता है: जैसा कि जैककार्ड समानता संयुक्त उपस्थिति पर आधारित है, जे 00 को त्याग दिया जाता है। जैकार्ड असमानता डी जे डीएडी 1-डी जेएएस के रूप में परिभाषित की गई है। कुछ मामलों में जैककार्ड समानता को डी जेएस 2 डी बीसीडी (1 डी बीसीडी) के रूप में गणना किया जाता है। जहां डी बीसीडी ब्रेकक्रिस असमानता है। यह समीकरण द्विआधारी राज्यों के मूल्यों को कम नहीं करता है। इस प्रकार, एक हाथ पर एक उपस्थिति मैट्रिक्स का उपयोग करते समय और दूसरी ओर एक गिनती मैट्रिक्स का परिणाम अलग होता है। परिणाम समान होते हैं, जब गणना मैट्रिक्स पहले से एक बाइनरी मैट्रिक्स में कनवर्ट किया जाता है। जैकार्ड समानता या जैककार्ड समानता गुणांक को अक्सर जैककार्ड सूचकांक कहा जाता है किसी भी तरह, शब्द जैकार्ड इंडेक्स का प्रयोग कभी-कभी जैकार्ड असमानता के लिए किया जाता है, जबकि जैकार्ड असमानता को कभी-कभी जैकडक दूरी कहा जाता है। यह देखा जा सकता है कि शब्द जैककार्ड समानता और जैककार्ड असमानता ठीक से अलग नहीं हैं और कभी-कभी संयोगिक या उलझन में इस्तेमाल होने लगते हैं, हालांकि परिणाम विपरीत अर्थ का प्रतिनिधित्व करते हैं। इस प्रकार, किसी को विश्लेषण के इरादे का ध्यानपूर्वक निरीक्षण करना चाहिए। जैककार्ड समानता का उपयोग किया जा सकता है, जब दो या दो से अधिक वस्तुओं के बीच द्विआधारी अंतर में अंतर होता है। विशेष रूप से पारिस्थितिक अनुसंधान जांच में अक्सर कई साइटों के बीच मौजूद उपस्थिति पर ध्यान केंद्रित किया जाता है। जब प्रजातियों की तुलना करने के लिए प्रचुर मात्रा में बसने की तुलना में तुलनात्मक साइटों की तुलना में रुचि रखते हैं, तो अक्सर बहुमूल्य होते हैं। एल्गोरिदम नियंत्रण करता है कि क्या डेटा इनपुट मैट्रिक्स आयताकार है या नहीं। यदि नहीं, फ़ंक्शन गलत और एक परिभाषित, लेकिन रिक्त आउटपुट मैट्रिक्स देता है। जब मैट्रिक्स आयताकार होता है तो जैककार्ड समानता की गणना की जाएगी। इसलिए आउटपुट मैट्रिक्स के संबंधित arrays के आयाम सेट होते हैं, और पंक्तियों और स्तंभों के सेट के लिए शीर्षक। परिणामस्वरूप एक वर्ग मैट्रिक्स होता है, जो कि त्रिकोणीय भाग के लिए विकर्ण केवल मानों के साथ प्रतिबिंबित होता है और विकर्ण की गणना की जाती है। जब गलती के दौरान त्रुटि उत्पन्न होती है, फ़ंक्शन FALSE देता है। व्यावहारिक कारणों से एल्गोरिथ्म के कार्यान्वयन को सच बाइनरी डेटा की आवश्यकता नहीं है। यह अलग है कि क्या मान 0 या उसके पास एक निश्चित सीमा के भीतर है। इस मामले में इसे तर्कसंगत FALSE के रूप में व्याख्या किया जाएगा। जैसे अभाव। दिए गए दहलीज से बड़ा होने वाले मान को तर्कसंगत TRUE के रूप में व्याख्या किया गया है। जैसे उपस्थिति। इस प्रकार, कार्य करने के लिए एक गणना मैट्रिक्स को पारित करने के लिए आगे की तैयारी के बिना संभव है। चूंकि दिए गए थ्रेशोल्ड सभी मानों को समान रूप से प्रभावित करता है इसलिए यह अपनी मीट्रिक विशेषता को बदल नहीं सकता है। Jaccard असमानता की गणना करने के लिए Jaccard समानता मैट्रिक्स पहले गणना की है और उसके बाद तब्दील। एक डाटा मैट्रिक्स के लिए टाइपट 2 डीवैरिअट ऐरेड डबल के इनपुट मैट्रिक्स साथ आबादी: हम जानते हैं कि जेककार्ड (बाइनरी डेटा बीएफ के किसी भी दो कॉलम के बीच की गणना) फ्रैक है, जबकि रोजर्स-तनीमोटो फ्रैक है, जहां एक पंक्तियों की संख्या जहां दोनों स्तंभ हैं 1 बी - पंक्तियों की संख्या जहां यह और नहीं कॉलम 1 सी है - पंक्तियों की संख्या जहां दूसरे और यह कॉलम 1 डी नहीं है - पंक्तियों की संख्या जहां दोनों कॉलम 0 एबीसीडीएन हैं, बीएफ बीएफ एक्सएक्सए में पंक्तियों की संख्या सभी कॉलम के बीच के वर्ग सममित मैट्रिक्स है। बीएफ (एक्स नहीं) (नहीं एक्स) डी सभी स्तंभों के बीच घ के वर्ग सममित मैट्रिक्स है (एक्स एक्स में बदल रहा है 1-0 और एक्स में 0-1)। तो, frac सभी स्तंभों के बीच Jaccard के वर्ग सममित मैट्रिक्स है। फ्रैक फ्रैक, सभी स्तंभों के बीच रोजर्स-तनीमोटो के वर्ग सममित मैट्रिक्स है। मैंने संख्यात्मक जाँच की है अगर ये सूत्र सही परिणाम देते हैं। वे करते हैं। Upd। आप मैट्रिसस बीएफ बी और बीएफ सी: बीएफ बी 1 एक्स-ए भी प्राप्त कर सकते हैं, जहां 1 बीएक्स एक्स के आकार वाले लोगों का मैट्रिक्स दर्शाता है। बीएफ बी, सभी कॉलम के बीच के वर्ग एसिमेट्रिक मैट्रिक्स है, इसका एलिमेंट ij में पंक्तियों की संख्या है कॉलम में 0 और कॉलम j में 1 के साथ बीएफ एक्स। नतीजतन, बीएफ सीबी मैट्रिक्स बीएफ डी भी इस तरह से गणना की जा सकती है, बेशक: एन बीएफ-ए-बी-सी मैट्रिक्स बीएफ ए, बी, सी, डी को जानने के लिए, आप द्विआधारी डेटा के लिए आविष्कार किए गए किसी भी जोड़ीदार (डी) समानता गुणांक के मैट्रिक्स की गणना करने में सक्षम हैं। फ्रैक्शंस मैट्रिक्स के लिए कोई अर्थ नहीं बनाते हैं जब तक कि वे कम्यूट नहीं करते: किसी व्युत्क्रम से दाहिनी ओर गुणा करना अन्यथा बायी ओर गुणा करने से भिन्न परिणाम देगा। इसके अलावा, यह आमतौर पर ऐसा नहीं है कि दो सममित मैट्रिक्स का उत्पाद सममित है। क्या आप शायद इसका मतलब है कि घटक के आधार-घटक का विभाजन क्या आप अपनी प्रमेय को ठीक करने के लिए तय कर सकते हैं कि आप क्या चाहते हैं सही फार्मूला है ndash whuber 9830 Feb 7 13 at 7:19 whuber मैं उलटा उपयोग नहीं करता है और न ही वर्ग सममित मैट्रिक्स का गुणा। एक्स बाइनरी डेटा मैट्रिक्स है और X39X इसकी SSCP मैट्रिक्स है। एक्स नहीं है X जहां 1-gt0, 0-gt1। और यहां किसी भी विभाजन का विभाजन तत्व विभाजन है। यदि आप देखते हैं कि यह उचित नहीं है, तो कृपया मेरी संकेतन सही करें। ndash ttnphns 7 फरवरी 13 बजे 7:29 उपरोक्त समाधान बहुत अच्छा नहीं है यदि एक्स विरल है एक्स लेने से घने मैट्रिक्स बन जाएगा, जिसमें बड़ी मात्रा में स्मृति और अभिकलन होता है। एक बेहतर समाधान फॉर्मूला जैकार्डी, जे सामान्य (आई जे - कॉमन) का उपयोग करना है विरल मैट्रिक्स के साथ आप निम्नानुसार ऐसा कर सकते हैं (ध्यान दें कि कोड गैर-विरल मैट्रिक्स के लिए भी काम करता है): आपकी ज़रूरतों के आधार पर यह आपके लिए उपयोगी नहीं हो सकता है या हो सकता है मान लें कि क्लस्टरिंग असाइनमेंट्स के बीच समानता में दिलचस्पी है: जैककार्ड समानता गुणांक या जैककार्ड इंडेक्स का उपयोग दो क्लस्टरिंग असाइनमेंट की समानता की गणना के लिए किया जा सकता है। लेबलिंग एल 1 और एल 2 को देखते हुए बेन-हूर, एलीसेफ़, और गायन (2002) ने दिखाया है कि जैकार्ड इंडेक्स को इंटरमीडिएट मैट्रिक्स के डॉट-उत्पादों का उपयोग करके गणना की जा सकती है। नीचे दिए गए कोड स्मृति में मध्यवर्ती मैट्रिक्स को संग्रहित किए बिना जैककार्ड इंडेक्स की तुरंत गणना करने के लिए इसका लाभ उठाते हैं। कोड सी में लिखा है, लेकिन स्रोत सीपीपी कमांड का उपयोग करके आर में लोड किया जा सकता है। उत्तर दिया Oct 7 15 at 5:47 आपका उत्तर 2017 Stack Exchange, IncSo मेरे पास एक विशाल 3D सरणी है जो कुछ ऊतक का स्कैन है 1 के साथ इस सरणी में सभी गैर शून्य प्रविष्टियों को बदलने में सक्षम होने की आवश्यकता है, और सभी शून्य को एक समान रखना। मैं इस बारे में कैसे जा सकता हूं, एक बार जब मैंने यह किया है, तो मुझे जॅक कार्ड समानता गुणांक (जेएससी) की गणना करने की आवश्यकता है, जो मैं फ़ंक्शन यूनियन () में बनाया गया मैटैब का उपयोग कर सकते हैं और (intersect)। मुझे सिर्फ ऊतक में वॉक्सल की संख्या खोजने का एक तरीका खोजने की आवश्यकता है (यानी यदि मेरी सरणी एक्स है I को खोजने की आवश्यकता है) किसी भी मदद की सराहना की जाती है, जिसे 22 जनवरी 14:46 को कहा गया है

No comments:

Post a Comment