अमेरिकी न्याय विभाग ने चल रहे उपायों की सुनवाई के हिस्से के रूप में कई नए परीक्षण प्रदर्शन जारी किए। इन प्रदर्शनियों में दो प्रमुख Google इंजीनियरों – पांडू नायक और एचजे किम के साथ साक्षात्कार शामिल हैं – जो Google के रैंकिंग सिग्नल और सिस्टम, खोज सुविधाओं और Google के भविष्य में अंतर्दृष्टि प्रदान करते हैं।
प्रमुख Google खोज रैंकिंग प्रणाली शब्दावली
नायक ने कुछ प्रमुख Google शब्दावली को परिभाषित किया और Google की खोज संरचना को समझाया:
- दस्तावेज़: Google एक वेबपेज, या उसके संग्रहीत संस्करण को क्या कहता है।
- संकेत: Google कैसे दस्तावेजों को रैंक करता है जो अंततः SERP (खोज इंजन परिणाम पृष्ठ) उत्पन्न करता है। Google ने मशीन लर्निंग मॉडल के साथ-साथ “पारंपरिक संकेतों” से भविष्य कहनेवाला संकेतों का उपयोग करने के बारे में बात की, उपयोगकर्ता-साइड डेटा के आधार पर संभावित अर्थ (जिसे Google ने पहले उपयोगकर्ता इंटरैक्शन कहा है-जैसे, क्लिक, परिणाम पर ध्यान, हिंडोला पर स्वाइप करता है, एक नई क्वेरी दर्ज करता है)। मोटे तौर पर, रैंकिंग के दो प्रकार के संकेत हैं:
- कच्चे संकेत। ये व्यक्तिगत संकेत हैं। Nayak के अनुसार, Google के पास “100 से अधिक कच्चे सिग्नल हैं।”
- शीर्ष-स्तरीय संकेत। यह कई कच्चे संकेतों का एक संयोजन है।
इंजीनियरों द्वारा चर्चा किए गए अन्य संकेतों में शामिल हैं:
- क्यू* (“क्यू स्टार”): Google दस्तावेज़ की गुणवत्ता को कैसे मापता है।
- Navboost: पिछले 13 महीनों के डेटा का उपयोग करके, स्थान और डिवाइस प्रकार द्वारा खंडित एक क्वेरी के लिए एक दस्तावेज़ पर उपयोगकर्ता क्लिक करने वाला एक पारंपरिक सिग्नल।
- Rankembed: एक प्राथमिक Google सिग्नल, जो बड़ी भाषा मॉडल (LLMS) के साथ प्रशिक्षित है।
- पृष्ठ रैंक: एक मूल Google सिग्नल, अभी भी पृष्ठ गुणवत्ता का एक कारक है।
Google परिणामों को फिर से रैंक करने के लिए Twiddlers का भी उपयोग करता है (जो हमने पिछले साल के Google की आंतरिक सामग्री API वेयरहाउस लीक से सीखा है)। एक आंतरिक “डिबगिंग इंटरफ़ेस” इंजीनियरों को क्वेरी विस्तार/अपघटन और व्यक्तिगत सिग्नल स्कोर देखने की सुविधा देता है जो अंतिम खोज परिणाम रैंकिंग का निर्धारण करते हैं।
Google खराब प्रदर्शन या पुराने संकेतों को बंद कर देता है।
NAVBOOST: मशीन लर्निंग सिस्टम नहीं
पूर्व-गुग्लर एरिक लेहमैन से पूछा गया था कि क्या 13 महीने के उपयोगकर्ता डेटा पर नवबॉस्ट ट्रेनें, और गवाही दी गई:
- “यह मेरी समझ है। अब, शब्द ‘ट्रेन’ शब्द यहां थोड़ा भ्रामक हो सकता है। नवबोस्ट एक मशीन लर्निंग सिस्टम नहीं है। यह सिर्फ एक बड़ी तालिका है। यह कहता है … इस खोज क्वेरी, इस दस्तावेज़ को दो क्लिक मिले। इस क्वेरी के लिए, इस दस्तावेज़ को तीन क्लिक मिले … और इसी तरह, और यह एक छोटा सा डेटा है, लेकिन आप बस एक गैन्ट टेबल के बारे में सोच सकते हैं।”

Google खोज: परंपरा से लेकर मशीन लर्निंग तक
Google की खोज पारंपरिक “OKAPI BM25” रैंकिंग फ़ंक्शन से विकसित हुई, मशीन लर्निंग को शामिल करने के लिए, RankBrain (2016 में घोषित) के साथ शुरू, फिर, बाद में, Deeprank और Rankembed।
Google ने पाया कि BERT- आधारित DEEPRANK मशीन लर्निंग सिग्नल “उन संकेतों में विघटित हो सकते हैं जो पारंपरिक संकेतों से मिलते जुलते थे” और दोनों प्रकार के बेहतर परिणामों के संयोजन से। इसने अनिवार्य रूप से पारंपरिक सूचना पुनर्प्राप्ति और मशीन लर्निंग का एक हाइब्रिड दृष्टिकोण बनाया।
Google “केवल क्लिकों की भविष्यवाणी करने से बचता है, ” क्योंकि वे आसानी से हेरफेर कर रहे हैं और उपयोगकर्ता अनुभव को मज़बूती से मापते नहीं हैं।
रैंबेड किया हुआ
एक प्रमुख संकेत, रैंकमेड, एक “दोहरी एनकोडर मॉडल” है जो क्वेरी और दस्तावेजों को “एम्बेडिंग स्पेस” में एम्बेड करता है। यह स्थान शब्दार्थ गुणों और अन्य संकेतों पर विचार करता है। पुनर्प्राप्ति और रैंकिंग एक “डॉट उत्पाद” या “एम्बेडिंग स्पेस में दूरी माप” पर आधारित हैं।
RankEmbed “बहुत तेज़” है और आम प्रश्नों पर उत्कृष्टता प्राप्त करता है, लेकिन कम लगातार या विशिष्ट लंबी-पूंछ वाले क्वेरी के साथ संघर्ष करता है। Google ने इसे एक महीने के खोज डेटा पर प्रशिक्षित किया।
सामयिकता, गुणवत्ता और अन्य संकेत
दस्तावेज़ विस्तार से विवरण देते हैं कि Google एक प्रश्न, या “सामयिकता” के लिए दस्तावेज़ की प्रासंगिकता कैसे निर्धारित करता है। प्रमुख घटकों में एबीसी सिग्नल शामिल हैं:
- एंकर (ए): एक स्रोत पृष्ठ से एक लक्ष्य पृष्ठ पर लिंक।
- शरीर (बी): दस्तावेज़ में शर्तें।
- क्लिक (c): SERP में लौटने से पहले कोई उपयोगकर्ता लिंक किए गए पृष्ठ पर कब तक रहा।
ये टी* (सामयिकता) में गठबंधन करते हैं, जिसका उपयोग Google एक दस्तावेज़ की प्रासंगिकता को क्वेरी शर्तों के लिए निर्धारित करने के लिए करता है।
सामयिकता से परे, “क्यू*” (पृष्ठ की गुणवत्ता), या “भरोसेमंदता,” “अविश्वसनीय रूप से महत्वपूर्ण है,” विशेष रूप से “सामग्री खेतों” को संबोधित करने में। एचजे किम नोट करता है, “आजकल, लोग अभी भी गुणवत्ता के बारे में शिकायत करते हैं और एआई इसे बदतर बनाता है।” पेजरैंक गुणवत्ता स्कोर में फ़ीड करता है।
अन्य संकेतों में शामिल हैं:
- EDEEPRANK: अधिक पारदर्शिता के लिए LLM- आधारित संकेतों को विघटित करने के लिए BERT और ट्रांसफार्मर का उपयोग करके एक LLM प्रणाली।
- Br: क्रोम डेटा का उपयोग करके एक “लोकप्रियता” संकेत।
हाथ से तैयार किए गए संकेत
यद्यपि मशीन लर्निंग महत्व में बढ़ रही है, कई Google सिग्नल अभी भी इंजीनियरों द्वारा “हाथ से तैयार” हैं। वे डेटा का विश्लेषण करते हैं, सिग्मोइड जैसे कार्यों को लागू करते हैं, और थ्रेसहोल्ड को ठीक-फाइन-ट्यून सिग्नल पर सेट करते हैं।
“चरम में,” इसका अर्थ है मैन्युअल रूप से डेटा मिड-पॉइंट का चयन करना। अधिकांश संकेतों के लिए, Google वेबपेज सामग्री, उपयोगकर्ता क्लिक और मानव रैटर लेबल पर प्रतिगमन विश्लेषण का उपयोग करता है।
हाथ से तैयार किए गए सिग्नल पारदर्शिता और आसान समस्या निवारण के लिए महत्वपूर्ण हैं। जैसा कि किम ने समझाया:
- “इसका कारण यह है कि अधिकांश संकेतों को हाथ से तैयार किया जाता है, अगर कुछ भी टूट जाता है तो Google को पता है कि क्या ठीक करना है। Google चाहता है कि उनके संकेत पूरी तरह से पारदर्शी हों ताकि वे उन्हें परेशान कर सकें और उन पर सुधार कर सकें।”
कॉम्प्लेक्स मशीन लर्निंग सिस्टम निदान और मरम्मत के लिए कठिन हैं, किम ने समझाया।
इसका मतलब है कि Google चुनौतियों का जवाब दे सकता है और संकेतों को संशोधित कर सकता है, जैसे कि उन्हें “विभिन्न मीडिया/सार्वजनिक ध्यान चुनौतियों” के लिए समायोजित करना।
हालांकि, इंजीनियरों ने ध्यान दिया कि “इन समायोजन के लिए सही किनारों को ढूंढना मुश्किल है” और ये समायोजन “इंजीनियर को रिवर्स करना और डेटा को देखने से कॉपी करना आसान होगा।”
खोज सूचकांक और उपयोगकर्ता-साइड डेटा
Google का खोज सूचकांक क्रॉल्ड कंटेंट: टाइटल एंड बॉडीज है। ट्विटर फीड और मैसी के डेटा जैसी सामग्री के लिए अलग -अलग इंडेक्स मौजूद हैं। क्वेरी-आधारित संकेतों की गणना आम तौर पर क्वेरी समय पर की जाती है, खोज सूचकांक में संग्रहीत नहीं की जाती है, हालांकि कुछ सुविधा के लिए हो सकते हैं।
Google खोज इंजीनियरों के लिए “उपयोगकर्ता-साइड डेटा,” का अर्थ है, उपयोगकर्ता इंटरैक्शन डेटा, लिंक जैसी उपयोगकर्ता-जनित सामग्री नहीं। उपयोगकर्ता-साइड डेटा से प्रभावित सिग्नल वे कितना प्रभावित होते हैं, इसमें भिन्न होते हैं।
खोज सुविधाएँ
Google की खोज सुविधाएँ (जैसे, ज्ञान पैनल) प्रत्येक का अपना रैंकिंग एल्गोरिथ्म है। “टेंग्राम” (पूर्व में टेट्रिस) का उद्देश्य इन सभी सुविधाओं के लिए एक एकीकृत खोज सिद्धांत लागू करना था।
ज्ञान ग्राफ का उपयोग पारंपरिक खोज को बढ़ाने के लिए SERP पैनलों से परे है। दस्तावेज़ “सेल्फ-हेल्प सुसाइड बॉक्स” का भी हवाला देते हैं, जो सटीक कॉन्फ़िगरेशन के महत्वपूर्ण महत्व और सही “घटता” और “थ्रेसहोल्ड” का निर्धारण करने के पीछे व्यापक कार्य को उजागर करता है।
Google का विकास, दस्तावेज़ जोर देते हैं, उपयोगकर्ता की जरूरतों से प्रेरित है। Google मुद्दों की पहचान करता है और डिबग करता है, और रैंकिंग में सुधार के लिए नई जानकारी को शामिल करता है। उदाहरणों में शामिल हैं:
- लिंक स्थिति पूर्वाग्रह के लिए संकेतों को समायोजित करना।
- सामग्री खेतों का मुकाबला करने के लिए संकेत विकसित करना।
- संवेदनशील प्रश्नों के लिए गुणवत्ता के परिणाम सुनिश्चित करने के लिए नवाचार करना “होलोकॉस्ट था”, जबकि बारीक परिणाम विविधता पर विचार करते हुए।
LLMS और Google खोज का भविष्य
Google “ग्राउंड-अप से अपने खोज स्टैक को फिर से सोच रहा है,” LLMS के साथ एक बड़ी भूमिका निभाता है। LLMS “क्वेरी व्याख्या” और “परिणामों की प्रस्तुति को प्रस्तुत कर सकता है।”
एक अलग प्रदर्शन में, हमें Google के “संयुक्त खोज बुनियादी ढांचे” पर एक नज़र मिली (हालांकि इसके कई हिस्सों को फिर से तैयार किया गया था):

Google यह पता लगा रहा है कि LLMS रैंकिंग, पुनर्प्राप्ति और SERP डिस्प्ले को कैसे रीमैगिन कर सकता है। एक महत्वपूर्ण विचार एलएलएम का उपयोग करने की कम्प्यूटेशनल लागत है।
जबकि शुरुआती मशीन लर्निंग मॉडल को बहुत अधिक डेटा की आवश्यकता थी, Google अब “कम और कम” का उपयोग करता है, कभी -कभी केवल 90 या 60 दिनों के मूल्य का उपयोग करता है। Google का नियम: उस डेटा का उपयोग करें जो उपयोगकर्ताओं को सबसे अच्छा काम करता है।
गहरी खुदाई। यह पहली बार नहीं है जब हमने एक नज़र डाल दी है कि Google खोज रैंकिंग कैसे काम करती है, DOJ परीक्षण के लिए धन्यवाद। इन लेखों में और देखें:
- 7 को एंटीट्रस्ट ट्रायल प्रदर्शनी में Google खोज रैंकिंग दस्तावेज देखना चाहिए
- Google के पांडू नायक के अनुसार, Google खोज और रैंकिंग कैसे काम करती है
डीओजे परीक्षण प्रदर्शित करता है। अमेरिका और वादी राज्यों v। Google LLC [2020] – उपचार सुनवाई प्रदर्शन:
- 31 जनवरी, 2025 पांडा नायक (पीडीएफ) के साथ कॉल करें
- 18 फरवरी, 2025 एचजे किम (पीडीएफ) के साथ कॉल करें