Principiul de funcționare a articolelor științifice ale metodei de șindrilă. Zoster este misterios și de neînțeles. Un exemplu de utilizare a algoritmului metodei zoster

Shingle de text - părțile în care este împărțit textul, în funcție de care este verificată unicitatea.

Mai multe videoclipuri pe canalul nostru - învățați marketingul pe internet cu SEMANTICA

Aceasta este cea mai fiabilă metodă de verificare. A apărut în 1997 și este încă cel mai popular. Algoritmul pentru divizarea în șindrilă pentru verificarea ulterioară este simplu și nu necesită mult timp.

Metoda de șindrilă este cea mai populară atunci când se creează tot felul de. Vă permite să recunoașteți articole unice de la sinonimizare.

Cum funcționează zona zoster

Indicatorul final al contextului textului verificat va depinde de lungimea setată a șindrilei. Dacă dimensiunea șindrilei este setată la 1 cuvânt, atunci cu siguranță vor exista mai multe texte pe Internet care vor conține deja un cuvânt similar. Ca urmare, procentul de unicitate al contextului verificat va fi zero.

Dacă setați o verificare care va fi efectuată pe baza celor zece cuvinte specificate, unicitatea documentului verificat va fi la maxim. Cel mai adesea, zece cuvinte la rând nu vor fi repetate în mai multe texte.

Când înțelegem cum funcționează algoritmul de căutare a frazelor, să aruncăm o privire mai atentă la un exemplu de modul în care se efectuează căutarea fragmentelor unice și neunice dintr-un document text.

Shingle 1: curățarea apartamentului după;
Shingle 2: apartamente după renovare;
Shingle 3: după renovare în.

În exemplu, am examinat modul în care sunt împărțite frazele suprapuse.

Printre diferitele programe care verifică automat textele pentru unicitate, există algoritmi de tăiere destul de complexi.

Fără a șterge cuvintele de oprire și cuvintele inutile.
Cu curățarea întregului document text de la cuvinte stop și cuvinte inutile.

Primul algoritm funcționează pe principiul că validarea nu modifică deloc textul original. Documentul este verificat pentru unicitate în forma în care a fost.

Al doilea algoritm efectuează un proces mai complex. Când verificați conținutul textului original, completați toate cuvintele sau frazele care nu au Informatii utileși semnificație (în optimizarea textului, aceste cuvinte se referă la apă)

Curățarea unui apartament după renovare în orice cameră se efectuează cât mai curând posibil: eficient și precis.

În timpul procesului de verificare, textul este șters și se obțin următoarele:

Curățarea apartamentului se efectuează în cel mai scurt timp posibil: este calitativ precisă.

Ce dimensiune de șindrilă ar trebui să pun în programul Advego Plagiatus?

Cu cât pui șindrilul pe Advego mai scurt, cu atât verificarea unui document text va fi mai bună și mai precisă. Conform popularului program Advego Plagiatus, media este de 4-5 cuvinte. Această sumă este suficientă pentru a vă asigura că textul este cu adevărat unic. Dacă setați dimensiunea șindrilei la 3, atunci această verificare a unicității va găsi cu siguranță potriviri cu mult conținut pe Internet.

De exemplu, sintagma „Te iubesc”, alcătuită din 3 cuvinte, se găsește cu siguranță în alte mii de articole.

Algoritmul de șindrilă (șindrilă) din limba engleză este o țiglă, o scară) este destinat căutării neclare a textului duplicat. Cuvântul „fuzzy” înseamnă că aparițiile duplicatelor nu sunt căutate exact, ci neclare. De exemplu, este posibil nu numai să copiați un șir, ci și să copiați fraze individuale. Practic, o modificare a algoritmului de șindrilă este utilizată de motoarele de căutare pentru a combate spamul în motoarele de căutare. Aceasta permite excluderea textelor similare sau complet identice din rezultatele căutării. Cu toate acestea, problema sursei originale rămâne, adică sursa pe care au apărut aceste informații în prima. Deși se crede că motoarele de căutare înregistrează în mod clar acest fapt, eșecurile apar în orice sistem. Să luăm în considerare mai detaliat întrebarea referitoare la această metodă, să vedem cu ce se mănâncă această șindrilă!

Algoritmul metodei zoster

Pentru fiecare parte a textului (șir), se calculează o anumită sumă de control, sarcina căreia este să identifice cumva textul dat, aceasta este o șindrilă. Aceste bucăți simbolice de text ar trebui să se suprapună, una după alta, astfel încât să nu se piardă niciun simbol sau cuvânt. Mai mult, din întregul set al acestor sume de control, sunt selectate cele care îndeplinesc un anumit criteriu - chiar, sunt împărțite la un anumit număr etc. Ca rezultat, eșantionul are o lege uniformă de distribuție, nu se pune accent pe nicio parte a textului. Ca rezultat, dacă sumele de verificare coincid între două texte codificate, similitudinea textelor este evidentă. Și cu cât sunt mai multe coincidențe, cu atât este mai asemănătoare textele.

Puteți alege o unitate de codare - un subșir în diferite moduri. Puteți utiliza un pas de dimensiuni de caractere sau mai multe caractere sau puteți lua un cuvânt sau mai multe cuvinte. Apoi, trebuie să decideți dacă șirurile de caractere trebuie să „introducă” (să includă o parte din cea anterioară) în codul dvs. - acest lucru afectează acuratețea rezultatului. Determinați dimensiunea subcordului în zece cuvinte sau zece caractere, alegerea depinde de puterea de procesare, dimensiunea memoriei și precizia rezultatelor. În plus, este recomandabil să ștergeți textul sursă de spații repetate, semne de punctuație și chiar prepoziții, tk. nu poartă o încărcătură specială de informații.

Un exemplu de utilizare a algoritmului metodei zoster

Să luăm, ca exemplu, două fragmente ușor modificate din poezia lui A.S. Pușkin

Text original:

"
Furtuna acoperă cerul cu întuneric,
Vârtejuri de zăpadă,
Ce fiară va urla
Va plânge ca un copil
- Algoritmul metodei zoster la locul de muncă
"

Text ușor corectat:

"
Furtuna acoperă pământul cu alb,
Vârtejuri de zăpadă,
Cum va urla un leu
Va plânge ca un copil
- Algoritm de pornire cu șindrilă
"

Să alegem un cuvânt ca pas. Să luăm lungimea șirului egal cu 5 cuvinte. Vom compune liniile într-o articulație (una după alta). Deoarece textul este mic, excludeți cuvintele
Ca rezultat, obținem un text codat cu o lungime de 5 numere.

Orez. 1 Exemplu de aspect de text folosind metoda șindrilă

Ca rezultat, am obținut un meci - al treilea număr (c0c522529b0e810f73b210cc972e9966). Această coincidență arată că există o similaritate de cel puțin 25% între cele două texte. Desigur, pentru un text atât de mic, a fost posibil să se reducă pasul, dar chiar și cu astfel de parametri inițiali, acesta este un bun exemplu.

Supershingle

Dacă, pentru fiecare text, este compilat chiar și un set de șindrilă, redus cu un anumit criteriu, atunci la fel, pentru un volum mare de documente, puterea de calcul care va trebui utilizată va rămâne în continuare colosală. Prin urmare, în practică, o altă sumă de control este adesea considerată deasupra setului de șindrilă pentru documente, așa-numita „supershingle”. În consecință, atunci documentele cu seturi de șindrilă complet potrivite vor fi considerate ca fiind potrivite.

Algoritm Metoda Shingle Observații

Cu toate acestea, trebuie remarcat faptul că în acest moment se utilizează algoritmi îmbunătățiți pentru detectarea duplicatelor. De exemplu, un algoritm alternativ pentru detectarea duplicatelor neclare a fost creat și inventat de Yandex. Algoritmul modificat este faptul că motorul de căutare are un document index sub forma unui fișier inversat (sau index inversat) și această situație poate fi folosită în mod util în procedura de găsire a aproape duplicatelor.

Aproximare simplă a metodei de șindrilă în php

Mai jos este o descriere și un cod sursă pentru a demonstra algoritmul de șindrilă în php. Să simulăm un motor de căutare

Mai întâi, trebuie să descărcați fișierul prin rețea. Acest lucru se poate face cu o funcție php simplă:

// obțineți fișierul prin link $ url ?> // eliminați etichetele folosind funcția php ?>

Definiți variabilele necesare

// matrice de șiruri de caractere$ hesh_mass = array (); // matrice de valori hash substrings$ tmp = "; ?>

Să creăm o serie de cuvinte. Folosim un spațiu ca criteriu de separare.

// funcția php standard din nou ?>

Să formăm o matrice de șiruri de caractere. În această funcție, pur și simplu punem cuvintele cinci împreună.

Să formăm o serie de valori hash:

Ca funcție de comparație, vom folosi o căutare simplă. Ca rezultat al funcției, se afișează procentul de potriviri.

„Procentaj de potrivire:”... $ similar_counter * 100 / size ($ hesh_mass1); ?>

Unicitatea conținutului

Conținutul unic este esențial pentru promovarea oricărui site web. În același timp, unicitatea este un indicator al utilizării conținutului original și nu este împrumutat din alte resurse. Copierea simplă a informațiilor textuale nu este doar inutilă, ci și plină de sancțiuni din partea motoarelor de căutare.

Zoster este folosit pentru reproducerea articolelor

Oricine a efectuat cel puțin o dată reproducerea articolelor a trebuit să se confrunte cu un astfel de concept ca şindrilă... Mulți nici măcar nu încearcă să înțeleagă esența acestui termen. Acest lucru poate fi văzut în exemplul comunicării cu optimizatori începători.

Un exemplu tipic de dialog atunci când comandați o reproducere a articolelor:

1 - Mă aștept la unicitate cel puțin 95%!
2 - La ce pas al șindrilei trebuie verificate textele?
1 - Ce este şindrilă?
2 - Acesta este un parametru care este utilizat pentru comparație la duplicarea unui articol.
1 - Aici voi face plasarea articolelor. După indexarea lor, ce fel de unicitate va fi? Spune doar că nu are șindrilă, nu-mi scrie despre ele.

Acestea sunt câteva dialoguri care se întâmplă uneori când se discută despre specificațiile tehnice pentru. Această problemă m-a determinat să încerc să-mi dau seama: ce este algoritm de șindrilăși „cu ce mănâncă” optimizatori. Acest articol nu pretinde a fi o considerație completă a problemei sau a unei definiții clasice a termenului. Sarcina noastră este să înțelegem cum se folosește această metodă de neînțeles pentru a determina unicitatea atunci când încercăm să reproducem un articol.

Aceasta face parte din textul original

Shingle este un lanț format din mai multe cuvinte consecutive. În practică, este folosit mărimea șindrilei de la 3 la 10 cuvinte. Se formează o matrice înainte de a compara textele. Lanțurile matrice sunt formate nu secvențial, ci suprapuse. Voi da un exemplu de astfel de matrice la pasul 3 cuvinte.

Textul original este „Primul al doilea al treilea al patrulea al cincilea al șaselea cuvânt”.
Matricea rezultată:

Primul, al doilea, al treilea
al doilea al treilea al patrulea
al treilea al patrulea al cincilea
al patrulea al cincilea al șaselea
al cincilea al șaselea cuvânt

Lungimea matricei este egală cu numărul de cuvinte minus lungimea pasului de șindrilă plus unu. În exemplul nostru, 7 - 3 + 1 = 5. Mai mult, înainte de a obține matricea, textul este normalizat. Procesul de normalizare constă în eliminarea cuvintelor stop, prepoziții, conjuncții, simboluri, numere etc. Odată ce avem o matrice pentru fiecare text, este ușor să calculăm procentul de unicitate dintre articole. Calculul unicității articolelor- procentul de zona zoster inegală din numărul total al acestora în articole. Pentru a calcula unicitatea unui articol într-un anumit set de texte, trebuie să comparăm acest articol cu restul și să luăm rezultatul minim.

Ce dimensiune de șindrilă trebuie utilizată la verificare

Apare imediat o contra întrebare: în ce scop comparăm texte? Dacă trebuie doar să cunoaștem unicitatea articolelor între ele, atunci răspunsul este simplu - cu atât mai scurt şindrilă, cu atât textele sunt mai unice. Permiteți-mi să explic: unicitatea, de exemplu, 95% la un pas de 5 cuvinte, este „mai unic” decât același 95% la un pas de 10 cuvinte. Un alt mod de a spune este că 97% unicitate cu o lungime de 10 cuvinte este aproximativ egală cu 90% unicitate cu o lungime de 5 cuvinte. Și dacă trebuie să prezicem unicitatea acelorași texte din punctul de vedere al motoarelor de căutare (după plasarea și indexarea lor), atunci nu există un răspuns exact. Un singur lucru poate fi spus fără echivoc: cu atât mai puțin mărimea șindrileiși cu cât este mai mare procentul de unicitate, cu atât motoarele de căutare vor fi mai loiale față de articolele dvs. Acest punct ar trebui să fie luat în considerare în special de cei care au decis să-și creeze propriul site web pentru prima dată și să-l umple cu conținut unic.

Procentul de unicitate al textului și dimensiunea acestuia

Și încă o remarcă. Cu cât articolul original este mai scurt, cu atât este mai dificil să obții un procent ridicat de unicitate al textelor reproduse. Și acest lucru este de înțeles, deoarece procentul unicității textului este egal cu raportul dintre numărul de lanțuri de șindrilă asortate la totalul lanțuri de șindrilă în articol. În textul scurt, numărul total de lanțuri de șindrilă este mic. În consecință, atitudinea va fi în rău. De asemenea, când scrii texte SEO pentru interogările cheie din articolele scurte, densitatea cuvintelor cheie va fi inevitabil mai mare. Practica copierii articolelor arată că prezența a 1-3 expresii cheie mai lungi de 3 cuvinte face foarte dificilă obținerea unui procent bun din unicitatea textului. Această regulă este valabilă mai ales pentru articolele cu mai puțin de 2K caractere.

Metoda de șindrilă este utilizată în toate programele de reproducere a articolelor.

Programul pentru multiplicarea articolelor folosește metoda CRC atunci când se utilizează algoritmul de șindrilă, care vă permite să obțineți o viteză foarte decentă de comparare a unui număr mare de texte multiplicate. La rândul său, aceasta crește viteza cu care este generat textul. Pentru referință: algoritmul CRC vă permite să lucrați nu cu șirurile de șindrilă în sine, ci cu sumele lor de control, ceea ce, desigur, mărește viteza (compararea numerelor este un ordin de mărime mai rapid decât compararea șirurilor).

Așteptăm comenzile dvs. pentru reproducerea articolelor și redactarea pe resursa noastră http: //www.site

Implementarea algoritmului de șindrilă face posibilă determinarea nivelului de identitate a două documente. Zelenkov Yu.G. și Segalovich I.V. în opera sa " Analiza comparativa Metode pentru determinarea duplicatelor neclare pentru documentele web ”a descris în detaliu principiul algoritmilor pentru șindrilă de diferite dimensiuni pentru compararea documentelor web.

Autorii publicației analizează în detaliu tehnica de determinare a identității documentelor. Acestea oferă o versiune a algoritmului de șindrilă care folosește un eșantion aleatoriu de 84 de șindrilă aleatorie din textul analizat.

Folosirea a exact 84 de valori ale sumelor de control, alese la întâmplare, permite transferarea algoritmului la nivelul algoritmului supershling și megashingles, a căror capacitate de resurse este mult mai mică.

Cunoașterea algoritmului pentru determinarea duplicatelor fuzzy va ajuta la evitarea problemelor la scrierea de texte pentru. Se pot distinge următoarele etape prin care trece textul atunci când îl comparăm:

canonizarea textului;
împărțirea în șindrilă;
calcule, prin funcții statice, 84 hashuri de șindrilă;
eșantionarea aleatorie a valorilor a 84 de sume de control;
compararea și determinarea rezultatului.

Aducerea textului original la o singură formă normală, eliminându-l de toate unitățile auxiliare ale textului (prepoziții, conjuncții, semne de punctuație, etichete etc.) care nu ar trebui incluse în comparație. Eliminarea adjectivelor este, de asemenea, adesea presupusă, deoarece acestea, așa cum este corect, poartă o încărcătură emoțională, nu semantică.

Canonicalizarea textului necesită, de asemenea, conversia substantivelor în caz nominativ, singular și, uneori, lăsând doar semnificațiile lor rădăcină.

După efectuarea tuturor acestor operațiuni, se obține un text „curat”, potrivit pentru comparație.

2. Împărțirea textului în zona zoster.

Zoster (din engleză - cântare) sunt părți separate ale textului selectate pentru comparație din corpul articolului, cu un anumit număr de cuvinte în secvența sa pentru a verifica unicitatea.

Zoster poate fi orice număr de cuvinte - de la 3 la 10. Cu cât zoster este mai scurt, cu atât rezultatul testului va fi mai precis. La atribuirea unei dimensiuni de șindrilă de 3 cuvinte, verificarea care a dat unicitate 100% este o dovadă a originalității textului, deoarece combinațiile de cuvinte se găsesc în aproape orice text.

Textele comparate trebuie împărțite în subsecvențe (una după alta) de cuvinte, iar lungimea șindrilei trebuie determinată ca 10 cuvinte. O astfel de eșantionare nu are loc de la un capăt la altul, ci se suprapune - acest lucru asigură că motorul de căutare nu pierde niciun șir de sub șir.

Seturile de șindrilă rezultate, după ce fiecare dintre texte este împărțit în subsecvențe, sunt egale cu numărul de cuvinte din document minus lungimea șindrilei (-10) plus unu (+1).

3. Calculul hashurilor de șindrilă.

Principiul algoritmului de șindrilă se bazează pe compararea sumelor de control selectate aleatoriu de șindrilă (subsecvențe) a două documente.

Esența algoritmului este de a găsi numărul corect de sume de control pe care să le comparați. Un număr supraestimat de șindrilă va afecta negativ rezultatul, deoarece vor fi efectuate multe operații pentru comparație, ceea ce va reduce performanța.

Pentru ușurință în utilizare, textul este prezentat sub formă de tabele cu un set de sume de control calculate pentru fiecare șindrilă folosind 84 de funcții statice de hash. Toate cele 84 de rânduri (pentru fiecare dintre documente) sunt caracterizate de suma de control corespunzătoare.

Din ambele seturi, 84 de valori sunt selectate aleatoriu - pentru fiecare dintre documente - și comparate în funcție de funcțiile lor de sumă de verificare. Cu alte cuvinte, vor fi necesare 84 de operații pentru a compara textele.

4. Un eșantion aleatoriu de 84 de valori de control.

Pentru a crește performanța atunci când se compară elementele fiecăreia dintre cele 84 de matrice selectate, trebuie să eșantionați aleatoriu sumele de control pentru fiecare dintre rânduri. Alegerea valorii minime din fiecare rând va da în cele din urmă setul celor mai mici sume de control pentru șindrilă pentru fiecare dintre funcțiile hash.

5. Obținerea rezultatului.

Compararea fiecăruia dintre cele 84 de elemente ale ambelor documente relevă raportul acelorași valori, ceea ce face posibilă determinarea nivelului de identitate sau unicitate al fiecărui text.

Şindrilă

O șindrilă este o celulă, o particulă, o cărămidă - cel puțin dacă luăm semnificațiile pe care le are acest cuvânt limba engleză de unde vine. În domeniul promovării site-ului web, o șindrilă înseamnă chiar particulele-cărămizi din care este construit textul și este baza pentru cea mai fiabilă metodă de verificare a unicității textului. Shingle în acest sens este direct legat de analiza lingvistică a textului și ca metodă și concept există din 1997, când Andrei Broder, un angajat de rang înalt al Yahoo! l-a oferit pentru utilizare pe scară largă. Folosind cercetarea textului folosind zona zoster, puteți separa cu precizie textul unic de conținutul sinonimizat. În zilele noastre, când optimizarea SEO câștigă un nivel profesional, problema zoster și lucrul cu acestea a devenit și mai relevantă.

Pregătirea textului

O șindrilă este o mică bucată de text, constând din mai multe cuvinte, procesate de tehnică specială pentru analiză. Această tehnică - canonizarea - constă în faptul că textul este facilitat de toate cuvintele care sunt irelevante pentru semnificație și gramatică (conjuncții, prepoziții, interjecții) și semne de punctuație. Luați următoarea frază ca exemplu:

„Iată o listă de sumă uriașă orașe și fiecare are unități de jocuri de noroc, există sute de cazinouri ilegale ”, a spus Medvedev.

După canonizare, va arăta astfel:

aici este o listă cu un număr imens de orașe, fiecare având unități de jocuri de noroc, aici sute de cazinouri ilegale au spus Medvedev.

Compunerea zoster

A doua etapă de lucru cu textul: selecția directă a sindrila. Pentru a face acest lucru, în primul rând, trebuie să determinați lungimea șindrilei. Cu cât șindrilul este mai mic, cu atât mai multă muncă și analiza este mai precisă. Zoster minim este de trei cuvinte, maxim este de opt. O șindrilă mai lungă nu are adesea sens, deoarece există prea multe erori în această verificare. Una dintre regulile pentru compunerea unei șindrilă este suprapunerea, adică prin captarea a cel puțin unui cuvânt din șindrilul anterior. Iată ce va face posibilă verificarea scrupuloasă a tuturor cuvintelor.

De exemplu, primul șindrilă cu trei cuvinte a unei fraze ar arăta astfel:

aici este o listă de imense

Și a doua șindrilă poate avea opțiuni:

o listă cu un număr imens și un număr imens de orașe

Conform acestui principiu, toate zona zoster este compusă: suprapuse, cu un număr egal de cuvinte în zona zoster.

Algoritm Shingle

Apoi, programatorul generează o sumă de verificare a textului. Algoritmul zoster implică compararea zosterului a două texte diferite, determinând dacă unul dintre ele este un duplicat al celui de-al doilea. Este foarte dificil să înșeli motoarele de căutare care folosesc metoda programată de verificare a sindrilei. Ei găsesc documente similare și compară numărul de chibrituri de șindrilă, identificând clar lipsa de unicitate. Prin urmare, atunci când înmulțiți un text, este nevoie de o muncă minuțioasă pentru sinonimizarea, diluarea și structurarea textului, înlocuirea expresiilor frazeologice, care îl vor face diferit de original. Cu toate acestea, riscul de a fi surprins de motorul de căutare într-un text neoriginal dispare numai dacă sunt utilizate articole cu adevărat unice.