Načelo djelovanja metode šindre znanstveni članci. Šindra je tajanstvena i neshvatljiva. Primjer korištenja algoritma metode šindre

Šindra teksta - dijelovi na koje je tekst podijeljen, prema kojima se provjerava jedinstvenost.

Više videa na našem kanalu - naučite internet marketing sa SEMANTICOM

Ovo je najpouzdaniji način provjere. Pojavio se 1997. godine i još uvijek je najpopularniji. Algoritam za cijepanje u šindru za naknadnu provjeru je jednostavan i ne oduzima puno vremena.

Metoda šindre najpopularnija je pri stvaranju svih vrsta. Omogućuje vam prepoznavanje jedinstvenih članaka iz sinonimizacije.

Kako tekstualne šindre rade

Konačni pokazatelj provjerenog konteksta teksta ovisit će o postavljenoj duljini šindre. Ako je veličina šindre postavljena na 1 riječ, tada će zasigurno na internetu biti nekoliko tekstova koji će već sadržavati sličnu riječ. Kao rezultat toga, postotak jedinstvenosti provjerenog konteksta bit će nula.

Ako postavite provjeru koja će se provesti na temelju navedenih deset riječi, jedinstvenost provjerenog dokumenta bit će najbolja. Češće se deset riječi zaredom neće ponoviti u nekoliko tekstova.

Kad shvatimo kako funkcionira algoritam pretraživanja fraza, pogledajmo bliže primjer kako se vrši traženje jedinstvenih i nejedinstvenih fragmenata iz tekstualnog dokumenta.

Šindra 1: čišćenje stana nakon;
Šindra 2: stanovi nakon obnove;
Šindra 3: nakon obnove u.

U primjeru smo ispitali kako se preklapaju fraze koje se preklapaju.

Među raznim programima koji automatski provjeravaju jedinstvenost tekstova postoje prilično složeni algoritmi rezanja.

Bez čišćenja zaustavnih riječi i nepotrebnih riječi.
Čišćenjem cijelog tekstualnog dokumenta od zaustavljenih riječi i nepotrebnih riječi.

Prvi algoritam radi na principu da provjera valjanosti uopće ne mijenja izvorni tekst. Dokument se provjerava na jedinstvenost u obliku u kojem je bio.

Drugi algoritam izvodi složeniji postupak. Prilikom provjere izvornog tekstualnog sadržaja, potpuno sve riječi ili izrazi koji nemaju korisna informacija i značenje (u optimizaciji teksta ove se riječi odnose na vodu)

Čišćenje stana nakon renoviranja u bilo kojoj prostoriji provodi se što je prije moguće: učinkovito i točno.

Tijekom postupka provjere tekst se briše i dobiva se sljedeće:

Čišćenje stana provodi se u najkraćem mogućem roku: kvalitativno je točno.

Koju veličinu šindre trebam staviti u program Advego Plagiatus?

Što kraće postavite šindru na Advego, to će provjera tekstualnog dokumenta biti bolja i preciznija. Prema popularnom programu Advego Plagiatus, prosjek je 4-5 riječi. Taj je iznos dovoljan da se uvjerite da je tekst zaista jedinstven. Ako postavite veličinu šindre na 3, tada će ova provjera jedinstvenosti zasigurno pronaći podudaranja s puno sadržaja na Internetu.

Na primjer, izraz "volim te", koji se sastoji od 3 riječi, zasigurno će se naći u još tisuću članaka.

Algoritam šindre (šindre) s engleskog je pločica, ljestvica) namijenjen je za nejasno pretraživanje dupliciranog teksta. Riječ "nejasno" znači da se pojavljivanja duplikata ne pretražuju točno, već su zamućena. Na primjer, moguće je ne samo duplicirati niz, već i duplicirati pojedine fraze. U osnovi, tražilice koriste modifikaciju algoritma šindre za borbu protiv neželjene pošte tražilica. To omogućuje isključivanje međusobno sličnih ili potpuno identičnih tekstova iz rezultata pretraživanja. Međutim, ostaje problem izvornog izvora, t.j. izvor na kojem su se te informacije pojavile u prvom. Iako se vjeruje da tražilice jasno bilježe tu činjenicu, kvarovi se javljaju u bilo kojem sustavu. Razmotrimo detaljnije pitanje u vezi s ovom metodom, da vidimo s čime se jede ova šindra!

Algoritam metode šindre

Za svaki dio teksta (podniz) izračunava se određeni kontrolni zbroj čija je zadaća nekako identificirati dati tekst, ovo je šindra. Ti bi se simbolični dijelovi teksta trebali preklapati, jedan za drugim, tako da se ne izgubi niti jedan simbol ili riječ. Nadalje, iz cijelog skupa ovih kontrolnih suma odabiru se oni koji zadovoljavaju neki kriterij - čak, podijeljeni su nekim brojem itd. Kao rezultat toga, uzorak ima ujednačen zakon distribucije, niti se naglasak stavlja na bilo koji dio teksta. Kao rezultat toga, ako se kontrolne sume podudaraju između dva kodirana teksta, sličnost tekstova je očita. I što više slučajnosti, više je sličnosti tekstova.

Jedinicu kodiranja - podniz možete odabrati na različite načine. Možete koristiti korak veličine znaka ili nekoliko znakova ili možete uzeti riječ ili nekoliko riječi. Zatim morate odlučiti trebaju li podnizovi "unijeti" (uključiti dio prethodnog) u vaš kôd - to utječe na točnost rezultata. Odredite dimenziju podniza u deset riječi ili deset znakova, izbor ovisi o procesorskoj snazi, veličini memorije i točnosti rezultata. Osim toga, preporučljivo je očistiti izvorni tekst od ponavljanih razmaka, interpunkcijskih znakova, pa čak i prijedloga, tk. ne nose posebno opterećenje informacijama.

Primjer korištenja algoritma metode šindre

Uzmimo za primjer dva pomalo izmijenjena odlomka iz pjesme A.S. Puškin

Originalni tekst:

"
Oluja prekriva nebo tamom,
Vrtlozi snježnih krugova,
Kako će zvijer zavijati
Plakat će kao dijete
- Algoritam metode šindre na djelu
"

Malo ispravljen tekst:

"
Oluja prekriva tlo bijelom bojom,
Vrtlozi snježnih krugova,
Kako će zavijati lava
Plakat će kao dijete
- Algoritam startanja s šindrom
"

Odaberimo riječ kao korak. Uzmimo duljinu podniza jednaku 5 riječi. Redove ćemo sastaviti u zglobu (jedan za drugim). Budući da je tekst mali, isključite riječi
Kao rezultat, dobivamo kodirani tekst duljine 5 brojeva.

Riža. 1 Primjer rasporeda teksta pomoću metode šindre

Kao rezultat toga, dobili smo jedno podudaranje - treći broj (c0c522529b0e810f73b210cc972e9966). Ova slučajnost pokazuje da postoji najmanje 25% sličnosti između dva teksta. Naravno, za tako mali tekst bilo je moguće smanjiti korak, ali i s takvim početnim parametrima ovo je dobar primjer.

Supershingle

Ako se za svaki tekst sastavi čak i niz šindra, umanjenih za neki kriterij, tada će svejedno za veliki broj dokumenata računalna snaga koju će trebati koristiti i dalje ostati kolosalna. Stoga se u praksi često razmatra još jedan kontrolni zbroj iznad skupa dokumenata, takozvana "supershingle". Slijedom toga, tada će se dokumenti s potpuno usklađenim kompletima šindre smatrati usklađenim.

Primjedbe Algoritma metode šindre

Međutim, valja napomenuti da se u ovom trenutku koriste poboljšani algoritmi za otkrivanje duplikata. Na primjer, Yandex je stvorio i izumio alternativni algoritam za određivanje nejasnih duplikata. Modificirani algoritam je činjenica da tražilica ima indeksni dokument u obliku obrnute datoteke (ili obrnutog indeksa) i ta se situacija može korisno koristiti u postupku za pronalaženje gotovo duplikata.

Jednostavno približavanje metode šindre u php -u

Dolje je opis i izvorni kod za demonstraciju algoritma šindre u php -u. Simulirajmo tražilicu

Prvo morate preuzeti datoteku putem mreže. To se može učiniti jednostavnom php funkcijom:

// dobiti datoteku putem veze $ url ?> // uklanjanje oznaka pomoću php funkcije ?>

Definirajte potrebne varijable

// niz podnizova$ hesh_mass = niz (); // niz vrijednosti hash podniz$ tmp = "; ?>

Napravimo niz riječi. Kao kriterij odvajanja koristimo razmak.

// opet standardna funkcija php ?>

Formirajmo niz podnizova. U ovoj smo funkciji jednostavno složili riječi pet.

Oblikujmo niz hash vrijednosti:

Kao funkciju usporedbe, koristit ćemo jednostavno pretraživanje. Kao rezultat funkcije prikazuje se postotak podudaranja.

"Postotak podudaranja:"... $ similar_counter * 100 / veličina ($ hesh_mass1); ?>

Jedinstvenost sadržaja

Jedinstveni sadržaj bitan je za promicanje bilo koje web stranice. Istodobno, jedinstvenost je pokazatelj korištenja izvornih sadržaja, a ne posuđenih iz drugih izvora. Jednostavno kopiranje tekstualnih informacija nije samo beskorisno, već je i ispunjeno sankcijama tražilica.

Šindra se koristi za reprodukciju članaka

Svatko tko je barem jednom izveo reprodukciju članaka morao se suočiti s takvim konceptom kao šindra... Mnogi niti ne pokušavaju razumjeti bit ovog izraza. To se može vidjeti na primjeru komunikacije s optimizatorima početnicima.

Tipičan primjer dijaloga pri naručivanju reprodukcije članaka:

1 - Očekujem jedinstvenost barem 95%!
2 - U kojem koraku šindre treba provjeriti tekstove?
1 - Što je šindra?
2 - Ovo je parametar koji se koristi za usporedbu pri dupliciranju članka.
1 - Ovdje ću izvršiti postavljanje članaka. Kakva će to jedinstvenost biti nakon njihovog indeksiranja? Samo reci bez šindre, nemoj mi pisati o njima.

Ovo su neki dijalozi koji se ponekad događaju kada se raspravlja o tehničkim specifikacijama za. Ovaj me problem ponukao da pokušam shvatiti: što je algoritam šindre i optimizatore "s čime jedu". ovaj članak ne pretendira na cjelovito razmatranje problema ili na klasičnu definiciju pojma. Naš je zadatak razumjeti kako se ova nerazumljiva metoda koristi za utvrđivanje jedinstvenosti kada pokušavamo reproducirati članak.

Ovo je dio izvornog teksta

Šindra je lanac koji se sastoji od nekoliko uzastopnih riječi. U praksi se koristi veličina šindre od 3 do 10 riječi. Prije uspoređivanja tekstova formira se niz. Lanci nizova ne stvaraju se uzastopno, već se preklapaju. Navest ću primjer takvog niza u koraku 3 riječi.

Izvorni tekst je "Prva druga treća četvrta peta šesta riječ".
Dobiveni niz:

Prvi drugi treći
druga treća četvrta
treći četvrti peti
četvrti peti šesti
peta šesta riječ

Duljina niza jednaka je broju riječi minus duljina koraka s šindrom plus jedna. U našem primjeru 7 - 3 + 1 = 5. Štoviše, tekst se normalizira prije dobivanja niza. Proces normalizacije uključuje odbacivanje zaustavnih riječi, prijedloga, veznika, simbola, brojeva itd. Nakon što dobijemo niz za svaki tekst, lako je izračunati postotak jedinstvenosti između članaka. Proračun jedinstvenosti članaka- postotak nejednake šindre od ukupnog broja članaka. Da bismo izračunali jedinstvenost članka u određenom skupu tekstova, moramo ovaj članak usporediti s ostalim i uzeti minimalni rezultat.

Koju veličinu šindre koristiti pri provjeri

Odmah se nameće kontra pitanje: u koju svrhu uspoređujemo tekstove? Ako samo trebamo znati jedinstvenost članaka među sobom, onda je odgovor jednostavan - kraći šindra, to su tekstovi jedinstveniji. Dopustite mi da objasnim: jedinstvenost, na primjer, 95% u koraku od 5 riječi, "jedinstvenija je" od istih 95% u koraku od 10 riječi. Drugim riječima: 97% jedinstvenosti s duljinom od 10 riječi približno je jednako 90% jedinstvenosti s duljinom od 5 riječi. A ako trebamo predvidjeti jedinstvenost istih tekstova sa stajališta pretraživača (nakon njihovog postavljanja i indeksiranja), onda nema točnog odgovora. Samo se jedno može nedvosmisleno reći: manje veličina šindre i što je veći postotak jedinstvenosti, tražilice će biti vjernije vašim člancima. Ovu bi točku trebali posebno uzeti u obzir oni koji su prvi put odlučili stvoriti vlastitu web stranicu i ispuniti je jedinstvenim sadržajem.

Postotak jedinstvenosti teksta i njegova veličina

I još jedna opaska. Što je izvorni članak kraći, to je teže postići visok postotak jedinstvenosti reproduciranih tekstova. I to je razumljivo, budući da postotak jedinstvenosti teksta jednak je omjeru broja usklađenih lanaca šindre prema ukupno lanci od šindre u članku. U kratkom tekstu ukupan je broj lanaca od šindre mali. U skladu s tim, stav će biti na gore. Također, prilikom pisanja seo tekstovi za ključne upite u kratkim člancima gustoća ključnih riječi neizbježno će biti veća. Praksa kopiranja članaka pokazuje da prisutnost 1-3 ključna izraza dulja od 3 riječi jako otežava dobivanje dobrog postotka jedinstvenosti teksta. Ovo pravilo posebno vrijedi za članke kraće od 2K znakova.

Metoda šindre koristi se u svim programima za reprodukciju članaka.

Program za umnožavanje članaka koristi CRC metodu kada koristi algoritam šindre, što vam omogućuje postizanje vrlo pristojne brzine usporedbe velikog broja umnoženih tekstova. To pak povećava brzinu generiranja teksta. Za referencu: CRC algoritam omogućuje vam rad ne sa samim nizovima šindre, već s njihovim kontrolnim zbrojevima, što prirodno povećava brzinu (usporedba brojeva je za red veličine brža od usporedbe nizova).

Čekamo vaše narudžbe za reprodukciju članaka i pisanje tekstova na našem resursu http: //www.site

Implementacija algoritma šindre omogućuje određivanje razine identiteta dva dokumenta. Zelenkov Yu. G. i Segalovich I.V. u svom radu " Usporedna analiza Metode za određivanje nejasnih duplikata za web dokumente ”detaljno je opisao princip algoritama za šindre različitih veličina za usporedbu web dokumenata.

Autori publikacije detaljno analiziraju tehniku utvrđivanja identiteta dokumenata. Nude verziju algoritma šindre koja koristi slučajni uzorak od 84 slučajne šindre iz raščlanjenog teksta.

Korištenje točno 84 vrijednosti kontrolnog zbira, nasumično odabranih, omogućuje prebacivanje algoritma na razinu algoritma superškrpe i megaskrpe, čiji je resursni kapacitet znatno manji.

Poznavanje algoritma za određivanje nejasnih duplikata pomoći će u izbjegavanju problema pri pisanju tekstova za. Mogu se razlikovati sljedeće faze kroz koje tekst prolazi kada se uspoređuje:

kanonizacija teksta;
cijepanje u šindru;
izračuni, putem statičkih funkcija, 84 raspršivača šindre;
slučajno uzorkovanje vrijednosti od 84 kontrolne sume;
usporedba i utvrđivanje rezultata.

Dovođenje izvornog teksta u jedan normalni oblik brisanjem svih pomoćnih jedinica teksta (prijedlozi, veznici, interpunkcijski znakovi, oznake itd.) Koje ne bi trebale biti uključene u usporedbu. Često se pretpostavlja i uklanjanje pridjeva, jer oni, kako je točno, nose emocionalno, a ne semantičko opterećenje.

Kanonizacija teksta također zahtijeva pretvaranje imenica u nominativ, jedninu, a ponekad - ostavljajući samo njihova korijenska značenja.

Nakon izvođenja svih ovih operacija dobiva se "čist" tekst, pogodan za usporedbu.

2. Razdvajanje teksta na šindru.

Šindre (s engleskog - ljestvice) zasebni su dijelovi teksta odabrani za usporedbu iz tijela članka, s određenim brojem riječi u svom nizu radi provjere jedinstvenosti.

Šindra može sadržavati bilo koji broj riječi - od 3 do 10. Što je šindra kraća, to će rezultat testa biti točniji. Prilikom dodjeljivanja veličine šindre od 3 riječi, ček koji je dao 100% jedinstvenost dokaz je izvornosti teksta, budući da se kombinacije riječi nalaze u gotovo svakom tekstu.

Usporedbeni tekstovi moraju biti podijeljeni u podrede (slijede jedna drugu) riječi, a duljina šindre mora biti određena kao 10 riječi. Takvo uzorkovanje se ne događa s kraja na kraj, već se preklapa-to osigurava da tražilica ne propusti niti jedan niz podniz.

Rezultirajući skupovi šindre, nakon što je svaki od tekstova podijeljen u podsljedove, jednaki su broju riječi u dokumentu minus duljina šindre (-10) plus jedna (+1).

3. Proračun raspršivanja šindre.

Načelo algoritma šindre temelji se na usporedbi nasumično odabranih kontrolnih zbroja šindre (podsljevova) dva dokumenta.

Bit algoritma je pronaći točan broj kontrolnih suma za usporedbu. Precijenjeni broj šindre negativno će utjecati na rezultat, budući da će se za usporedbu izvesti mnogo više operacija, što će smanjiti performanse.

Radi lakšeg snalaženja, tekst je predstavljen u obliku tablica sa skupom kontrolnih suma izračunatih za svaku šindru pomoću 84 statičke hash funkcije. Svih 84 retka (za svaki od dokumenata) karakterizira odgovarajući kontrolni zbroj.

Iz oba skupa nasumično se odabire 84 vrijednosti - za svaki od dokumenata - i uspoređuju se prema njihovim funkcijama kontrolne sume. Drugim riječima, za usporedbu tekstova bit će potrebne 84 operacije.

4. Slučajni uzorak od 84 vrijednosti kontrolne sume.

Da biste povećali performanse pri usporedbi elemenata svakog od 84 odabrana niza, morate nasumično uzorkovati kontrolne sume za svaki redak. Odabirom minimalne vrijednosti iz svakog retka na kraju će se dobiti skup najmanjih kontrolnih zbroja šindre za svaku od funkcija raspršivanja.

5. Dobivanje rezultata.

Usporedba svakog od 84 elementa oba dokumenta otkriva omjer istih vrijednosti, što omogućuje utvrđivanje razine identiteta ili jedinstvenosti svakog od tekstova.

Šindra

Šindra je ćelija, čestica, cigla - barem ako uzmemo značenja koja ova riječ ima u Engleski jezik odakle dolazi. U području promocije web stranice, šindra znači same čestice-cigle od kojih je tekst izgrađen, te je osnova za najpouzdaniju metodu provjere jedinstvenosti teksta. Šindra je u tom smislu izravno povezana s jezičnom analizom teksta, a kao metoda i koncept postoji od 1997. godine, kada je Andrei Broder, visoko rangirani zaposlenik Yahoo! ponudio za široku uporabu. Pomoću istraživanja teksta pomoću šindre možete točno odvojiti jedinstveni tekst od sinonimiziranog sadržaja. U današnje vrijeme, kada SEO optimizacija stječe profesionalnu razinu, pitanje šindre i rada s njima postalo je još aktualnije.

Priprema teksta

Šindra je mali dio teksta, koji se sastoji od nekoliko riječi, obrađen posebna tehnika za analizu. Ova tehnika - kanonizacija - sastoji se u tome što tekst olakšavaju sve riječi koje su beznačajne za značenje i gramatiku (veznici, prijedlozi, uzvici) i interpunkcijski znakovi. Uzmimo za primjer sljedeću frazu:

“Evo popisa veliki iznos gradova, a svaki ima kockarnice, postoji stotine ovih ilegalnih kockarnica ”, rekao je Medvedev.

Nakon kanonizacije to će izgledati ovako:

ovdje je popis ogromnog broja gradova od kojih svaki ima kockarnice, stotine ovih ilegalnih kockarnica rekao je Medvedev.

Kompilacija šindre

Druga faza rada s tekstom: izravan odabir šindre. Da biste to učinili, prije svega, morate odrediti duljinu šindre. Što je šindra manja, to je više posla i analiza je točnija. Minimalna šindra je tri riječi, maksimalna osam. Duža šindra često nema smisla jer u ovoj provjeri ima previše pogrešaka. Jedno od pravila za sastavljanje šindre je preklapanje, odnosno uz hvatanje barem jedne riječi iz prethodne šindre. To će vam omogućiti da pažljivo provjerite sve riječi.

Na primjer, prva šindra od tri riječi fraze izgledala bi ovako:

evo popisa ogromnih

A druga šindra može imati opcije:

popis ogromnog broja i ogromnog broja gradova

Prema ovom načelu, sve tekstualne šindre sastavljene su: preklapaju se, s jednakim brojem riječi u šindri.

Algoritam šindre

Zatim programer generira kontrolni zbroj teksta. Algoritam šindre uključuje usporedbu šindre dva različita teksta, utvrđivanje je li jedan od njih duplikat drugog. Vrlo je teško prevariti tražilice koje koriste programiranu metodu provjere šindre. Pronalaze slične dokumente i uspoređuju broj šibarskih šibica, jasno identificirajući nedostatak jedinstvenosti. Stoga je prilikom umnožavanja teksta potreban mukotrpan rad na sinonimizaciji, razrjeđivanju i strukturiranju teksta, zamjeni frazeoloških izraza, što će ga učiniti drugačijim od originala. No, rizik da ih tražilica uhvati u neoriginalnom tekstu nestaje samo ako se koriste doista jedinstveni članci.