Testare eficientă, eficientă, grațioasă. Evaluarea eficacității testelor de automatizare Teste în procesul de dezvoltare software

Refuzul de a testa este adesea asociat cu o atitudine critică față de acesta din partea lucrătorilor din publicitate (în special cei creativi), precum și cu economii. Bani si timpul. Testarea poate încetini lansarea campanie publicitara, și, prin urmare, produsul în sine. În același timp, este evident că, cu bugete mari, testarea ajută la evitarea greșelilor de milioane de dolari. Poate fi util și pentru micii agenți de publicitate cărora le este ușor să găsească teste simple și ieftine. Așa cum spun clasicii publicității, „testarea poate fi limitată sau chiar fără succes, dar va oferi totuși ceva de la care să construiți, după ce se poate ghida”.

Cercetătorii numără câteva mii de tipuri de teste. Nu există mai puține păreri despre utilitatea și corectitudinea efectuării anumitor teste.

Una dintre principalele întrebări ale cercetării evaluative Downgrade: „Ce anume să testez?” Aceiași clasici ai publicității au susținut că „efectul publicității (cu excepția publicității prin corespondență) este în mare măsură de nemăsurat... Agenții de publicitate, desigur, vor să fie capabili să dea socoteală, dar publicitatea de multe ori trebuie măsurată în mai modeste și moduri mai intangibile decât și-ar dori. Mi-e teamă că va trebui să ne înțelegem cu faptul că majoritatea reclamelor se vor putea plăti pe deplin numai după o perioadă lungă de timp, iar gradul de rentabilitate este imposibil de verificat cu vreo certitudine.”

Într-adevăr, este foarte dificil să identificăm factorul decisiv în relația dintre mesajul publicitar în sine și impactul acestuia (sau lipsa acestui impact) asupra unei persoane individuale. De exemplu, într-un studiu, un grup format din manageri de produs și manageri de publicitate ai firmelor, lideri ai grupurilor de lucru agentii de publicitate, profesioniști în creație, profesioniști în publicitate și profesioniști în cercetare, „au fost rugați să selecteze cele mai bune reclame dintre cele care au fost deja testate riguros pe piață. Rezultat? Deși experții au putut determina, în general, care reclame ar trebui să atragă cei mai mulți cititori, ei nu au putut determina care reclame au ajutat la vânzarea celui mai mare produs.” După cum am spus mai devreme, pe lângă publicitate, există prea mulți factori diferiți care afectează vânzările. Iar conform celor mai de încredere experți, „nu există metode de control rapid și necomplicat al numeroși factori care afectează vânzările”.

Potrivit lui C. Sandage, V. Freiburger și K. Rotzoll, „reacția este influențată de multe „motive” diferite, iar fiecare variabilă a stimulului generează multe „efecte”. Același anunț poate, de exemplu, să enerveze, să informeze, să distreze, să întărească încrederea, să inducă acțiune, poate fi complet ignorat în momentul contactului, iar ulterior poate fi uitat rapid sau parțial amintit, poate provoca și o schimbare de atitudine. sau conștientizare. Prin urmare, este destul de clar că pentru a decide ce parametri ai răspunsului să folosească, cercetătorul ar trebui să fie ghidat în mare măsură de bunul simț.”

Având în vedere cele de mai sus, pare clar că anunțul trebuie văzut (înainte de a se putea răspunde). După contactul cu publicitatea, persoana ar trebui, de asemenea, să știe marcă sau Numele companiei, înțelegeți proprietățile, avantajele și beneficiile produsului. Persoana poate dezvolta o dispoziție rațională sau emoțională de a cumpăra un anumit produs... La aceasta se poate adăuga și opinia conducerii unuia dintre cei mai mari agenți de publicitate din lume, General Motors: „Eficacitatea va fi măsurată în primul rând prin acuratețea, capacitatea de a folosi emoțiile și persuasivitatea reclamei”.

Răspunsurile umane specifice pot fi testate. În acest caz, ar trebui evaluați fie parametrii unici, fie un set minim, deoarece încercările de a analiza prea mulți parametri de publicitate activi simultan pot încurca rezultatele. În același timp, cu cât sunt testați mai mulți parametri în general, cu atât va fi mai precis. rezultat final... „Cu o analiză atentă a doar unul sau două aspecte periferice ale eficienței publicității, rezultatele testării acesteia pot părea prea sterile și nerealiste pentru cei care vor trebui să le folosească în procesul de luare a deciziilor. Dacă echivalează necritic gradul de memorabilitate și impactul sau schimbarea de atitudine și marketing, el rămâne cu ocazia de a se baza pe credința care nu oferă nicio garanție.”

Deci, pentru a verifica eficacitatea publicității finalizate sau aproape finalizate, se efectuează diverse studii sau teste evaluative. Acestea vă permit să economisiți bani prin ajustarea anunțului înainte ca fondurile de distribuție să fie finanțate. Astfel, testarea ajută la evitarea erorilor de mai multe milioane de dolari. De asemenea, studiile evaluative pot fi utile după plasarea reclamelor, de exemplu, atunci când se evaluează procesele de influență a reclamei asupra vânzărilor curente.

Cu toate acestea, din punctul de vedere al practicienilor, nu toate cercetările și nu au întotdeauna valoare. Uneori, ei nu numai că pot ajuta, ci și pot dăuna muncii. Intuiția practicienilor poate fi un instrument mai precis decât investigația științifică. Testele și rezultatele lor nu sunt soluții în sine, ele oferă doar practicienilor informații, folosirea cărora, împreună cu experiența empirică muncitor de publicitate, face posibilă luarea de decizii în cunoștință de cauză.

Acest capitol a acoperit diferitele tipuri de teste utilizate în publicitate, diferite metode de testare, criterii de testare și pași de testare. Au fost, de asemenea, luate în considerare caracteristicile testării de publicitate în diverse medii, pentru care sunt adesea folosite abordări diferite.

O atenție deosebită a fost acordată t styling (pretestare), deoarece crește probabilitatea de a pregăti cele mai eficiente texte înainte ca banii să fie cheltuiți pe publicitate.

Un alt tip de testare - post-testarea (sau testarea finală), la rândul său, nu are principalul dezavantaj inerent testării preliminare - o anumită cantitate de artificialitate. La testarea finală, comportamentul oamenilor nu este distorsionat, este natural, realist. În timpul testului final, sunt luați în considerare o serie de factori, care afectează serios și rezultatele. În primul rând, acestea sunt specificul mijloacelor de distribuție a reclamelor, timpul de plasare a reclamelor, frecvența prezentării acesteia către consumatori etc.

Dacă întregul mesaj publicitar, de regulă, este testat pentru capacitatea de a stimula vânzările, pentru persuasivitatea, recunoașterea și memorarea unui produs sau a unei mărci, atunci textul publicitar este de obicei testat doar pentru persuasivitate. În astfel de teste, atenția este acordată în primul rând înțelegerii titlului, sloganului, codurilor, cuvintelor cheie.

Astăzi primim noi instrumente de testare. De exemplu, titlurile, cuvintele cheie pot fi testate cu succes folosind un sistem de publicitate contextuală.

Fiecare metodă de evaluare are o combinație specifică de avantaje și dezavantaje, precum și costuri diferite. Un important și foarte simplu și, cel mai important, un mijloc ieftin de testare a eficienței texte publicitare sunt liste de verificare (liste de verificare cu întrebări).

Versiunea video a prelegerii " Testarea eficacității reclamei moderne"

(se pregatesc pentru publicare)

Informații mai detaliate despre acest subiect pot fi găsite în cartea lui A. Nazaykin

Erorile care conduc la o scădere a eficacității testului apar dacă:

Testul nu este scris corect
Testul este incorect standardizat
Test folosit greșit

Design de testare

În primul rând, este necesar să înțelegem clar proprietatea psihologică pe care o va măsura viitorul test. Niciun test nu este creat de la zero, de obicei este nevoie de mult timp pentru a-l crea. munca stiintifica privind studiul materialului tematic.

Înainte de constructorul testului psihologic cheltuieli sarcină dificilă- să reflecte pe deplin toate aspectele proprietății psihologice măsurate prin numărul minim de sarcini. Ultima condiție este unul dintre criteriile de eficacitate a testului. Asta nu înseamnă că chestionarul de personalitate al lui Cattell, care conține o jumătate de mie de întrebări, poate fi considerat ineficient. Cu un număr atât de mare de factori de personalitate măsurați (16), un astfel de număr de întrebări este optim. Același lucru este valabil și pentru testele de inteligență, motivație și alte arii mentale largi. Ar trebui să ne ferim de un chestionar, să zicem, despre dorința de risc, care conține 250 de întrebări.

Pe lângă aceste cerințe, testul trebuie să îndeplinească grup țintă către care este îndreptată. Sarcini de complexitate și accesibilitate adecvate pentru diferite grupe de vârstă, pentru persoanele cu diverse tulburări psihice, pentru reprezentanții diferitelor grupuri naționale și lingvistice. Dacă testul este oferit într-un alt grup de limbi sau țară, acesta trebuie adaptat.

La adaptare includ nu numai traducerea sarcinilor, ci și restructurarea sintagmelor, conceptelor, înlocuirea unităților frazeologice, a proverbelor și a proverbelor cu cele asemănătoare acestora într-o limbă dată. Semnificația întrebărilor ar trebui să fie transmisă ținând cont de opiniile religioase ale grupului.

De asemenea, este necesar să se țină cont de unele dintre efectele observate la umplerea cu oameni itemii de testare... Așa-numitul efect al dezirabilității sociale este declanșat atunci când o persoană în răspunsurile sale dorește să se prezinte în cea mai buna lumina... Multe teste sunt armate până în dinți.” cântare de minciuni„, întrebări-capcane etc. Dar acest lucru nu ajută întotdeauna - o persoană găsește aceleași întrebări, își păstrează răspunsurile în memorie.

Mai este un truc - înlocuirea țintei testului în instrucțiune dacă acest scop este deloc dezvăluit subiectului. Apoi, o persoană, răspunzând la întrebări, se arată bine pe o parte (scop fals) și oferă informații mai mult sau mai puțin sigure despre cealaltă parte (scop adevărat), care este de fapt măsurată prin acest test.

Există și cerințe pentru formularea întrebărilor, pentru ordinea plasării acestora în test. Din nou, acestea depind de grupul țintă pentru care este destinat testul.

Un test proiectat corect nu poate fi numit încă unul dezvoltat. Pentru aceasta, trebuie să fie standardizat.

Standardizare

Standardizarea testului face posibilă compararea datelor obținute cu acesta din oameni diferiti... Pentru aceasta, este necesar ca toți acești oameni să fie în condiții egale. În termeni psihologici, acest lucru se numește „controlul tuturor variabilelor dependente”. În mod ideal, singura variabilă independentă de pe test ar fi personalitatea subiectului. Pentru a asigura condiții de concurență echitabile, designerul testului va oferi îndrumări specifice despre cum să rulați testul. Acestea includ:

Specificitatea materialului stimul
Limite de timp
Instrucțiuni pentru subiecți
Exemple de sarcini
Răspunsuri acceptabile la întrebări (dacă sunt necesare restricții)

Pe lângă aceste indicații, ratele de răspuns special stabilite (în „puncte brute”) și interpretarea lor sunt incluse în anexa la test.

Pe lângă standardizare, testul trebuie validat pentru eficacitatea sa în raport cu criteriile de fiabilitate și validitate. De foarte multe ori aceste concepte sunt făcute interschimbabile, așa că să luăm în considerare ce semnificație are fiecare dintre ele.

Fiabilitate

Fiabilitatea se înțelege ca fiind consistența rezultatelor obținute la fiecare execuție repetată a testului de către același subiect, cu rezultatele primului său test. Nu există o fiabilitate absolută a testului, erorile sunt permise, dar cu cât sunt mai mari, cu atât eficiența testului este mai mică. Fiabilitatea poate fi verificată prin următoarele metode:

fiabilitatea test-retest presupune executarea multiplă a aceluiași test și compararea de corelație a rezultatelor.
fiabilitate partajată se determină prin împărțirea testului în două părți și compararea rezultatelor efectuării celor două părți separat.
fiabilitate echivalentă se dezvăluie prin prezentarea subiectului de testare și a versiunii sale alternative. Rezultatele obținute sunt, de asemenea, comparate între ele.

Valabilitate

Dicționarele psihologice relevă conceptul de validitate ca grad de conformitate a unui test cu scopul său de a măsura pentru ce a fost creat; capacitatea efectivă a testului de a măsura caracteristica psihologică pentru diagnosticul căreia se pretinde. Cantitativ, validitatea unui test poate fi exprimată prin corelarea rezultatelor obținute cu ajutorul acestuia cu alți indicatori, de exemplu, cu succesul activității corespunzătoare.

În plus, validitatea unui test poate fi stabilită prin compararea rezultatelor acestuia cu cele obținute prin metode similare. De exemplu, testul dezvoltat pentru inteligența verbală poate fi realizat împreună cu binecunoscutul test Amthauer, comparând apoi rezultatele acestora. O corelare mare a rezultatelor va însemna o valabilitate ridicată, ceea ce înseamnă că noul test măsoară cu adevărat inteligența verbală, și nu capacitatea de vorbire, memoria, atenția etc.

S-a spus mai sus despre erorile din etapa de utilizare a testului. Încălcarea condițiilor de implementare a acestuia, recomandate în anexe, poate duce la scăderea valabilității. Să presupunem că facem un test de memorare a cuvintelor și, văzând că subiectul este suficient de capabil, creștem viteza de citire a listei de cuvinte. În acest caz, creșterea vitezei va fi o variabilă suplimentară independentă, cu alte cuvinte, o piedică. Ca urmare, în loc de viteza de memorare, vom măsura rezistența la stres a individului.

Evaluarea validității unui test include următorii pași:

determinarea validitatii aparente(validitate nominală). Această validitate poate fi văzută, după cum se spune, „cu ochiul liber” - se evaluează conformitatea generală a testului cu scopul său.
definiția validității conceptuale(validitatea constructiei). Gradul în care un test care măsoară o proprietate este în concordanță cu conceptele teoretice general acceptate ale acelei proprietăți. De regulă, această validitate este evaluată de experți.
determinarea validitatii empirice(validitate empirică). Se selectează un criteriu (variabilă independentă) cu care să se asocieze rezultatele testului. De exemplu, criteriul pentru un test de pregătire școlară poate fi performanța generală a unui elev de clasa întâi.
determinarea validitatii continutului(Validitatea conținutului). Testul elaborat ar trebui să includă întrebări pentru evaluarea numărului maxim posibil de parametri ai proprietății pe care acest test îl măsoară (prima regulă pentru alcătuirea unui test a fost menționată mai sus - numărul maxim de parametri de proprietate prin numărul minim de sarcini). Această validitate este, de asemenea, evaluată folosind judecata experților.

Apropo, nu numai testele noi trec un astfel de examen. În prezent, mulți cercetători sunt ocupați să analizeze eficacitatea testelor deja cunoscute. Controverse recente pe paginile revistei de psihologie „Psychological Science in the Public Interest” a pus sub semnul întrebării eficacitatea unor astfel de „maeștri” ai instrumentelor de psihodiagnostic precum testul Rorschach pete de cerneală, TAT (testul de apercepție tematic) și testul proiectiv-desen al unui figură umană. S-a dovedit că aceste tehnici de psihodiagnostic au o valabilitate empirică scăzută, o fiabilitate scăzută a testului-retestare și indicatori normativi compilați incorect.

Metodele de mai sus pentru evaluarea eficacității testului îl ajută pe psiholog nu numai să proiecteze el însuși instrumente pentru măsurarea anumitor trăsături de personalitate, ci și să aleagă cele mai de înaltă calitate și de încredere dintre testele deja dezvoltate.

Complex psihologic Effecton Studio

Principala prioritate în crearea complexului Effecton Studio a fost includerea doar a metodelor bazate științific și informativ. În plus, oferim suport informativ pentru tehnicile psihologice utilizatorilor noștri, precum și vizitatorilor site-ului web și cititorilor buletinului informativ. Acordăm o atenție deosebită eficienței și ergonomiei muncii - după trecerea testelor psihologice ale Effecton Studio, utilizatorului i se oferă nu numai rezultate brute, ci și interpretarea acestora și sunt furnizate metode convenabile de testare de grup și analiză statistică.

Au fost dezvoltate, de asemenea, multe alte funcții, cu care vă recomandăm să vă familiarizați prin descărcarea unei versiuni demo de pe site-ul nostru web și comandând un complex pentru a fi utilizat în organizația dumneavoastră. De asemenea, puteți informa și alți utilizatori interesați despre complex, caz în care, veți primi 25% din valoarea tranzacției.

Olga Danilova.

Material exclusiv al site-ului „www .. Împrumutul de text și/sau materiale conexe este posibilă numai cu un link direct și clar vizibil către original. Toate drepturile rezervate.

Versiunea demo a complexului

V. V. Odintsova

Folosind numeroase tehnici de psihodiagnostic, rareori ne gândim la calitatea acestor instrumente de lucru. Și degeaba. La urma urmei, orice psiholog practicant știe că nicio examinare psihologică nu este posibilă fără instrumente bune de diagnostic.

În același timp, colecțiile populare de teste psihologice, publicate pe scară largă recent, din păcate, nu pot satisface cerințele unui adevărat profesionist, care trebuie să aibă încredere în capacitățile de diagnosticare ale instrumentului pe care îl folosește în munca sa. Asa de, rămâne relevantă problema găsirii unei tehnici de diagnostic bine dezvoltate și de încredere.

Sarcina principală a Human Technologies HR Laboratory este dezvoltarea de produse de calitate. Una dintre condițiile pentru crearea unor astfel de produse este verificările periodice ale metodelor de testare pentru conformitatea acestora cu o serie de cerințe psihometrice (validitate, fiabilitate, reprezentativitate, fiabilitate). Pentru a face acest lucru, după ce este setat un număr suficient de protocoale, analize statistice metode de testare.

Luați în considerare o analiză psihometrice (al cărei eșantion total a fost de 660 de persoane).

Acest test, dezvoltat în anii 90, este destinat diagnosticării exprese a nivelului de severitate a cinci așa-numiți factori „mari” de temperament și caracter și este folosit pentru a studia personalitatea adulților în scopul selecției profesionale, sfaturi profesionale, determinarea directiilor de asistenta psihologica, recrutarea grupurilor, autocunoasterea etc.

Baza universalității „Cinci factori mari” este situația lor transversală: factorii evaluării globale a activității funcționale a unei persoane sunt aplicabili în aproape orice situație de comportament social și activitate legată de obiecte, în care diferențele persistente între oameni sunt gasiti.

Chestionarul include 75 de itemi cu trei variante de răspuns fiecare.

CANTARE testele reprezintă o reproducere exactă a celor cinci mari factori în versiunea lor internațională (cu excepția celui de-al cincilea factor, care într-un număr de versiuni occidentale ale B5 este desemnat ca „deschidere către experiență nouă - caracter practic limitat”):

extraversiune - introversiune
consimțământ – independență
organizare – impulsivitate
stabilitate emoțională – anxietate
învățare – inerție

1. Verificarea valabilitatii

La verificarea scalelor existente în mod tradițional – prin calcularea corelațiilor dintre răspunsurile la întrebări și punctajul total pe scară – am constatat că aproape toți itemii sunt corelați semnificativ cu scalele „lor” cu un coeficient de corelație mediu de 0,35.

La verificare plin de înțeles validitatea testului, a fost analizată formularea itemilor testului, reflectând în mod semnificativ cele corespunzătoare domeniul subiectului(zona de comportament) și având o corelație semnificativă (pozitivă sau negativă) cu scorul total:

Scară	Exemple de elemente de testare	Coeficient de corelație
EXTRAVERSIUNEA	Este important pentru mine să-mi exprim părerea altora	(0,31)
	Îmi place să particip la tot felul de concursuri, concursuri etc.	(0,41)
	Îmi place să vizitez și să cunosc oameni noi.	(0,5)
ACORD	Majoritatea oamenilor nu pot fi de încredere	(-0,23)
	Interesele mele sunt mai presus de toate pentru mine	(-0,22)
	„Cel care ajută oamenii pierde timpul, fapte bune nu poți deveni celebru"	(-0,3)
	„Fiecare – pentru sine” – acesta este principiul care nu te va dezamăgi	(-0,4)
CONTROL DE SINE	Când mă culc, știu deja sigur ce voi face mâine.	(0,37)
	Luând o carte, o pun mereu la locul ei	(0,35)
	Înainte de problemele responsabile, întocmesc întotdeauna un plan pentru implementarea lor.	(0,37)
STABILITATE	Roșesc ușor	(-0,28)
	Dacă prind (a) apariția unei situații nedorite la locul de muncă, atunci acest lucru îmi provoacă întotdeauna o îndoială dureroasă până când situația este clarificată	(-0,3)
	La sfârșitul zilei, de obicei sunt atât de obosit încât fiecare lucru mic începe să se sperie.	(-0,32)
	Este ușor să-mi strici starea de spirit	(-0,42)

O analiză a formulărilor de mai sus indică o validitate substanțială destul de ridicată a testului.

2. Verificarea fiabilității

Fiabilitatea testului ca mijloc de măsurare este determinată de probabilitatea scăzută de erori în măsurarea scorurilor testelor și de măsura în care rezultatele măsurării sunt reproduse atunci când testul este utilizat în mod repetat în raport cu un anumit grup de subiecți. Pentru a evalua contribuția diferitelor surse la eroarea de măsurare, este necesar să se utilizeze diferite metode de evaluare a fiabilității. Un interes deosebit este evaluarea consistenței interne a testului; aceasta cauzează partea de eroare care este asociată cu selecția itemilor.

Consistența internă a testului a fost evaluată prin calcularea coeficientului alfa Cronbach. Acest coeficient este o evaluare a fiabilității bazată pe omogenitatea scalei sau suma corelațiilor dintre răspunsurile subiecților la întrebările din cadrul aceluiași formular de test.

În cazul nostru, coeficientul alfa de fiabilitate al lui Cronbach calculat pentru fiecare scală a arătat un nivel în general destul de decent de consistență internă, tradițional pentru chestionarele personale expres, în care subscalele conțin un număr limitat de itemi (mai puțin de 20):

Amintiți-vă că cerințele psihometrice stricte pentru un test de personalitate care funcționează eficient corespund valorii coeficienților alfa de peste 0,8.

În cazul nostru, nivelul relativ scăzut al valorii coeficienților de fiabilitate Cronbach poate fi explicat prin volumul semnificativ al acestor scale: fiecare scală are 15 întrebări diverse, ceea ce ne permite să extindem sfera factorilor studiați, sacrificând în același timp. timp un nivel ridicat de consistență internă.

Acest lucru a avut un efect deosebit de acut asupra scalelor factorilor „CONSENT” și „INSTRUIRE”, conform cărora coeficientul alfa s-a dovedit a fi sub 0,6.

3. Verificarea reprezentativității

În trecerea de la eșantionul de standardizare (Fig. 1 - 300 persoane) la eșantionul populației (Fig. 2 - 660 persoane), apare stabilitatea configurației distribuției punctelor de testare, ceea ce indică reprezentativitatea metoda de test:

Fig. 1. Eșantion de standardizare (300 de persoane)

Fig. 2. Eșantionul populației (660 persoane)

Pe lângă similitudinea vizuală a acestor distribuții, testul chi-pătrat Pearson pe care l-am folosit a arătat următorul grad de similitudine a distribuțiilor:

Aceste valori chi-pătrat se încadrează în intervalul de incertitudine: atunci când este imposibil să se accepte sau să respingă fără ambiguitate ipoteza despre consistența distribuțiilor.

Acest rezultat se poate datora proprietății principale a testului expres, și anume, numărul mic de întrebări care lucrează pe fiecare scală. Având în vedere acest fapt, rezultatele testului de reprezentativitate pot fi considerate satisfăcătoare.

4. Verificarea plauzibilității

Întrucât subiecții care au fost testați pe site se aflau în situația clientului (au fost interesați de rezultate de încredere), rezultatele obținute cu o mare probabilitate pot fi considerate de încredere.

Totuși, într-o situație de expertiză (când un terț este interesat de rezultatele testelor), datele pot fi distorsionate prin intervenția unor falsificări conștiente (minciuni, nesinceritatea subiectului) sau factori motivaționali inconștienți. Pentru a evita acest lucru, versiunea concepută pentru astfel de cazuri (B5splus) a fost adăugată o scară de minciună (momentan această versiune este testată pe site-ul nostru).

Rezultatele obținute sunt dovada calității și eficacității înalte a metodologiei, ceea ce este important, deoarece nivelul profesional al unui specialist este adesea determinat de instrumentul pe care îl folosește.

Cu toate acestea, trebuie amintit că chiar și un puternic instrument modern nu garantează absența completă a erorilor. Pentru a le evita, nu este suficient să ai un computer și un program de testare pentru acesta. Un psiholog cu experiență este, de asemenea, necesar pentru a supraveghea testul. Așadar, prezența unor teste care au suferit o adaptare psihommetrică serioasă nu anulează deloc profesionalismul și experiența unui psiholog, care este chemat să verifice plauzibilitatea rezultatelor testelor folosind surse paralele de informații (inclusiv propria sa observație, conversație etc. ).

A fost relevantă de mulți ani; o mulțime de studii au fost dedicate acestei probleme. În acest articol, vom lua în considerare procesul de implementare a KPI-urilor și metodologia de evaluare a calității muncii noastre folosind un proiect real ca exemplu.

Ce sunt KPI-urile?

Deci, mai întâi, să ne întoarcem la însuși conceptul de KPI. KPI (Key Performance Indicator) este un indicator al succesului într-o anumită activitate sau în atingerea anumitor obiective. Putem spune că KPI este un indicator măsurabil cantitativ al rezultatelor efectiv atinse.

În cazul nostru, KPI-ul proiectului este un indicator al eficacității întregii echipe de testare. Pe lângă termenul KPI, articolul va folosi și termenul „metrics”, prin care înțelegem o valoare numerică pentru a măsura această eficiență.

De ce avem nevoie de KPI-uri?

Acum să vorbim despre motivul pentru care am avut nevoie de KPI-uri în proiect și de ce am decis să le implementăm. Totul este simplu aici: ne-am dorit să vedem în orice moment starea proiectului și să luăm măsuri preventive pentru a evita problemele. Mulțumită Manager KPI direcțiile de testare pe proiect nu numai că vede puternice și puncte slabe proiectul și întreaga sa echipă, dar poate urmări în dinamică și consecințele propriilor decizii de management (ce a fost făcut corect, care dintre deciziile luate au avut succes sau nereușit), iar pe viitor - să le corecteze.

În plus, KPI-urile pot include nu numai indicatori cantitativi general acceptați, ci și indicatori calitativi (de exemplu, „nivelul de satisfacție a clienților”). Dar să vorbim despre totul în ordine!

De unde să obțineți KPI-uri?

Fiecare proiect este unic din multe puncte de vedere. Nu presupuneți că valorile dintr-un proiect vor „prinde bine” în altul; acestea ar trebui dezvoltate ținând cont de specificul proiectului și de așteptările/preocupările clientului dumneavoastră. Dar transformarea așteptărilor în valori necesită timp și răbdare.

Cum a fost la noi

Acum, așa cum am promis, voi vorbi despre acțiunile noastre în cadrul proiectului.

Așadar, echipa mea a testat software-ul intern al clientului, format din mai multe blocuri funcționale mari, precum și integrarea software cu sisteme de stocare back-office.
Voi clarifica imediat că prin client în articol mă refer la orice persoană interesată să testeze un produs și care se străduiește să se asigure că produsul răspunde nevoilor utilizatorilor finali și intră în exploatare comercială.

Clientul a venit la noi cu niște așteptări specifice de la testare, cu propriul său scop. În această etapă, sarcina mea ca șef al departamentului de testare al proiectului a fost să identific aceste obiective și așteptări. Există multe opțiuni pentru o astfel de analiză - sondaje, completarea de briefs, comunicare orală. Cel mai important lucru este să aflați ce își dorește clientul, de ce este îngrijorat și ce îl „rănește”.

Să dăm exemple de formulări ale clientului: „Entitățile nu” ajung „de la un modul de program la altul, dar sunt necesare acolo, se leagă multe de ele”; „Nu putem transfera informații din programul vechi în versiunea nouă”; „Plănuim pe deplin să trecem de la un sistem la altul, așa că vom ajusta transferul”.

După ce ne-am format așteptările (sau temerile) clientului nostru, trebuie să le transformăm într-un scop. Este ușor de ghicit că scopul testării noastre a fost de a efectua evaluare integrată calitatea produsului prin integrare și testare funcțională software client.

Acum trebuia să realizăm procesul de descompunere, adică împărțirea obiectivului global în sarcini mici rezolvabile pentru echipa de proiect. Apropo, echipa însăși m-a ajutat cu asta! Să vedem cum s-a întâmplat asta, dar mai întâi, să clarificăm din nou termenul „descompunere”, punând totul pe rafturi.

Descompunere

Ce este descompunerea? Descompunerea este metodă științifică, care folosește structura problemei și vă permite să înlocuiți soluția unei probleme mari cu rezolvarea unei serii de subsarcini mai mici, deși interdependente, dar mai simple. Principiul de descompunere este că aplicația testată (modulul său separat sau funcțional) poate fi considerată ca fiind formată din subsisteme relativ independente, fiecare dintre acestea fiind mult mai ușor și mai ușor de înțeles de testat decât întregul sistem simultan.

Dacă clientul dorește să primească teste de integrare, atunci trebuie să descompunem testarea funcțională de integrare a produsului. Pentru a face acest lucru, este necesar să înțelegem din ce părți constau sistemele clientului, câte sisteme în general sunt implicate în schimbul de date, ce acțiuni și peste ce obiecte pot efectua utilizatorii sistemelor etc.

În teorie, totul este destul de simplu și clar: dintr-o problemă mare, trebuie să obțineți un număr de altele mici. Ar părea nimic complicat, dar în practică întâlnim adesea faptul că pur și simplu nu înțelegem criteriile de descompunere a problemei și, prin urmare, facem totul la întâmplare. Consecințele unei astfel de neînțelegeri sunt volumul de lucru neuniform al testatorilor de proiecte, estimări incorecte ale costurilor cu forța de muncă, înțelegerea incorectă a sarcinilor și o idee diferită a rezultatelor. Pentru o mai bună înțelegere a acestui subiect, să trecem la principiul SMART.

Principiul SMART

În general, SMART este o abreviere mnemonică folosită de managerii de la diferite niveluri pentru a memora principiile stabilirii obiectivelor. Fiecare literă a abrevierei are propria sa interpretare:

S pecific - specific. Când stabilim o sarcină, trebuie să înțelegem clar ce rezultat dorim să obținem. Rezultatul ar trebui să fie clar și ușor de înțeles pentru toți participanții la proces - angajații echipei de testare, clienții, managerii de diferite niveluri.
Măsurabil - măsurabil. Avem nevoie de sarcini care pot fi măsurate. Cu alte cuvinte, măsurabilitatea presupune prezența unor criterii – indicatori, indicatori de performanță.
Un realizabil este realizabil. În acest caz, aș redenumi definiția „realizabil” în „accesibil” (disponibil pentru implementare de către un angajat cu un anumit nivel de pregătire și calificare). Un lider competent nu va oferi niciodată unui începător o sarcină extrem de dificilă, deoarece înțelege că un începător pur și simplu nu poate face față acesteia, iar timpul petrecut încercând să o rezolve nu poate fi returnat. Luarea în considerare a caracteristicilor și calităților personale ale angajaților echipei de testare din proiect va permite foarte clar (și cel mai important - uniform și fezabil) să se distribuie încărcătura, să le ofere începătorilor sarcini simple și „vedete” și profesioniști - sarcini complexe. logica în conformitate cu punctele forte și abilitățile lor.
Relevant - relevant, semnificativ. Îndeplinirea unei sarcini este într-adevăr atât de importantă pentru noi? Este această sarcină necesară chiar acum? Ce vom obține dacă rezolvăm această problemă? Și dacă nu ne hotărâm?
Limitat în timp - limitat în timp. Orice sarcină trebuie să aibă propriul termen limită în care trebuie rezolvată. Setarea intervalelor de timp și a limitelor pentru finalizarea unei sarcini vă permite să faceți procesul controlabil și transparent. Managerul poate vedea în orice moment progresul sarcinii.

Deci, acum cititorul are o înțelegere a criteriilor care pot fi utilizate pentru a descompune o problemă mare. Putem merge mai departe.

După ce o sarcină mare este împărțită într-un număr de sarcini mici, trebuie să analizați fiecare subsarcină. Să le evidențiem. Așadar, în proiectul nostru, au apărut următorul set de acțiuni:

Acoperim prin teste toate funcționalitățile principale implicate în integrare;
dezvoltăm entități și date de testare;
testăm sarcini pentru a îmbunătăți funcționalitatea;
începem defectele găsite în timpul testării;
verificarea lansărilor și remedierilor fierbinți;
Ne asigurăm că pe fiecare nouă versiune a produsului, este posibil să transferăm două produse prioritare de la un sistem la altul.

Pe lângă aceste subsarcini principale, am mai identificat câteva altele suplimentare:

nu vrem să pierdem timpul explicând dezvoltatorilor „care este bug-ul aici și cum poate fi reprodus”, și prin urmare vom crea defecte competente și de înțeles;
munca noastră de testare ar trebui să fie cât mai transparentă posibil, astfel încât vom oferi clientului un statut intermediar în funcție de starea versiunii;
dorim ca clientul să lucreze cu noi cu plăcere, iar data viitoare va apela din nou la noi.

Acum să parcurgem împreună fiecare subsarcină și să analizăm valorile măsurabile.

Metrici care alcătuiesc KPI-urile

Acoperire funcțională cu teste. Cum îl putem măsura? Ne-am stabilit pe metrica „% acoperire xx din numărul de module de produse prin teste” (pentru mai multe informații despre cum se calculează acest lucru, vezi articolul Nataliei Rukol).

Făcând clic pe imagine, se va deschide versiunea completă.

Dezvoltarea cazurilor de testare și a entităților de testare. Aici am decis să lucrăm cu metrica „numărul de module / blocuri funcționale ale produsului pentru care au fost dezvoltate 100% din entități”.

Testarea modificărilor clienților.În acest caz, am numărat pur și simplu numărul de revizuiri testate per versiune și timpul mediu necesar echipei pentru a le revizui. Am colectat acești indicatori pentru a evalua spre ce a vizat versiunea (remedierea erorilor sau introducerea de noi funcționalități pentru clienți) și, prin urmare, dacă respectăm termenele limită pentru implementarea anumitor funcții.

„Stabilirea defectelor”. Am decis să folosim mai multe metrici care să ne ofere informații despre starea versiunii: „numărul de defecte introduse de echipă”, „numărul de defecte ale priorității Blocker pe versiune”.

„Versiuni de testare și remedieri fierbinți” am rezolvat prin metrici „% din sarcinile testate incluse în lansare și/sau remedierea la cald” (raportul dintre sarcinile testate și numărul total de sarcini din versiune), „% din cazurile de testare trecute pe versiuni” și „% din succes în cazuri trecătoare pe versiuni”.
Calculăm ultima măsurătoare cu formula:

unde P1 - pașii trecuți pe primul bloc,
P2 - pași trecuți pe al doilea bloc,
Pn - pași trecuți pe al n-lea bloc,
A1 - numărul de pași din primul bloc,
A2 - numărul de pași din al doilea bloc,
An este numărul de pași ai blocului al n-a,
N este numărul total al tuturor blocurilor de produse.

Pentru a măsura problema legată de starea de sănătate a produselor prioritare, am dezvoltat special o matrice (a notat dacă aceasta sau acea valoare pentru produs funcționează sau nu) și apoi am calculat „% din valorile care funcționează pentru produsul 1 și produsul 2 pe versiune." Calculăm după formula:

unde Pп1 este numărul de valori de lucru pentru produsul unu,
Ap1 - toate valorile pentru produs sunt aceleași.

Făcând clic pe imagine, se va deschide versiunea completă.

După ce ne-am ocupat de sarcinile principale, am trecut la altele suplimentare.

Permiteți-mi să vă reamintesc că nu am vrut să petrecem timp prețios explicând erori și comentând rapoarte, dar, în același timp, a fost important pentru noi ca clientul să fie mulțumit de munca noastră. Astfel, pentru prima subsarcină, am decis să folosim indicatorii cantitativi „% de defecte respinse pe versiunea cu rezoluția Nu se poate reproduce”, iar pentru a doua - „numărul de solicitări ale clienților de a comenta raportul intermediar” și indicatorul calitativ „satisfacția clientului față de munca noastră”.
Pentru a evalua „satisfacția clientului”, am introdus trei niveluri - „totul este excelent”, „sunt mici comentarii/întrebări despre muncă” și „totul este rău, clientul este nemulțumit”. Acest indicator, de altfel, ajută în general foarte mult la luarea rapidă a deciziilor în cadrul echipei de proiect. În cazul în care clientul este nemulțumit sau supărat de ceva, noi „fierbinți pe urmă” conducem o discuție: încercăm să minimizăm riscurile, să înțelegem motivele nemulțumirii, să găsim soluția cât mai curând posibil și să o prezentăm clientului.

Făcând clic pe imagine, se va deschide versiunea completă.

Ce ne oferă KPI-urile până la urmă

Pregătirea unui KPI pentru un proiect este o procedură costisitoare, dar interesantă și utilă și iată de ce.
Prin colectarea valorilor de mai sus, pot obține răspunsuri la întrebările: ce anume a făcut bine echipa mea, după ce indicatori am crescut, am fost decizii de management... În orice moment, pot răspunde clientului la următoarele întrebări:

care este starea versiunii;
care module ale produsului sunt cele mai critice și mai greșite;
căror module ar trebui să li se acorde o atenție deosebită;
ce valori funcționează pentru produsele prioritare;
dacă este posibil să se dea produsul pentru uz industrial.

După implementarea metricilor pe proiectul meu, a devenit mai ușor să pregătesc raportări intermediare pentru client, întreaga echipă de proiect (și băieții au acces la KPI-ul proiectului) a făcut toate eforturile pentru a ne dezvolta software-ul
indicatori, toată lumea a devenit mai atentă și mai concentrată!

În loc de o concluzie

În „Laboratorul de calitate” am mers puțin mai departe și, totuși, am decis să colectăm o bază de metrici care sunt aplicabile proiectelor noastre. Nu, nu spun că poți lua material gata făcut și să lucrezi cu el, dar fiecare manager care se confruntă cu tema implementării KPI-urilor pe proiectul său se poate referi la această bază de date, vezi metrica din care sunt colectați KPI-uri pe alte proiecte și adaptați aceste valori pentru a se potrivi nevoilor dvs. Am pregătit și regulamente interne (un fel de instrucțiune pentru implementarea KPI-urilor pe proiecte), cu ajutorul cărora acest proces decurge fără probleme și fără durere.

Nu vă fie teamă să vă faceți timp să vă pregătiți și Implementarea KPI asupra proiectului: aceste costuri se vor amortiza pe deplin! Clientul dumneavoastră va fi mulțumit de munca efectuată și de calitatea excelentă a produsului. El va apela la tine pentru ajutor din nou și din nou!

V anul trecut testarea automatizată a devenit o tendință în dezvoltarea de software, într-un sens, implementarea sa a devenit un „tribut adus modei”. Cu toate acestea, implementarea și întreținerea testelor automate este o procedură care necesită foarte mult resurse și, prin urmare, nu este ieftină. Utilizarea pe scară largă a acestui instrument duce cel mai adesea la pierderi financiare semnificative fără niciun rezultat semnificativ.

Cum puteți folosi un instrument destul de simplu pentru a evalua posibila eficiență a utilizării autotestelor pe un proiect?

Ce este definit ca „eficacitatea” automatizării testelor?

Cel mai comun mod de a evalua eficiența (în primul rând economic) este calculul randamentului investiției(ROI). Se calculează destul de simplu, fiind raportul dintre profit și costuri. De îndată ce valoarea ROI trece peste unu, soluția returnează fondurile investite în ea și începe să aducă altele noi.

În cazul automatizării, profit înseamnă economisirea testării manuale... În plus, profitul în acest caz poate să nu fie evident - de exemplu, rezultatele găsirii defectelor în procesul de testare ad-hoc de către ingineri, al căror timp a fost eliberat din cauza automatizării. Un astfel de profit este destul de dificil de calculat, așa că puteți fie să faceți o presupunere (de exemplu + 10%), fie să o omiteți.

Cu toate acestea, economiile nu sunt întotdeauna scopul implementării automatizării. Un exemplu este viteza de executare a testului(atât în ceea ce privește viteza de execuție a unui test, cât și în ceea ce privește frecvența testării). Din mai multe motive, viteza de testare poate fi critică pentru o afacere - dacă investiția în automatizare plătește profiturile rezultate.

Alt exemplu - o exceptie " factorul uman» din procesul de testare a sistemului. Acest lucru este important atunci când acuratețea și corectitudinea operațiunilor sunt esențiale pentru afacere. Costul unei astfel de erori poate fi semnificativ mai mare decât costul dezvoltării și menținerii unui autotest.

De ce să măsori performanța?

Măsurarea eficienței ajută la răspunsul la întrebările: „Merită implementarea automatizării pe proiect?”, „Când ne va aduce implementarea un rezultat semnificativ?” „Câte ore de testare manuală vom înlocui?”? si etc.

Aceste calcule pot ajuta la formularea obiectivelor (sau a valorilor) pentru echipa de automatizare a testelor. De exemplu, economisind X ore pe lună de testare manuală, reducând costul unei echipe de testare cu Y unități convenționale.