Lucrul cu mega-blast și fasta

  1. Determinarea ARN-ului de transport care a participat la adăugarea celui de-al patrulea reziduu de aminoacizi la lanțul proteic în creștere AAT_ECOLI.

Al patrulea reziduu al lanțului de aspartat aminotransferază al E. coli este asparagina. care este ușor de determinat prin analizarea secvenței. Trebuie remarcat faptul că în cazul nostru sunt posibile două opțiuni: ignorați prima metionină sau acordați atenție calculului (se știe că codonul de start AU (T) G # 150; simultan codonul pentru metionină). Dar din moment ce nu știm despre încărcătura funcțională a unui rest dat (indiferent dacă este separat post-translational sau necesar pentru a efectua orice funcție), este decis să numărăm, începând cu acesta. În plus, toate studiile anterioare au luat în considerare prima metionină.

Într-unul din documente. conținând informații despre gena care codifică AAT_ECOLI, a găsit codonul corespunzător. Acesta este codonul 5'-AAC -3 '(în continuare, polaritatea lanțurilor atunci când codonii sunt scrise în mod implicit de la capătul 5' la 3 '). Folosind tabelul codului genetic standard. a aflat că asparagina poate fi codificată nu numai de un astfel de triplet, ci și de tripletul AAU (T). Cu alte cuvinte, a treia poziție a codonului este degenerată în acest caz, ca în majoritatea celorlalte.

Analizând datele, putem spune că, în primul rând, „anticodon perfectă“ ARNt care ar putea fi implicate în aderarea la lanțul asparagina AAT_ECOLI în sinteza, # 150; GUU. Este clar că prima poziție este degenerată. În al doilea rând, pentru asparagină în mod ipotetic E. coli ar trebui să aibă două ARNt isoacceptor: Verificați AAC codon prin intermediul anticodon AAU GUU și localizate prin AUU. Cu toate acestea, știm că celula nu este de fapt tipul de ARNt este la fel de mult posibil codoni semantice și mai puțin. Pentru a afla dacă acest lucru este confirmat, în cazul nostru, am apelat la EMBL.

Folosind comanda UNIX, grepul a fost găsit în documentul EMBL, care conține informații despre genomul complet al E. coli. acele linii care includ numele de asparagină și se referă la descrierea tARN. Comanda (împreună cu redirecționarea stdout la conducte) pentru a căuta înregistrări despre asparagină t-ARN arata astfel:
codul grep. * asparagine ecoli.embl | mai mult

Ca rezultat, am găsit patru înregistrări (a se vedea ultimul rând din Tabelul 1). Din toate cele 4 cazuri găsite. Anticodonul se potrivește absolut (identic cu cel "ideal"), dar codonul recunoscut de acest tARN # 150; AAY # 150; "include" doi codoni: AAT și AAC (de la Y # 150; acceptarea desemnării pirimidinelor, pirmidine), adică în cazul nostru este adecvat un astfel de tARN, dar recunoaște corect codonul AAT. Astfel, am fost convins că t-ARN-ul aspartic în E. coli "unul pentru toate ocaziile" și nu două # 150; unul pentru fiecare codon posibil, după cum se presupune.

TARN-ul aspartic al E. coli este același, dar este codificat în genomul de patru ori. Toate cele patru gene sunt identice. care a fost stabilită prin construirea alinierii multiple a secvențelor extrase prin comanda seqret de la genomul complet. Prin urmare, pentru o cercetare ulterioară, alegerea sa făcut arbitrar.

Rezultatele tuturor studiilor efectuate sunt prezentate în Tabelul 1.

Tabelul 1. Rezultatele determinării asparaginei-tARN

Căutați asparagină-ARN: teorie și practică

Reziduu de aminoacid în poziția a patra a proteinei AAT_ECOLI

* Notă1: poate fi egală cu 12, starea lucrurilor de la acest lucru nu se schimbă (cel puțin în cazul nostru).

** Nota 2: Lungimea și coordonatele aliniamentului în sine sunt date. ca o descoperire, o secvență mai lungă (180 np coordonate 11440-11620) cu o porțiune centrală din care se face alinierea tRNA studiat.

*** Nota 3: Este ușor de observat că lungimea totală a tuturor mici zone de aliniamente bune mai mult de două ori lungimea secvenței asparagină-ARNt! Aceasta înseamnă că rezultatele sunt neregulate. În plus, acest fapt reflectă BLASTN algoritmul de operare. Se înțelege că coincidența lungimii armăturii 11 nucleotide (prelevate din orice porțiune a secvențelor noastre ARNt, deoarece fișierul index include diverse lungimi de ancorare 11) cu un segment al alinierii bacillus genomului fânului a continuat în ambele sensuri, până când a rupt, iar aceste rezultate fragmentare ne conduc . Confirmarea poate servi ca lungimea secțiunilor de aliniamente: nu mai scurte de 11 nucleotide. Cel puțin # 150; 12: aceasta poate însemna că acele aliniamente în care doar ancora au coincis și nu au existat coincidențe în dreapta sau în stânga, nu sunt încă enumerate. Nu depinde de valoarea e: când utilizați parametrul -e și setați valoarea e la 50, obțineți un rezultat nou. unde parcelele sunt chiar mai mari, dar între ele nu există nici o aliniere a lungimii 11.

Comenzile UNIX care au fost utilizate în căutare:

  1. Cu FASTA

Părea mai convenabil să nu intre o parte din parametri, o dată, o parte # 150; Apoi, un program pentru a răspunde la întrebări cu privire la valorile diverșilor parametri (lungimea ancorei, numărul de rezultate și aliniamente demonstrat, etc ..). Cu toate acestea numai în stadiul de comenzi de scriere poate fi văzut una dintre diferențele de la FASTA descrise mai jos BLASTN și MEGABLAST: pentru acesta din urmă are nevoie de fișierul index, și FASTA face fără el, cere ca o bază pentru a căuta fișier direct-FASTA cu genomului.

  • Utilizând BLASTN

    blastall -p blastn -d bs -i tRNA.fasta -o blastn.txt

    Aici tRNA.fasta și blastn.txt # 150; Numele fișierelor cu secvența de căutare și respectiv fișierul cu rezultatele căutării. și bs # 150; numele de bază al fișierelor index.

  • Cu ajutorul MegaBLAST.

    megablast -d bs -i tRNA.fasta -o megablast.txt -D 2

    În comparație cu comanda pentru căutare BLASTN, a fost adăugată numai opțiunea -D. Cu valori diferite (de la 1 la 4), numele fișierului cu rezultatele căutării se modifică. Valoarea 2 a fost aleasă deoarece corespunde unui format familial de ieșire (format BLAST). De fapt, în absența oricăror rezultate, nu contează ce format să aleagă. Cu toate acestea, toate variantele valorii -D au fost încercate și au fost luate în considerare formatele corespunzătoare. Din păcate, în această căutare nu sa găsit nimic și o comparație completă a formatelor este imposibilă.

    În plus, valoarea L a parametrului -F # 150; zonele de filtrare de complexitate scăzută, cunoscute de noi în lucrul cu funcția BLASTP. Cu toate acestea, din același motiv (fără "lovituri"), nu se pot face distincții.

  • Cu ajutorul MegaBlast discontinuu

    megablast -t 16-W11-N1-i tRNA.fasta -o dis16_1.fasta -D 2

    Comparația dintre comenzile care rulează versiunea obișnuită a MegaBlast și MegaBlast discontinuă arată că ele diferă doar prin parametri, dintre care pentru al doilea există și alte (speciale). Acesta este -t ​​și -N. Primul specifică "șablon de cuvânt discontinu" # 150; lungimea modelului (mai precis, unul dintre cele trei modele de modele cu lungimi diferite). Este clar că cu cât această lungime este mai mică, cu atât este mai sensibilă căutarea. În alt caz, acest lucru ar fi util, dar ideea de MegaBlast discontinuă (și Mega_Blast în general) nu se potrivește. Pentru aceste programe, sensibilitatea nu este importantă, viteza este importantă. Reducerea lungimii modelului poate duce la creșterea numărului de rezultate nedorite (nesemnificative). Cu toate acestea, în cazul nostru, oricare dintre cele trei valori posibile -t (16, 18, 21) este aleasă, rezultatele rămân la fel de inconfortabile. Acest lucru, din păcate, împiedică să ia în considerare diferențele în căutarea unor modele diferite în practică.

    Parametrul -N specifică tipul de model (codare, codificare sau ambele) Deoarece secvența noastră de codificare nu este, am ales a doua opțiune (valoarea parametrului 1). Atunci când se utilizează un astfel de model, MegaBlast caută cel mai adesea poziția de mijloc a tripletului, și nu pentru primele două, ca în cazul unei poziții de codare, neglijare, degenerată. În plus, pentru versiunea discontinuă a MegaBlast, o anumită lungime a ancorei # 150; 11 sau 12 nucleotide (valoarea parametrului -W). Am ales prima valoare, deși cu cea de-a doua, rezultatele nu se schimbă.

  • Discuție. Compararea eficacității diferitelor programe de căutare a secvențelor nucleotidice.

    Rezultatele acestei căutări sunt dezamăgitoare. Desigur, primul lucru care poate fi propus pentru rolul de omolog pentru t-ARN-ul aspartic al unui organism # 150; aspartic t-ARN al unui alt organism. Cu toate acestea, singura descoperire semnificativă (pe care FASTA ne-a oferit-o) # 150; acesta este tRNA izoleucină. Restul programelor nu au găsit nimic (variante MegaBlast), sau au găsit secvențe mici de secvențe nesemnificative de secvențe împrăștiate în genomul (BLASTN). Să luăm în considerare fiecare program separat, apoi să comparăm și să alegem cel mai eficient pentru căutarea secvențelor omoloage care nu codifică.

    Deci, FASTA. Acest program a fost cel mai sensibil dintre toate. Numai cu ajutorul lui a fost posibil să se găsească o secvență concretă semnificativă. Deși există punct de neînțeles: în loc de numai plumb aliniere, sau cel puțin gena care este conținută în porțiunea găsită, conduce, de asemenea, porțiuni adiacente ale secvențelor (cum ar fi gene si toate unannotated) găsește în creștere rezoluție. Explicația acestui fenomen este greu de găsit, chiar și introducerea unui mecanism de lucru FASTA. Prin urmare, descrierea va lua în considerare doar secvența genei în care se află în mod direct de aliniere. Din păcate, această secvență codifică ARN-ul izoleucinei. Imediat ridică mai multe întrebări: dacă omoloaga de o descoperire, și omologi de ce nu ar trebui găsit # 150; asparagină-tARN fân bacil? Este dificil să răspundem la prima întrebare: nu știm încă cum să verificăm omologia secvențelor necodificatoare, cu excepția alinierii.

    Găsim cu ajutorul acelorași comenzi UNIX grep și seqret în documentul cu genomul B. subtilis complet, genele care codifică asparagina-tARN. Acestea sunt patru secvențe similare. Facem aliniere cu tARN-ul nostru (vezi aici). Secvențele sunt destul de aproape, de ce nu au găsit FASTA? Pentru a-și verifica capacitatea (sau incapacitatea) de a le găsi, să facem experimentul: vom compila o bază de mini-căutare din toate secvențele pentru asparagină-tRNA B.subtilis. gena izoleucină-ARN și gena "lungă" (inclusiv situsurile genei adiacente) ale constatării FASTA. Să ne căutăm consecvența. Rezultatele sunt neașteptate # 150; Toate tARN-urile aspartice se găsesc și izoleucina prea! Prin urmare, FASTA este pe deplin capabilă să găsească omoloage cu mici secvențe non-codificatoare. dar în baze de date mici (alte diferențe, cu excepția dimensiunii dintre cele două baze de date nu a fost). Pentru a verifica această ipoteză, căutați ARN-aspartic extras din genomul propriu-zis în genomul B. subtilis. Rezultatul este foarte interesant: secvența dorită nu este găsită, deși este cu siguranță în genom. Cel mai bun găsit # 150; din nou, tRNA de izoleucină (posibil, este într-adevăr un omolog al bacilului intestinal și a fânului de fân aspartic-tARN). Singurul lucru care poate fi oferit pentru o explicație, cunoscând mecanismul FASTA # 150; acesta este un număr mic de "ancore cârligate" pe diagonala dreaptă, care, prin urmare, nu este luată în considerare. Cu toate acestea, de ce aceste ancore pot fi mici, nu este foarte clar.

    BLASTN nu sa confruntat deloc cu sarcina. O mulțime de aliniamente scurte sunt găsite un pic mai mult decât ancora. Este clar că un astfel de rezultat nu are nicio valoare. BLASTN este adecvată pentru căutarea secvențelor necodificatoare, dar nu secvențe omologe, dar identice (sau aproape identice). Nu există niciunul pentru asparagin-tARN în genomul B. subtilis. Pentru a vă asigura că BLAST nu poate găsi, în principiu, bacilul de fân asparagină-tRNA, să aruncăm o privire la alinierea menționată mai sus. Printre regiunile care coincid, nu există nici una cu o lungime egală sau mai mare de 11. Este clar că lungimea de ancorare 11 nu poate fi atașată aici.

    Și chiar mai mult, angajează MegaBlast. constând din 28 de nucleotide. Se pare că, în secvențe comparabile (tARN și genom), nu există astfel de secțiuni coincide cu întindere lungă. Prin urmare, MegaBlast nu a găsit nimic și este îndoielnic că ar putea să o găsească. La urma urmei, în această situație, se potrivește chiar mai puțin decât BLASTN, deoarece a fost inițial creat pentru a căuta copii exacte ale secvențelor și chiar nu are o matrice primitivă de substituții.

    În versiunea MegaBlast discontinuă a acestei matrice este, de asemenea, acolo, dar ancora este motorul mai mic și ușor diferite de căutare (sunt utilizate modele, care permite nu verifica fiecare rest pentru asemănări, ceea ce face mai rapid). Faptul că o astfel de MegaBlast nu a găsit nimic, concluzionăm despre potrivirea lui pentru o secvențe necodificatoare de căutare mici omoloage. Dar secvențe identice sau foarte asemănătoare pe care le găsește # 150; a fost făcută o căutare pentru secvența de asparagină-tARN a bacilului de fân în genomul acestuia din urmă. "Au fost găsite" toate cele patru gene tARN (e-valoare 3 * 10 # 150; 37), și, în plus, o mulțime de zone mici, nesemnificative care se suprapun. Și dacă faceți aceeași căutare folosind "doar" MegaBlast, există patru gene necesare, și numai ele. Astfel, acest program este mai puțin sensibil decât MegaBlast discontinuu, dar rezultatele căutării cu acesta din urmă conțin niște "zgomote" inutile atunci când caută copii exacte.

    Pe baza rezultatelor acestei căutări, vom trage concluzii cu privire la eficacitatea programelor comparate. Ce ar trebui să folosesc dacă vrem să găsim un omolog al unei secvențe care nu codifică? Probabil FASTA este cel mai potrivit, deși există și aici o problemă # 150; problema "bazelor mari" (a se vedea mai sus). BLASTN, MegaBlast și MegaBlast discontinue nu sunt potrivite. Deoarece nici unul, nici celălalt, nici al treilea nu își asumă căutarea de omologi ai oricărei secvențe. Sensibilitatea scăzută, lungimea mare a ancorelor (în special în cazul MegaBlast), lipsa unor matrice de înlocuire bune (sau chiar orice) nu permite identificarea secvențelor care s-au schimbat ca rezultat al procesului evolutiv. FASTA are o ancora mai mică și un algoritm ușor diferit, care probabil îi dă posibilitatea de a găsi secvențe mai îndepărtate. MegaBlast și MegaBlast discontinue sunt proiectate pentru a căuta secvențe identice; detaliile mecanismului lor sunt simplificate (28 nucleotide ale ancorei) sau modificate ("binare" modele de căutare) specific pentru această sarcină. Se pare că printre cei studiați nu există niciun program ideal pentru căutarea de omologi ai secvențelor de nucleotide necodificate.