This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Biowissenschaftlich recherchieren Über den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik
Nicola Gaedeke
Birkhäuser Basel · Boston · Berlin
Autorin: Nicola Gaedeke - BioTools.info Neuwerker Weg 4 D-14167 Berlin
Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.
ISBN 978-3-7643-8525-5 Birkhäuser Verlag AG, Basel – Boston – Berlin Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung, der Wiedergabe auf photomechanischem oder ähnlichem Weg und der Speicherung in Datenverarbeitungsanlagen bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbedingungen des Urheberrechts.
Vorwort Dieses Buch ist ein Leitfaden für die Informationssuche im Bereich der Lebenswissenschaften, mit einem Schwerpunkt auf molekularbiologischen Daten. Es basiert auf einer erprobten Fortbildung zur „Fachkraft für Bioinformatik“, die vom Gläsernen Labor in Berlin-Buch mehrmals im Jahr angeboten wird (http://www.glaeserneslabor.de/). Der Fokus in diesem Buch liegt auf den Datenbanken und Ressourcen des National Center for Biotechnology Information (NCBI). Das hat zwei Gründe. Zum einen sind die Webseiten des NCBI stark frequentiert. So hatte die Homepage im Jahre 2002 allein über 28 Mill. Anfragen von über 240.000 Besuchern täglich. Mit BLAST, dem Basic Local Alignment Search Tool, wurden täglich über 100.000 Sequenzähnlichkeitssuchen durchgeführt. Der zweite Grund ergibt sich aus meinen persönlichen Erfahrungen. In den Jahren 2000 – 2002 habe ich in enger Zusammenarbeit mit dem NCBI einen Kurs für „Bioinformatics Information Specialists“ entwickelt, der seitdem einmal im Jahr angeboten wird (http://www. ncbi.nlm.nih.gov/Class/NAWBIS/). Die meisten der Kursteilnehmer arbeiten in einer medizinischen Bibliothek einer US-Amerikanischen Universität und geben dort einen „User Support Service“ für bioinformatische Fragestellungen. Meine größten Erfahrungen liegen daher bei den Tools des NCBI. In derselben Zeit habe ich einen Bioinformatics Support Service an der Universität von Utah in „Salt Lake City“ angeboten, der sehr gut angenommen wurde. Und obwohl die Seiten des NCBI eine einfache Bedienung suggerieren, zeigten mir die Fragen der Anwender, dass viele Einstellungen, Möglichkeiten und Bedeutungen der Anwendungen nicht bekannt sind und relevante Informationen oft gar nicht gefunden werden. Ich habe in diesem Buch versucht, die Suchmöglichkeiten am NCBI zu erläutern, sowie die Einstiegsseiten für die weniger bekannten Ressourcen aufzuzeigen. Auch die Seiten des NCBI ändern sich. Oft kommen neue Ressourcen hinzu. Der Leser ist nach der Lektüre dieses Buches jedoch mit den Prinzipien der Suchoberflächen am NCBI vertraut und kann neue Ressourcen hoffentlich leichter einordnen. Im Allgemeinen gilt, dass sich aus jeder neuen Methode im Bereich der Lebenswissenschaften, die eine große Menge an Datensätzen produziert, immer neue Datenbanken ergeben werden, die recherchiert werden müssen. Die Datensätze werden komplexer werden, wie wir es z.B. schon aus der Genexpressionsanalyse kennen. Die Suchoberflächen sollen jedoch – so will es der Anwender – so einfach wie möglich sein. Wie könnten also die Recherchemöglichkeiten nach komplexen Daten aussehen und wie kann das xi
xii
Vorwort
Ergebnis so zuverlässig ausfallen wie bei einer Sequenzrecherche? Und wie könnte eine Informationssuche nach komplexen Zusammenhängen, wie es die Systembiologie erfordert, durchgeführt werden? Vielleicht sind diese Fragen nur eine technische Herausforderung (an die programmierenden Bioinformatiker), vielleicht bedarf es aber auch in Zukunft aufmerksamer Anwender, die das Ziel der Informationssuche nicht aus dem Auge verlieren und geeignete Suchstrategien entwickeln können. Dieses Buch richtet sich an alle, die zu aufmerksamen Anwendern werden oder ihre Kenntnisse über Suchstrategien und Ressourcen in der Bioinformatik auffrischen und erweitern wollen. Ein sicherer Umgang mit dem Internet wird für die Übungen in diesem Buch vorausgesetzt. An dieser Stelle möchte ich mich bei allen bisherigen Kursteilnehmern bedanken, besonders aber bei Monika Jung und Sunita Singh, die maßgeblich zum Gelingen dieses Buches beigetragen haben. Ein ebenfalls großer Dank gilt Herrn Dr. Ulrich Scheller, dem Leiter des Gläsernen Labors in Berlin-Buch, der meine Idee für eine Fortbildung für Laborpersonal zur „Fachkraft für Bioinformatik“ aufgegriffen hat und die Voraussetzung für eine zertifizierte Weiterbildung (TÜV-Akademie) geschaffen hat. Das Glossar am Ende des Buches ist sehr ausführlich, da mir persönlich viele Glossare zu klein sind und gerade im Bereich der Bioinformatik viele Abkürzungen für IT-Begriffe, für molekulare Daten, aber auch für Institute wie Allgemeinwissen behandelt werden. Ich bemühe mich, die Weblinks zu Datenbanken und Ressourcen der Bioinformatik auf meiner Webseite (http://www.biotools.info) aktuell zu halten. Über Vorschläge des Lesers zur Vervollständigung und Aktualisierung dieser Seiten würde ich mich sehr freuen. Berlin, im Juli 2007
Nicola Gaedeke - BioTools.info -
1 Die Informationssuche im World Wide Web (WWW) Die Informationsflut ist heute größer als jemals zuvor. Die klassischen Informationsquellen werden durch das World Wide Web (WWW) abgelöst. Das Medium „WWW“ unterscheidet sich von den herkömmlichen Informationsquellen dadurch, dass sich der Anwender selbst aktiv auf die Informationssuche begibt. Die Herausforderung, der wir uns bei der Benutzung des WWW stellen müssen, ist daher, die Informationen zu filtern, um das für uns Wichtige und Richtige zu finden. Dieses Buch soll Ihnen helfen, diese Filter zu definieren. So kann die Informationssuche im WWW schon mit ein paar zusätzlichen Gedanken zur Suchstrategie effizienter werden. Oftmals ist eine Suche im WWW gar nicht der richtige Ansatz, da viele Informationen in Datenbanken hinterlegt sind und die Suche daher direkt in der Datenbank erfolgen sollte. Was früher nur in Bibliotheken oder bei Datenbankanbietern über eine Telnet-Verbindung möglich war, wie z. B. die Suche in Medline über Silverplatter, ist heute über eine Datenbankrecherche im Internet möglich. Da die Erstellung einer Suchstrategie für die Suche in einer Datenbank ebenso gilt wie für eine effiziente Suche im WWW, werden in diesem Buch zuerst die Grundlagen einer Suchanfrage vorgestellt.
Funktion des Internets Das Internet ist ein Zusammenschluss von individuellen regionalen Netzwerken. Über diese Netzwerke, die von Universitäten, Firmen oder Online-Diensten betrieben werden, können verschiedene Dienste aufgerufen werden, die sich durch unterschiedliche Funktionen am Bedarf des Anwenders orientieren. Die vier bekanntesten Dienste des Internets sind hier erwähnt: (1) Das World Wide Web (WWW) ist der am häufigsten genutzte Dienst im Internet. Die Anwendung des Internets ist hier durch eine grafische Aufbereitung für den Nutzer erleichtert. Die Dokumente/Webseiten stehen im HTML-Format zur Verfügung. 1
2
1. Die Informationssuche im WWW
a. HTML (Hypertext Markup Language) ist eine kodierte Sprache zur Darstellung von Webseiten über einen Internet-Browser. Weitere Kodierungssprachen oder zusätzliche Software können auf HTML-Seiten eingebunden werden, wie z.B. CGI (Common Gateway Interface für Animationen) und Java/ Java-Script (für PopUps). b. HTTP (Hypertext Transportation Protocol) ist das Protokoll zur Abfrage für HTML-Dokumente auf der Basis von ASCII Sequenzen. (2) FTP (File Transfer Protocol) dient dem Datenaustausch zwischen verschiedenen Rechnern. (3) E-Mail/Mailinglisten (4) Newsgroups Um eine Informationsübertragung im Internet zu gewährleisten, benötigen Sender und Empfänger eine einheitliche Sprache, ein so genanntes Protokoll. Die grundlegenden Protokolle des Internets sind TCP und IP. Sie werden meistens gemeinsam genannt, da sie sich ergänzen und somit eine Einheit bilden. 30% der verschickten Daten sind reine Protokolldaten. Ihre Funktionen sind folgende: • Das TCP (Transmission Control Protocol) teilt die Daten in ungefähr gleich große Blöcke auf und übergibt sie dem IP zur Übertragung. Zusätzlich überprüft TCP die Korrektheit der Übertragung über eine Prüfsumme, nachdem die Daten beim Empfänger wieder endgültig zusammengesetzt worden sind. • Das IP (Internet Protocol) ist dafür zuständig, dass die Daten über verschiedene Schaltstellen und Router gelenkt werden und trotzdem am gewünschten Ziel ankommen. Struktur eines HTML-Dokumentes In einem HTML-Dokument ist die Information, die auf der Webseite erscheinen soll, mit sogenannten „tags“ versehen. Jeder „tag“ muss geöffnet und wieder geschlossen werden. So bedeutet … , dass alle Informationen, die zwischen den „tags“ und kodiert sind, über das Internetprotokoll http lesbar sind. Dieses Dokument muss in dem Format *.html zur Verfügung stehen, um vom Web-Browser dargestellt werden zu können. Die Webseite besteht aus einem Kopf (head) und aus einem Körper (body). Der Kopf wird im Gegensatz zum Körper nicht auf der Webseite dargestellt. Weitere Kodierungen zur Gliederung des Inhaltes sind z.B. die Angabe des Titels ( … ), eines Zeilenumbruchs ( = break) oder „tags“ zur Darstellung von Tabellen (
), Listen (
= unordered list, = ordered list) und Paragrafen (
). Freie und käufliche HTML-Editoren helfen bei der Erstellung einer Webseite. Auch das MS-Office Programm WORD bietet die Option, ein Dokument in das HTMLFormat umzuwandeln und zu speichern („Datei“ – „Als Webseite speichern“). Ein einfacher Webeditor ist „Composer“ von Netscape. Das Programm kann von der Netscape-Menüleiste „Fenster“ aus gestartet werden. Anregungen zur Kodierung einer Webseite bietet ein Seitenquelltext, der für jede angezeigte Seite aufgerufen
1. Die Informationssuche im WWW
3
werden kann („Ansicht“ – „Seitenquelltext“). Weitere Tipps zur Herstellung von Internetseiten gibt es z.B. unter http://www.self-html.de.
Abbildung 1.1: Diese Webseite wurde in einem Texteditor-Programm geschrieben, als „Meine_kleine_Webseite. html“ gespeichert und im Internet-Browser Mozilla-Firefox aufgerufen.
Ein Internet-Browser (Web-Browser) bietet die grafische Oberfläche zur Darstellung von Webseiten. Unter Angabe des „Unique Resource Locator“ (URL) bzw. unter der Webadresse werden die Webseiten aufgerufen. Die drei am häufigsten verwendeten Web-Browser sind der Internet-Explorer (IE), Mozilla-Produkte wie Firefox oder SeaMonkey und Netscape. Zur effektiven Benutzung des Internets lohnt es sich, sich mit der Menüleiste seines bevorzugten Browsers intensiv vertraut zu machen. So sind viele Anwender mit der Verwaltung und Organisation von Lesezeichen noch vertraut, in der Verwaltung von Kennwörtern, Cookies und Mail-Einstellungen jedoch weniger geübt. Unter dem Menüpunkt „Hilfe“ kann der Anwender sowohl online als auch offline mehr Informationen zur Benutzung eines Web-Browsers aufrufen. Beispiele für freie Web-Browser sind ! Microsoft Internet Explorer 7 (http://www.microsoft.de/) ! Mozilla Produkte wie Firefox oder SeaMonkey (http://www.mozilla.org/products/) ! Netscape 7.1 http://www.netscape.de/
4
1. Die Informationssuche im WWW
Suchen und finden Eine Informationssuche, sei es im Internet oder in einer Datenbank, liefert fast immer Ergebnisse. Oft führt die Recherche sogar zu einer sehr hohen Anzahl von Treffern. Der Anwender erachtet jeden Treffer als „richtig“ und relevant und fängt an, sich von Treffer zu Treffer weiterzuhangeln, ohne auch nur die Möglichkeit einer fokussierten Suchanfrage in Erwägung zu ziehen. Die hier vorgestellten Strategien zur Informationssuche unterscheiden sich vom sogenannten „Browsen“ oder „Stöbern“ im Internet dadurch, dass es sich um eine zielgerichtete Informationssuche handelt. Das Internet zeichnet sich jedoch durch Besonderheiten aus, die einer starken Kontrolle der gefundenen Information sowie einer genauen Dokumentation über die Auffindungsparameter (Ort/Zeit) bedürfen. Diese Besonderheiten des Internets sind: (1) Fehlende Organisation – Niemand koordiniert oder kontrolliert, wer was wo und wie veröffentlicht. (2) Fehlende Strukturierung – Eine Veröffentlichung im Internet unterliegt keinerlei Standards. Es kann sich um ein Buch, eine Datenbank oder nur eine kurze Notiz handeln. Niemand muss Inhaltsangaben, Sachregister oder Stichwortkataloge erstellen. (3) Beliebigkeit – Nur auf Initiative von Einzelpersonen oder einer Institution kommen Informationen in das Netz. Es gibt keine Pflichtexemplar-Regelung. (4) Dynamik – Täglich kommen neue Einträge hinzu, andere verschwinden und wieder andere werden verlegt oder geändert. Suchhilfen im Internet Längst ist es unmöglich geworden, sich die für den Eigenbedarf nützlichen URLs (Internetadressen) zu merken, abzuspeichern oder aus gedruckter Literatur herauszusuchen. Zur Informationsbeschaffung bietet das Internet Suchhilfen an, die je nach Anbieter unterschiedliche Aspekte und Webinhalte berücksichtigen und eigene Suchtreffersortierungen vornehmen. (1) Internet-Suchmaschinen wie z.B. Google oder AltaVista sind roboterbasierte Programme (sog. Spider oder Robots). Sie suchen nach Webseiten, um sie zu indexieren. Dabei werden nahezu alle Wörter auf einer Webseite in den Suchindex eingetragen. Eine Suchmaschine zu benutzen, ist günstig, wenn man konkret weiß, was man sucht (bestimmte Firmen, Namen, Projekte, Programme etc.). (2) Internet – Thematische Verzeichnisse wie z.B. Web.de oder Yahoo!, sind intellektuell bearbeitete Register von Webseiten. Die Webseiten sind thematisch und oft hierarchisch sortiert. Thematische Verzeichnisse dienen als Einstieg in eine Internetsuche, wenn man noch keinen speziellen Suchbegriff hat, oder sich einen Überblick über die gesuchte Thematik verschaffen will. Ein Verzeichnis dient auch dem Einstieg ins „Deep Web“. Durch ein Verzeichnis kann man durchklicken (browsen).
1. Die Informationssuche im WWW
5
(3) Hybride Suchhilfen wie z.B. Web.de oder Yahoo! versuchen die Vorzüge der Suchmaschinen und der thematischen Verzeichnisse miteinander zu vereinen. (4) Metasuchmaschinen wie z.B. MetaGer oder MetaCrawler ermöglichen eine Internetrecherche unter gleichzeitiger Verwendung mehrerer Suchmaschinen. (5) Suchhilfen auf Servern mit Datenbankanbindungen wie z.B. Bestandskataloge von Bibliotheken (Web-OPACS) dienen dem Einstieg für eine Recherche in einer dieser Datenbanken oder in anderen Verzeichnissen. Vorbereitung der Suche Im Vordergrund der Informationssuche steht die Frage nach dem Suchort. Nicht immer ist eine Internetrecherche für die Lösung eines Problems geeignet. Eventuell befindet sich die gesuchte Information in einem (Fach-)Buch, in öffentlichen Registern oder Listen oder in einer Datenbank. Anhand folgender Fragen soll dargestellt werden, wie wichtig der richtige Suchort für das Rechercheergebnis ist. Wo z.B. könnte man suchen nach: • • • • • • • • •
Literatur zu einem medizinischen Thema? Literatur zu einer wissenschaftlichen Untersuchung? Nachrichten aus der Rubrik „Wissen“ aus einer Tageszeitung von vor zwei Wochen? Information zu einer Proteinsequenz? Firmeninformationen • Produktinformationen? • Wirtschaftsinformationen (Portfolio, Startkapital, Kapitalgeber etc.)? Patentinformationen? Anleitungen für wissenschaftliche Experimente? Elektronenmikroskopische Aufnahmen von Viren? Informationen über Medikamente und ihre Nebenwirkungen?
Wo ist die Information, die ich suche? Wenn der Anwender eine Informationssuche im Internet durchführen will, muss er überlegen, wo und wie die Information untergebracht sein könnte. ! Im Internet ! In einer Datenbank In einer Datenbank werden Informationen und Fakten gesammelt und zusammengestellt, die aus der Sicht des Datenbankherstellers zusammengehören, z.B. personenbezogene Daten in einer Personaldatenbank oder Sequenzdaten in einer Sequenzdatenbank. Es gibt hierarchische, relationale, multidimensionale und objektorientierte Datenbanken. Der Zugang zu einer Datenbank kann, muss aber nicht, über das Internet erfolgen. Für eine Datenbank gibt es Suchmasken, über die die Suchanfrage an die Datenbank gestellt werden muss.
6
1. Die Informationssuche im WWW
Suchmaschinen können bisher nur die Startseiten von Datenbanken finden, nicht aber eine Suche in der Datenbank selbst ersetzen. Neue Entwicklungen zeigen jedoch, dass auch Datenbankinhalte über eine Internet-Suchmaschine erschlossen werden können. Ein Beispiel hierfür ist die Suchmaschine von Google für wissenschaftliche Literatur aus kostenlos zugänglichen Literaturdatenbanken (GoogleScholar). t
Im Deep Web
Das Deep Web (auch Hidden Web oder Invisible Web) bezeichnet den Teil des Internets, der bei einer Internetrecherche nicht über normale Suchmaschinen auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen Webseiten „Visible Web“ (Sichtbares Web) oder „Surface Web“ (Oberflächenweb) genannt. Die Inhalte im Deep Web können grob unterteilt werden in „Inhalte, die nicht frei zugänglich sind“ und „Inhalte, die nicht von Suchmaschinen indexiert werden“. Die Größe des Deep Web kann nur geschätzt werden – es wird davon ausgegangen, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Zum Deep Web gehören die von Suchmaschinen absichtlich vernachlässigten Daten, Webseiten, die indexiert werden könnten, aber auf Grund von Zugangsbeschränkungen des Webmasters nicht indexiert werden (z.B. Seiten des Intranets), Webseiten, die indexiert werden könnten, die jedoch nur nach Anerkennung einer Nutzungsbedingung zugänglich sind (kostenlos oder kostenpflichtig, z.B. webbasierte Fachdatenbanken), und ganz und gar unsichtbare Webseiten wie z.B. dynamisch erstellte Webseiten, Seiten mit Dateiformaten, die nicht erfasst werden können (z.B. Flash), komprimierte Daten, Webseiten mit einer Benutzernavigation, die Grafiken oder Scripte benutzen oder Inhalte auf einem FTP-Server. Recall vs. Precision Zur Vorbereitung der Suchanfrage stehen neben den Überlegungen zum Suchort auch Überlegungen zur Suchgenauigkeit an: Soll die Recherche alles zum Thema hervorbringen (Vollständigkeit) oder die am meisten relevanten Dokumente (Genauigkeit; s. Abb. 1.2)? Ermittlung und Sammlung von Wortmaterial zum Problem Die Schwierigkeit bei der Suche im Internet ist das Fehlen eines kontrollierten Vokabulars. Auch wenn Webseiten zum selben Thema angeboten werden, ist nicht gewährleistet, dass die Webseitenanbieter dieselben Wörter zur Beschreibung einer Problematik verwendet haben. Um eine Suchanfrage so genau wie möglich zu stellen, kann der Anwender mehrere Suchworte zur Thematik logisch miteinander verknüpfen. Hierdurch kann eine Suche sowohl erweitert als auch eingegrenzt werden.
7
1. Die Informationssuche im WWW
c (relevantes)
a
b (recherchiertes)
d (gesamte Info) Abbildung 1.2: Recall vs. Precision. Das cab-d Modell veranschaulicht den Zusammenhang zwischen der Wiederauffindungsrate und der Vollständigkeitsrate (Recall) sowie zwischen der Trefferquote und der Relevanzquote (Precision). In der Menge der gesamten Informationen (d) sollten alle relevanten Einträge gefunden werden. Die Suchanfrage muss so formuliert werden, dass alles Recherchierte auch das Gesuchte (a) darstellt. In der Grafik wären dann die Schnittmengen c und b deckungsgleich.
Formulierung einer Suchanfrage für Informationen zur Bluterkrankheit (Hämophilie) in Königsfamilien. (1) Wortsammlung mit Hilfe von Thesauri und Wörterbüchern (alternative Namen, Synonyme etc.) und Gliederung der Thematik (2) Logische Verknüpfung der Suchworte zu einer Suchwortkette mit Hilfe von Boole’schen Operatoren (AND, OR, NOT; s. u.) Lösungsansatz: Es können zwei Themenkomplexe erarbeitet werden. a) Hämophilie, Bluterkrankheit, Bluter, Haemophilia b) Königsfamilie, Adel, Adelsfamilie, König, Kaiser Die Themen müssen in Klammern organisiert und logisch miteinander verknüpft werden. Folgende Suchanfrage kann jetzt formuliert werden: (Hämophilie OR Bluterkrankheit OR Bluter OR Haemophilia) AND (Königsfamilie OR Adel OR Adelsfamilie OR König OR Kaiser)
Boole’sche Operatoren AND, OR oder NOT Boole’sche Operatoren (genannt nach George Boole; engl. Mathematiker um 1850) dienen der logischen Verknüpfung von Suchbegriffen. Die Operatoren werden immer in Großbuchstaben geschrieben. In vielen Suchmaschinen reicht das Einfügen der algebraischen Zeichen „+“ für „AND“ und „–“ für „NOT“. Das „OR“ wird von einer Suchmaschine entweder in Deutsch („ODER“) oder in Englisch („OR“) akzeptiert (siehe Hilfsdokumentation der Suchmaschinen). Ein
8
1. Die Informationssuche im WWW
weiterer Operator ist „NEAR“ für alle Wörter, die in unmittelbarer Nachbarschaft im Text vorhanden sind. Im Folgenden sind die gebräuchlichsten Boole’schen Operatoren erläutert. AND (+)
OR (ODER)
NOT (–)
Findet Dokumente mit allen angegebenen Wörtern oder Phrasen. Beispiel: +Hämophilie +Königsfamilie findet Dokumente, die sowohl das Wort Hämophilie als auch Königsfamilie enthalten. Findet Dokumente, die mindestens eines der gesuchten Wörter oder Phrasen enthalten. Beispiel: Hämophilie ODER Königsfamilie findet Dokumente, die entweder das Wort Hämophilie oder Königsfamilie enthalten. Die gefundenen Dokumente können auch beide Begriffe enthalten, müssen es aber nicht. Schließt Dokumente aus, die das angegebene Wort oder die Phrase enthalten. Beispiel: Hämophilie –Königsfamilie findet alle Dokumente, die das Wort Hämophilie enthalten, nicht aber den Begriff Königsfamilie.
Die Internetrecherche Suchmaschinen unterscheiden sich nicht nur, wie oben erwähnt, in ihren indexierten Inhalten, sondern auch in der Interpretation der Suchanfrage und der Beurteilung der Treffer. Bei der Benutzung einer Suchmaschine ist es daher wichtig zu wissen, wie die Suchanfrage von der Maschine übersetzt wird, um die gesuchten Informationen zu finden. So wurden in den Anfangszeiten von AltaVista bei einer Suchanfrage mit zwei oder mehr Suchwörtern diese Suchwörter mit ODER verknüpft. Hierdurch wurden bei einer Suche mit AltaVista sehr viel mehr Treffer erzielt, als z.B. mit Google. Erst später wurde den Entwicklern der Suchmaschine bewusst, dass der Anwender bei einer Eingabe von mehreren Wörtern ein AND in die Suchanfrage impliziert. Die Suchmaschine hat sich durch die Änderung der Suchinterpretation zu AND dem allgemeinen Verhalten eines Anwenders angepasst. Der Druck der Anwender auf die Suchmaschinen führt dazu, dass sich die Suchfunktionen immer weiter aneinander angleichen. Viele Suchmaschinen bieten sowohl eine einfache als auch eine erweiterte Suchoberfläche an; oft bleibt es dem Nutzer jedoch verborgen, wie die Suchanfrage an das System gestellt wurde. Hier sollen ein paar Tipps und Beispiele einen Beitrag zu den Vorüberlegungen einer Internetsuche leisten. Die einfache Suchoberfläche (Simple Search/Anfänger-Suche) • Großschreibung/Kleinschreibung: Was wird gesucht, wenn das Suchwort Großbuchstaben enthält bzw. nur in Kleinbuchstaben geschrieben ist? • Umlaute: Wie geht die Suchmaschine mit den deutschen Umlauten um? • Trunkierung: Kennt die Suchmaschine eine Verkürzung des Wortstamms? Wenn ja, welches Zeichen muss dafür benutzt werden?
1. Die Informationssuche im WWW
9
• Singular/Plural: Wird von der Suchmaschine automatisch nach dem Plural gesucht, wenn nur der Singular angegeben ist? (Im Zweifelsfall beide Formen, z.B. „Elefant“ und „Elefanten“ benutzen) • Stoppwörter: Welche Wörter werden von der Suchmaschine ignoriert (oft werden die Artikel, Präpositionen, „http“ und ähnliche Wörter übergangen)? Über das „+“-Zeichen können diese Wörter oft in die Suche mit einbezogen werden. • Suche nach Wortgruppen: Bestimmte Zeichen dienen als Verbindung von Wortgruppen. Hierzu gehören Bindestriche, Schrägstriche, Anführungszeichen, Gleichheitszeichen und das Apostroph, z.B. Der-alte-Mann-und-das-Meer. • Stichwörter: Sollten sorgfältig gewählt werden, möglichst präzise Angaben machen, z.B. „Dackel“ anstelle von „Hund“. Erweiterte Suchoberflächen (Advanced (extended) Search / Experten-Suche) Bei den erweiterten Suchoberflächen werden die Suchwörter logisch miteinander verknüpft, ohne dass eine komplexe Suchanfrage in die Suchmaske eingegeben werden muss. Die Suchmaschine wird die Suchanfrage unter Anwendung von Boole’schen Operatoren in eine logisch verknüpfte Suchwortkette übersetzen. In diesen Oberflächen können oft weitere Eingrenzungen z.B. zum Aktualisierungszeitpunkt der Webseite vorgenommen werden. Eine komplexe Suchanfrage mit einer Suchwortkette, wie sie im Lösungsansatz am Beispiel der Recherche zu Hämophilie in Königsfamilien in diesem Kapitel dargestellt ist, ist oft nicht in den erweiterten Suchoberflächen möglich. Diese Suchanfrage muss in das Suchfeld, einschließlich der gesetzten Klammern, eingegeben werden.
Die Trefferanzeige Suchmaschinen sortieren die Treffer nach unterschiedlichen Gesichtspunkten. Kriterien für die Relevanzberechnung der Treffer sind u.a.: • die Anzahl der gefundenen Suchwörter auf der Webseite • die Position der Wörter auf der Webseite • die Anzahl der Suchwörter bezogen auf die Länge der Webseite • nur die Länge der Webseite • die Häufigkeit des Abrufens von einzelnen Webseiten • die Position der Datei im Verzeichnisbaum des Servers • die Anzahl der Links, die auf eine Seite gesetzt wurden (z.B. bei Google) Der zuerst aufgeführte Treffer einer Suchmaschine ist demnach nicht immer der beste Treffer für den Benutzer, auch wenn er seine Suchanfrage korrekt und vollständig gestellt hat. Für die richtige Interpretation eines Suchergebnisses ist es demnach sehr wichtig zu wissen, wie die jeweils benutzte Suchmaschine die Anfrage verarbeitet bzw. welche Kriterien in das Ranking der Treffer mit einfließen.
10
1. Die Informationssuche im WWW
Trefferbearbeitung Die Treffer einer Suchmaschine können in unterschiedlichen Formaten vorliegen. So können von Google die Dateiformate HTML, PDF und PPT schon sehr effizient indexiert werden. Zusätzlich kann jeder Treffer über folgende Optionen bearbeitet werden: • „Ähnliche Seiten“ – initiiert eine Suche nach ähnlichen Webseiten (Google) • „Archiv-Seiten“ – ruft die Seiten aus dem „Cache“ auf (Google, Yahoo) • „Weitere Seiten dieser Webseite“ – sucht die Seiten in derselben Domäne (Yahoo) • „Diese Seite übersetzen“ – übersetzt die Seite in eine gewünschte Sprache (Google)
Die Beurteilung von Internet-Seiten Wenn das Internet als zuverlässige Informationsquelle verwendet werden soll, muss eine Auswertung vorgenommen werden, die die Suchanfrage kritisch widerspiegelt. In der folgenden Liste sind die wichtigsten Auswertungskriterien zusammengestellt. Autorenschaft Objektivität und Richtigkeit
Aktualität Darstellung
Zweck
Wer ist der Autor? Was sind seine/ihre Referenzen? Ist er/sie einem Institut zugehörig? Hat das Institut ein Renommee? Wird die Seite von einer kommerziellen Einrichtung angeboten? Wer fördert den Internetauftritt? Welches Ziel verfolgt die Einrichtung mit der Seite? Vertritt der Autor die Meinung einer Gruppe/seiner Einrichtung? Gibt es eine politische Perspektive? Gibt es eine kulturelle oder religiöse Perspektive? Gibt es Werbeanzeigen auf der Seite? Ist die Seite gut und fehlerfrei geschrieben? Ist die Seite durch andere überprüft und redigiert (peer reviewed)? Werden Quellen zitiert? Wie wurden Statistiken oder Daten gesammelt und dargestellt? Sind die Informationen aktuell? Wie häufig wird die Seite aktualisiert? Welche Zeitspanne wird dargestellt? Ist die Seite leicht zu navigieren? Ist die Information übersichtlich dargestellt? Sind die Formate und die Geschwindigkeit annehmbar? Gibt es einen Index oder ein Inhaltsverzeichnis? Wer ist das beabsichtigte Publikum (user)? Ist der Zweck zu informieren oder zu überzeugen? Sind die Informationen förderlich? Sind die Informationen urheberrechtlich gesichert?
1. Die Informationssuche im WWW
11
Im Vergleich Sind andere Quellen besser (Bücher, Zeitschriften, usw.)? zu anderen Gibt es Kosten für den Service? Quellen Sind die Informationen für mich nützlich?
Die Zukunft der Internet-Recherche Suchmaschinen werden sich in ihrer Bedienung und bei der Suchanwendung immer ähnlicher (Zusammenlegungen, Druck von Seiten der Nutzer). Trotzdem gibt es noch unberücksichtigte Aspekte, die eine Weiterentwicklung vorantreiben. Zu diesen Entwicklungen gehören Suchmaschinen mit grafischer Darstellung der Ergebnisse (z.B. http://www.kartoo.com), Richtlinien zur Homogenisierung von Webseiten (etwa durch Anwendung des „Dublin Core“, ein Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet; Urheber dieses Schemas ist die „Dublin Core Metadata Initiative“ (DCMI), s. Wikipedia.de), die Spam-Indexierung, die Entwicklung neuer Konzepte, wie z.B. die mobile, regionale oder die semantische Suche, sowie die Erschließung von Nicht-Text-Informationen wie z.B. Gesichter und Fotos.
Webadressen Freie Internet-Browser (Software) • Microsoft Internet Explorer 7 (http://www.microsoft.de/) • Mozilla-Produkte, z.B. Firefox oder SeaMonkey (http://www.mozilla.org/products/) • Netscape 7.1 http://www.netscape.de/ HTML selbst beigebracht • Self-HTML (http://de.selfhtml.org/) Suchmaschinen (Beispiele) • Google (http://www.google.de) • Alta Vista (http://www.altavista.com) • Web.de (http://www.web.de) • Yahoo! (http://www.yahoo.de) • Metager (http://www.metager.de/) • Metacrawler (http://www.metacrawler.de/) • Kartoo (http://www.kartoo.de) Informationen zur Informationssuche • Die Suchfibel: Wie findet man Informationen im Internet? (http://www.suchfibel.de) • Suchmaschinen (http://www.suchfibel.de/3allgem/index.htm)
12
1. Die Informationssuche im WWW
• Tutorial zur Suche im WWW/Internet (2.1) (http://www.inf-wiss.uni-konstanz.de/suche/tutorial/such_tutorial_anfaenger.html) • Methoden und Verfahren von Suchdiensten im WWW/Internet (http://www.inf-wiss.uni-konstanz.de/suche/tutorial/such_tutorial_advanced.html) • Neueste Informationen über Suchmaschinen (search engines) (http://www.searchenginewatch.com)
Übungen (1) Alternative Medizin: Bei welchen Beschwerden hilft Johanniskraut? Wie ist der lateinische Name? In welcher Form soll es wie lange angewendet werden? (2) Sie suchen Informationen zur Vogelgrippe: Auf welchen Webseiten erwarten Sie zuverlässige Informationen? Welche Firma stellt einen Impfstoff her? Wie entscheidet die Bundesregierung über Impfungen für die Bevölkerung? (3) Wer hat im Jahre 1989 den Nobelpreis für Medizin erhalten? Was waren ihre Verdienste für den Nobelpreis? Wo haben sie geforscht? Was machen die Preisträger heute? (4) Wie teuer sind Blutegel für medizinische Zwecke (Preis/Stück)? Wo gibt es günstige Angebote? (5) Sie haben von einer Datenbank für seltene Krankheiten (rare disease) gehört. Diese soll nun auch Informationen auf Deutsch anbieten. Welche Datenbank ist gemeint? Würden Sie die Informationen als seriös einschätzen? • Welche Informationen finden Sie zu Sichelzellanämie? • Wo gibt es eine Selbsthilfegruppe, wer ist der Ansprechpartner? (6) Wo gibt es eine Auflistung von Firmen der Biotech-Branche im deutschsprachigen Raum? (7) Wann (und wo) findet die nächste BIOANALYTICA statt? Wie kommen Sie von Berlin aus mit dem Auto/mit dem Zug dorthin? Wie lange dauert die Fahrt? (8) Sie suchen Informationen zum „Leben auf dem Titan“ (deutsch). Wie beurteilen Sie die gefundenen Informationen? (Autor? Hintergrund? Methoden?) (9) Welche medizinischen Lexika sind im Internet kostenlos zugänglich? (10) Wie viele Institute der Helmholtz-Gemeinschaft (oder auch Max-Planck-Gesellschaft) existieren in Deutschland? Gibt es auch Informationen über die Entwicklungsgeschichte der Gesellschaft? Wie wird der Bereich der Bioinformatik von der Helmholtz-Gemeinschaft unterstützt?
2 Die Einteilung der Lebewesen Um Organismen, Gene und Proteinsequenzen zu recherchieren, braucht man eine einheitliche Sprache, in der die gewünschte Information geschrieben ist. Schon im 18. Jahrhundert führte der schwedische Naturwissenschaftler Carl von Linné (1707–1778) eine systematische Klassifizierung der Pflanzen und Tiere ein, indem er sich einer binominalen Nomenklatur bediente, durch die die biologischen Arten wissenschaftlich eindeutig benannt wurden. So wurde jede biologische Art (wie z.B. Escherichia coli oder Mus musculus) mit einem Namen für die Gattung (Escherichia bzw. Mus) und einem artspezifischen Beiwort (Epitheton; hier coli bzw. musculus) bezeichnet. Diese Eigennamen sind griechischen oder lateinischen Ursprungs und sind heute international gebräuchlich. Die Klassifizierung der Lebewesen erhielt nach Linné allmählich eine hierarchische Systematik, indem zusätzlich zur Gattungs- und Artenbezeichung auch die Bezeichnungen Familie, Ordnung, Klasse, Stamm und Reich eingeführt wurden. Somit existiert ein eindeutiges und einheitliches Vokabular für die Recherche nach Informationen zu einem bestimmten Organismus. Man kann also mit dem wissenschaftlichen Namen (Taxon) eines Organismus eine Suchanfrage für molekularbiologische Daten auf diesen Organismus eingrenzen.
Taxonomie Die Taxonomie beschäftigt sich mit der Einteilung von Organismen nach Kriterien der “abgestuften Ähnlichkeiten”. Von den identifizierten gruppenspezifischen Eigenschaften von Organismen werden die Verwandtschaftsbeziehungen zwischen einzelnen Gruppen abgeleitet. So teilen sich Organismen einer niederen taxonomischen Ebene mehr gemeinsame Merkmale als die einer höheren taxonomischen Ebene. Eine taxonomische Klassifizierung ist eine hierarchische Einteilung, die von der Annahme einer evolutionären Beziehung (Phylogenie) von Lebewesen innerhalb einer Ebene ausgeht, welche bisher jedoch nicht immer wissenschaftlich belegt werden konnte. Die phylogenetische Systematik (Phylogenetik) ist ein aktives Forschungsgebiet mit dem Ziel, die Abstammungsgeschichte aller Organismen zu verstehen. Des Weiteren beschäftigt sich die Phylogenetik mit der Entstehung neuer 13
14
2. Die Einteilung der Lebewesen
Arten sowie mit der Erforschung der molekularen Evolution, wobei sie sich moderner Methoden der Molekularbiologie bedient. Tabelle 2.1: Die Tabelle zeigt die wichtigsten Kategorien (Taxa) des animalischen Systems am Beispiel von Apis mellifera. Arten (und Unterartennamen) nach einer binominalen Nomenklatur werden kursiv gedruckt. Überreich (superkingdom) Reich (kingdom) Stamm (phylum) Überklasse (superclass) Klasse (class) Unterklasse (subclass) Überordnung (superorder) Ordnung (order) Unterordnung (suborder) Überfamilie (superfamily) Familie (family) Unterfamilie (subfamily) Sippe (tribe) Gattung (genus) Art (species) Unterart (subspecies)
Die Taxonomie-Datenbank des National Center for Biotechnology Information (NCBI) Ein Nachschlagewerk taxonomisch klassifizierter Organismen ist die Datenbank „Taxonomy“, die am amerikanischen „National Center for Biotechnology Information“ (NCBI) in Bethesda, Maryland, frei im Internet zur Verfügung steht. Hier findet man die zellulären Organismen der Erde, eingeteilt in die Archaea-Bakterien, (Eu-) Bakterien und die Eukaryoten (siehe Abb. 2.2).
Abbildung 2.1: Die Kopfzeilen der Homepage des NCBI (http://www.ncbi.nlm.nih.gov)
2. Die Einteilung der Lebewesen
15
Abbildung 2.2: Einteilung der zellulären Organismen in der Datenbank „Taxonomy“ im Display-Level von 1. In diesem Anzeigeformat wird jeweils nur die Ebene unter der aktiven Ebene (hier: cellular organism) angezeigt. Ändern Sie den Display-Level auf 2, so werden zu den Taxa Archaea, Bacteria und Eukaryota (superkingdoms) auch die Stämme (phyla) angezeigt. Die Zahl hinter dem Taxon entspricht der Anzahl sequenzierter Genome bzw. vollständiger genomischer Einheiten (z.B. Chromosomen). Diese Anzeige erscheint, weil eine Verknüpfung mit der EntrezDomäne „Genome Sequences“ aufgerufen wurde (siehe Häkchen bei „Genome Sequences“); Stand: Jan. 2007.
Taxonomy-Browser: Die Such- und „Browsing“-Funktionen für die Datenbank Die Datenbank „Taxonomy“ enthält alle Organismen, die mit mindestens einer Nukleotid- oder Proteinsequenz in der Datenbank „GenBank“ eingetragen sind. Dabei handelt es sich sowohl um lebende, als auch um bereits ausgestorbene Organismen. Die Suchoberfläche bietet unterschiedliche Suchmodi. So kann im Suchfeld die allgemeine Benennung wie z.B. „Mouse“ eingegeben werden, die wissenschaftliche Bezeichnung (Mus musculus) mit Hilfe des Pull-down-Menüs als „complete name“, der „phonetic name“ („maus“; man könnte ja meinen, es würde so wie im Deutschen geschrieben), Teile einer Bezeichnung (wild card = Gattungsname z.B. Mus, token set = Epitheton z.B. musculus) oder auch die Taxonomy ID, die Zugriffsnummer des Organismus in der Datenbank. Ist der Eintrag gefunden, wird zuerst eine hierarchische Darstellung gezeigt, von der aus man zu den speziellen Datenbankeinträgen gelangt.
Abbildung 2.3: Die Suchoptionen im Taxonomy-Browser.
16
2. Die Einteilung der Lebewesen
Abbildung 2.4: Die Anzeige für Mus musculus in der Stammbaum-Darstellung. Für die Anzeige höherer Taxa wie z.B. Rodentia (Nagetiere) muss auf das entsprechende Taxon in der aufgeführten Abstammung (Lineage) geklickt werden. In dieser Anzeige werden sowohl die Anzahl der bekannten Nukleotid- als auch die der bekannten Proteinsequenzen angezeigt, da jeweils ein Häkchen bei „Nucleotide“ bzw. „Protein“ gesetzt wurde.
Folgt man dem Link zur Art Mus musculus, gelangt man zu einem „Informationssprungbrett“, dem eigentlichen Datenbankeintrag. Mit nur einem Mausklick können alle Daten in einer anderen Datendomäne wie z.B. der Protein-Domäne aufgerufen werden. Alle bekannten Proteinsequenzen für die Maus sind somit schon gefunden (Abb. 2.5). Wissenschaftliche Namen von Organismen recherchieren Wie oben erläutert, ist der sicherste Weg, nach Daten zum Organismus seiner Wahl zu recherchieren, die Recherche mit dem wissenschaftlichen Namen des Organismus. Doch wie ist der wissenschaftliche Name für den Rhesusaffen, die Kaffeepflanze oder den Malariaerreger? Die Antworten gibt es in Online-Ressourcen des WWW. Die folgenden Webseiten sollen helfen, den wissenschaftlichen Tier- bzw. Pflanzennamen über das Nachschlagen der deutschen Bezeichnungen zu finden. • Tiernamen – Deutsch/Latein: http://www.das-tierlexikon.de/ • Botanische Namen: http://www.iwoe.de/cmarq/pflanzen.html • Bakterien-Nomenklatur: http://www.dsmz.de/bactnom/bactname.htm
2. Die Einteilung der Lebewesen
17
Abbildung 2.5: Der Eintrag in der Taxonomy-Datenbank für Mus musculus hat die Zugriffsnummer (Accession-Nummer, Taxonomy ID) 10090. Des Weiteren werden der gewöhnliche Name (common name), der verwendete genetische Code und die Abstammung angegeben. Die relevanten Informationen in anderen Datenbanken werden unter “Entrez records” und weiter unten (nicht zu sehen) aufgeführt. Die direkten Verknüpfungen (Direct links) betreffen alle Einträge, die unter Mus musculus angegeben werden. Die “Subtree links” betreffen alle Einträge, die unter Mus musculus und allen Unterarten (siehe Abb. 2.4) angegeben werden.
Modell-Organismen Was ist ein Modell-Organismus? Seit dem letzten Jahrhundert haben für die Erforschung und Aufklärung zahlreicher biologischer Prozesse nur eine kleine Anzahl von Organismen eine Rolle gespielt. Der Grund dafür ist, dass viele Aspekte der Biologie in den meisten, wenn nicht sogar in allen Organismen ähnlich sind, aber das Studium dieser Aspekte in dem einen Organismus besser zu praktizieren ist als in einem anderen. Diese häufig untersuchten Organismen haben große Vorteile für die experimentelle Forschung, wie z.B. • eine schnelle Entwicklung mit kurzen Lebenszyklen, • eine kleine Erwachsenengröße • unkomplizierte und kostengünstige Haltung (wenn möglich auf kleinstem Raum) • breite Verwendbarkeit
18
2. Die Einteilung der Lebewesen
Des Weiteren sind die experimentellen Ergebnisse international besser vergleichbar, wenn sie am gleichen Modellorganismus erhoben wurden. Eine große Menge an Informationen kann von diesen Organismen abgeleitet werden. So können wertvolle Daten für die Analyse der normalen menschlichen Entwicklung bereitgestellt werden, wie z.B. Kenntnisse über die Mechanismen der Genregulation, Kenntnisse über genetische Krankheiten und Entwicklungsprozesse sowie pharmakologische Studien u.v.m. Die am besten untersuchten Säugetierarten sind: • Mus musculus (Maus, besonders für genetische Studien) • Rattus norvegicus (Ratte, besonders für physiologische Studien) Die am besten untersuchten Nicht-Säugetierarten sind: • Dictyostelium discoideum (Schleimpilz) • Saccharomyces cerevisiae (Hefe) • Caenorhabditis elegans (Rundwurm) • Arabidopsis thaliana (Ackerschmalwand) • Drosophila melanogaster (Fruchtfliege) • Danio rerio (Zebrafisch)
Webadressen National Center for Biotechnology Information (NCBI) • Taxonomy Browser (http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome. html/) • Entrez-Taxonomy (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=taxonomy) Lexika, Datenbanken & mehr • Tiernamen – Deutsch/Latein (http://www.das-tierlexikon.de/) • Botanische Namen (http://www.iwoe.de/cmarq/pflanzen.html) • Bakterien-Nomenklatur (http://www.dsmz.de/bactnom/bactname.htm) • Nützliche Internetadressen für Naturwissenschaftler in deutscher Sprache (http://www.biotools.info/links/biologie.html)
Übungen (1) Suchen Sie über NCBI’s Taxonomy Browser die heutigen Bakterienstämme (Eubakterien) und Archaea-Stämme. Benutzen Sie dazu den „Display-Level“ von 1. (2) Internet: Suchen Sie im Internet ein Verzeichnis oder ein Lexikon mit Tiernamen in deutscher und lateinischer Sprache. • Wie ist der wissenschaftliche Name für Meerschweinchen? • Gibt es Meerschweinchen-Sequenzen in der Taxonomy-Datenbank?
2. Die Einteilung der Lebewesen
19
(3) Sie möchten alle Proteinsequenzen für HIV finden. Von wie vielen verschiedenen HI-Viren gibt es Sequenzen in der Datenbank? • Was ist der Unterschied zwischen der allgemeinen Kategorie „Human immunodeficiency virus“ und den einzelnen Typen von HI-Viren? • Suchen Sie alle Proteinsequenzen des „human immunodeficiency virus 2“. (siehe Entrez-Verknüpfungen in der Datenbank Taxonomy) (4) Finden Sie alle Nukleotid-Sequenzen vom Mammut (Mammuthus). Wie viele Einträge für Nukleotid-Sequenzen gibt es am NCBI? • Um welche Sequenzen handelt es sich? (5) Würden Sie Studien über Erbkrankheiten beim Menschen in der Tierspezies Galagos durchführen? (6) Substantial data are available for two species of filarial nematodes that are human parasites. Use the Taxonomy Browser to examine the number of nucleotide sequences for the superfamily Filaroidea and determine which species these are. How many nucleotide and protein sequences are there for each of these two species? Display nucleotide records for each of these. What kinds of sequences are most of these? (Quelle: http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html)
3 Moleküle der Erbinformation Desoxyribonukleinsäure (DNS, bzw. engl. DNA für desoxyribonucleic acid) und Proteine unterscheiden sich grundsätzlich von anderen Makromolekülen. Erstens bestehen DNA und Proteine aus klar definierten Untereinheiten, zweitens liegt ihr Informationsgehalt in der Abfolge (Sequenz) dieser Untereinheiten, und drittens ist die Leserichtung einer Sequenz entscheidend darüber, um welches Molekül es sich handelt. So kodieren die Gene immer in 5’-3’ Richtung und Proteinsequenzen definieren sich über die Richtung vom N-terminalen Ende zum C-terminalen Ende. In diesem Kapitel geht es zunächst um die Untereinheiten von DNA- oder Proteinsequenzen (auch Biosequenzen genannt), die Basen und Aminosäuren, aber auch um die Formate und Beschreibungen dieser Moleküle, die zur Norm in biowissenschaftlichen Datenbanken geworden sind. Nur mit diesem Wissen kann eine Suche nach einer Biosequenz erfolgreich sein. Leider ist die Suche nach Biosequenzen nicht so einfach wie die Suche nach Organismen. Ein derart kontrolliertes Vokabular, wie es für die Taxonomie eingeführt wurde, wäre von Vorteil. Dahingehende Bestrebungen werden in der Genontologie (GO) verfolgt. Auch die Einführung offizieller Gensymbole ist ein wichtiger Schritt, um Daten der Molekularbiologie leichter recherchieren zu können. Im Folgenden werden die Besonderheiten der Genome, Gene und Proteine kurz vorgestellt, die für die Informationssuche im Bereich der Molekularbiologie relevant sind.
DNA In einem DNA-Molekül gibt es vier verschiedene Basen, deren Reihenfolge für den Informationsgehalt der DNA ausschlaggebend ist. In einem Nukleotid können entweder die Purinbasen Adenin (A) oder Guanin (G) oder die Pyrimidinbasen Cytosin (C) oder Thymin (T) vorkommen. Die Nukleotide sind über die Zucker- und Phosphatkomponenten miteinander verbunden. Die Zuckerkomponente der DNA, die Desoxyribose, ist eine Pentose, die am fünften C-Atom einen Phosphatrest gebunden hat, und am dritten C-Atom eine Alkoholgruppe trägt. Über diese OH-Gruppe wird die Verbindung zum Phosphatrest des nachfolgenden Nukleotids geknüpft. Die Base ist über eine Kondensationsreaktion am C-Atom Nummer eins des Zuckers 21
22
3. Moleküle der Erbinformation
gebunden. Auf Grund dieser Tatsache spricht man von einem 5’-Ende und einem 3’-Ende der Nukleotidkette. Die Basen „hängen“ demnach an einem Strang bzw. Rückgrat von alternierenden Zucker- und Phosphatresten. Da diese Verknüpfung für alle Nukleotide gleich ist, erfolgt die Namensgebung für die Nukleotidabfolge ausschließlich über die Benennung der basischen Komponente als Ein-BuchstabenKodierung. So entspricht die Sequenz ACTG einer Aneinanderreihung der Nukleotide Adenin, Cytosin, Thymin und Guanin. Des Weiteren bilden die Basen A und T untereinander zwei Wasserstoffbrückenbindungen aus, C und G sogar drei. Diese Bindungen erfolgen zu Basen eines benachbarten gegenläufigen Nukleotidstranges, was zur Ausbildung einer Doppelhelix führt. Eine DNA ist somit ein doppelsträngiges Molekül mit einem Plus-Strang (5’-3’-Richtung) und einem Minus-Strang (3’-5’ Richtung). Würde man jetzt eine Sequenz von 5000 Nukleotiden Länge durchnummerieren, so kann es Gene auf dem Plus-Strang von z.B. Base 150 bis 1200 geben und Gene auf dem Minus-Strang von z.B. Base 4300 bis 3100. Alle kodieren in 5’-3’ Richtung und sind so auch in den Datenbanken hinterlegt, also stets in 5’-3’ Richtung. Der jeweilige andere Strang ist der komplementäre Strang, der die DNA-Sequenz aufgrund der spezifischen Basenpaarung ebenfalls eindeutig wiedergibt. Die Information eines komplementären Stranges ist demnach dieselbe wie die des ursprünglichen Stranges. Die Information einer reversen Sequenz, d.h. einer vom 3’ Ende gelesenen Sequenz, ist jedoch eine völlig andere. Zur Verdeutlichung der DNA-Struktur siehe auch die Grafiken unter http://www.accessexcellence.org/, wie z.B. http://www.accessexcellence.org/RC/VL/GG/dna_molecule.html und http://www.accessexcellence.org/RC/VL/GG/dna2.html. Da es bei der Sequenzierung einer Nukleotidsequenz zu nicht eindeutigen Ergebnissen kommen kann oder in einer untersuchten Sequenz Variationen vorliegen können, müssen auch variable Stellen der Sequenz eindeutig beschrieben werden können, d.h. es bedarf eines Platzhalters in der Ein-Buchstaben-Kodierung. So erfolgt die Beschreibung von mehreren möglichen Basen an derselben Stelle in einer Nukleotidsequenz entsprechend der Festlegung einer internationalen Kommission, der IUPAC (International Union of Pure and Applied Chemistry; s. Tab. 3.1) nach dem Ambiguity Code (ambiguity, engl. Vieldeutigkeit). Tabelle 3.1: Die Angabe von mehreren möglichen Basen in einer Sequenz erfolgt nach den Richtlinien der IUPAC (International Union of Pure and Applied Chemistry), dem Ambiguity Code. N R Y S W M
A, C, G oder T A oder G (Purin-Basen) C oder T (Pyrimidin-Basen) C oder G (starke/„strong“ Interaktion) A oder T (schwache/„weak“ Interaktion) A oder C (Amino-Basen)
K B D H V
G oder T (Keto-Basen) C, G, oder T (nicht A) A, G oder T (nicht C) A, C oder T (nicht G) A, C oder G (nicht T)
3. Moleküle der Erbinformation
23
RNA Ribonukleinsäure (RNS bzw. engl. RNA engl. für ribonucleic acid) wird von der RNA-Polymerase gebildet. Dazu wird das doppelsträngige DNA-Molekül aufgebrochen und ein neuer, zum Matrizenstrang komplementärer, Strang gebildet. Als Matrize dient der 3’-5’ Strang. Der neu synthetisierte RNA-Strang entsteht in der 5’3’ Orientierung. Somit wird die gleiche Sequenz synthetisiert, die vom Gen vorgegeben ist. Dieser Vorgang wird als Transkription bezeichnet, da die genetische Information von der DNA abgeschrieben und in RNA umgeschrieben wird. Im Gegensatz zum Thymin in der DNA wird bei der RNA die Base Uracil (U) eingebaut. Weitere Unterschiede zur DNA liegen in der Verwendung der Zuckerart und ihrer Struktur. So ist in einem RNA-Molekül Ribose anstelle von Desoxyribose eingebaut, ferner ist sie vorrangig einzelsträngig. Intramolekulare Basenpaarungen des Einzelstranges führen zur Ausbildung unterschiedlicher RNA-Strukturen wie Haarnadelschleifen, Helices oder Kleeblattstrukturen. RNA kann über Wasserstoffbrückenbindung an andere Nukleinsäuren spezifisch und reversibel binden. RNA-Moleküle werden entsprechend ihrer Funktionen bezeichnet als: • mRNA (messenger RNA, Boten-RNA) überträgt die Information der DNA für die Herstellung der Aminosäuresequenz vom Zellkern zu den Ribosomen im Zytoplasma. • hnRNA (heterous nuclear RNA, primäres Transkript) ist die Vorstufe der mRNA, rRNA oder tRNA im Zellkern von Eukaryoten und wird weiter prozessiert. • snRNA (small nuclear RNA, kleine Kern-RNA) ist Bestandteil der Spleißosomen (etwa 150 Nukleotide lang) und trägt zur katalytischen Funktion der Spleißosomen bei. • rRNA (ribosomale RNA) ist Bestandteil der Ribosomen und trägt sowohl zur katalytischen Funktion als auch zur Struktur der Ribosomen bei. Die Untergruppen sind 28S rRNA, 18S rRNA und 5,8S rRNA (etwa 5000, 2000 bzw. 16 Nukleotide). • tRNA (transfer-RNA) ist ein kurzes einsträngiges Molekül (ca. 80 Nukleotide) mit einer so genannten Kleeblatt- oder L-Struktur. Sie überbringt die Aminosäuren zum Ort der Proteinbiosynthese, den Ribosomen. • Kleine RNA (small RNA), manchmal auch tnRNA genannt (tiny-noncodingRNA), sind zwischen 21 und 28 Nukleotide lang und erfüllen wichtige Funktionen bei der Regulation von zellulären Prozessen. Sie entstehen bei der Zerkleinerung von doppelsträngigen Vorläufermolekülen durch unterschiedliche RNAsen vom Typ III. Die bekanntesten Molekülarten sind: • miRNA (von micros = griech. klein) sind einzelsträngige RNAs von ca. 22 Nukleotiden Länge, miRNA ist an Prozessen der Translation und dem Abbau einer Ziel-mRNA beteiligt, die aufgrund von komplementären Sequenzen erkannt wird. • siRNA (small interfering RNA) ist einzelsträngige RNA von 21–28 Nukleotiden Länge, die von der RNAse TypIII namens „Dicer“ aus einer endogenen RNA herausgeschnitten werden. Oft wird auch kleine einzelsträngige RNA, die in der Biotechnologie bei der Methode der RNA-Interferenz (RNAi) Anwendung findet, als siRNA bezeichnet.
24
3. Moleküle der Erbinformation
Zur Verdeutlichung der RNA-Struktur sowie dem Vorgang der Transkription siehe auch die Grafiken unter http://www.accessexcellence.org/ wie z.B. http://www.accessexcellence.org/RC/VL/GG/rna2.html und http://www.accessexcellence.org/RC/VL/GG/protein_synthesis.html
Die Organisation der Gene Der Begriff Gen bezeichnet die genetische Information, die ausgehend von einem DNA-Molekül in ein einzelnes RNA-Molekül und schließlich in ein einziges Protein umgeschrieben wird. Ausnahmen bilden die Gene für RNAs, die nicht in Proteine übersetzt werden (zum Beispiel rRNAs oder tRNAs). Den Bereich eines Chromosoms, auf dem sich ein bestimmtes Gen befindet, nennt man den Locus eines Gens. In diploiden Organismen, die homologe Paare von Chromosomen besitzen, bezeichnet man die verschiedenen Ausprägungen eines Gens als Allele. Sowohl Ein- als auch Vielzeller müssen ihre Gene als Antwort auf innere oder äußere Signale an- oder abschalten können. Die Genexpression, d.h. die Bildung von Proteinen, wird in allen Organismen unter anderem durch DNA-bindende Proteine reguliert. Neben der Basensequenz, die für ein Protein codiert, gehören daher noch regulatorische Sequenzen zu jedem Gen. Den Bereich, in dem die RNA-Polymerase und die Transkriptionsfaktoren binden, bezeichnet man als den Promotor. Auch auf dem RNA-Transkript befinden sich regulatorische Einheiten (Sequenzen), die z.B. Signale für die RNA-Prozessierung beinhalten. Weitere Sequenzen wie z.B. für die Kontrolle der Genexpression befinden sich stromaufwärts und/oder -abwärts des Gens sowie in den Intronbereichen von eukaryotischen Genen. Ereignisse nach der Transkription wie die RNA-Prozessierung, Regulation des RNA-Abbaus, die Kontrolle der Translation (z.B. durch Inaktivierung eines Translations-Initiationsfaktors) und letztendlich auch die Veränderung und der Abbau der entstandenen Proteine vervollständigen die zahlreichen Regulationsmöglichkeiten eines eukaryotischen Gens. Eine DNA-Sequenz kodiert eine Aminosäuresequenz über die so genannten Basentripletts. Dabei werden jeweils drei aufeinanderfolgende Basen (Triplett bzw. Codon) in eine Aminosäure übersetzt. Rein rechnerisch ergeben sich aus vier Basen, die zu jeweils einem Triplett kombiniert werden können, 64 mögliche Kombinationen. Nun sind jedoch nur 22 Aminosäuren proteinogen, d.h. nur diese können von einem Organismus in eine Proteinsequenz eingebaut werden, wohingegen alle 64 Tripletts eine Bedeutung haben. So können z.B. bis zu 6 Tripletts für eine einzige Aminosäure (z.B. Leu) kodieren. Drei verschiedene Tripletts kodieren einen Stopp der Translation. Damit ist der sogenannte „genetische Code“ redundant, aber eindeutig. Obwohl die Codons GAA und GAG beide für Glutaminsäure stehen (Redundanz), kodiert keines von ihnen eine andere Aminosäure (Eindeutigkeit). Man spricht auch vom „degenerierten genetischen Code“ (siehe. Abb. 3.1). Die Übersetzung der mRNA-Sequenz in die Proteinsequenz ist von dem Nukleotid abhängig, bei dem mit einer Übersetzung/Translation begonnen wird. Theoretisch gibt es drei Leseraster, die der Übersetzung der Nukleotidsequenz dienen können. Das erste Leseraster beginnt bei der ersten Base, das zweite bei der
3. Moleküle der Erbinformation
25
Abbildung 3.1: Der genetische Code. Ein Basentriplett kodiert für eine Aminosäure. Die Aminosäure ist jeweils hinter dem Triplett in der Ein-Buchstaben-Kodierung und der Abkürzung angegeben (The Genetic Codes: http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c).
zweiten Base und das dritte bei der dritten Base. Lange, in einem Stück lesbare Abschnitte ohne ein Stoppkodon bezeichnet man als offenen Leserahmen oder offenes Leseraster (ORF, engl. für open reading frame). Nimmt man jedoch die genomische DNA-Sequenz zur Analyse von offenen Leserastern hinzu, so ergeben sich insgesamt 6 dieser Raster. Die reversen Leseraster erhalten die Nummerierung –1 bis –3. Zusammenfassend sind in Tabelle 3.2 die Unterschiede im Genaufbau und in der Genregulation zwischen Eu- und Prokaryoten aufgeführt. Ein klassisches Beispiel für die Kontrolle der Genexpression ist das Lac-Operon, eine Transkriptionseinheit mit drei Genen für den Laktoseabbau bei Escherichia coli (http://www.accessexcellence.org/RC/VL/GG/induction.html) sowie die koordinative Genexpression über den Glukokortikoidrezeptor in An- und Abwesenheit von Glukokortikoid-Hormonen (http://www.accessexcellence.org/RC/VL/GG/ecb/ gene_expression_protein.html ). Im Allgemeinen werden Gene in jedem Stadium ihrer Funktion, d.h. vom Ruhezustand bis hin zum funktionstüchtigen Protein, reguliert (zur Veranschaulichung http://www.accessexcellence.org/RC/VL/GG/ecb/ gene_expression.html ).
26
3. Moleküle der Erbinformation
Tabelle 3.2: Unterschiede in der Genorganisation und Genexpression bei Pro- und Eukaryoten. Prokaryoten • Das Genom hat eine hohe Gendichte. • Gene sind kontinuierliche Segmente auf der DNA, die kolinear mit der mRNA sind. • Gene sind in Gengruppen (Operons) angeordnet, die Reihenfolge ist meist konserviert. • Gene haben lange offene Leserahmen (ORFs). • In der Nähe dieser „Operons“ liegen gut charakterisierte Regionen, z.B. die PribnowBox oder die -35-Region.
• Gene werden meist auf der Transkriptionsebene reguliert. • Durch die Anordnung in Operons werden die jeweiligen Gene eines Operons auf dieselbe Weise reguliert. • Alle RNA-Typen werden von einer RNA-Polymerase gebildet. • mRNA wird während der Transkription bereits translatiert.
Eukaryoten • Das Genom hat eine niedrige Gendichte. • Die kodierenden Bereiche eines Gens werden im Genom durch nicht-kodierende Regionen (Introns) unterbrochen. • Durch alternatives Spleißen kommt es zu mehreren Genprodukten, die sich alle von einem Gen ableiten. • Gene haben kurze offene Leserahmen (ORFs). • Regulatorische u.a. Elemente in der Nähe von kodierenden Sequenzen sind wenig charakterisiert und nicht einheitlich (viele, aber nicht alle Promoter-Regionen haben eine TATA-Box oder CAAT-Box). • Regulation der Gene erfolgt auf allen Ebenen von der DNA bis zum Protein. • Gene verwandter Funktion sind mit den gleichen Kontrollelementen kombiniert (koordinierte Expressionskontrolle). • Für die Synthese der verschiedenen RNATypen gibt es drei verschiedene RNA-Polymerasen. • hnRNA wird gespleißt und prozessiert, bevor sie im Zytoplasma translatiert wird (Wechsel des Zellkompartiments).
Proteine Proteine sind dreidimensionale dynamische Gebilde, die in einem Molekül stabile und weniger stabile Strukturelemente enthalten können. Sie können reversiblen und irreversiblen Strukturänderungen unterliegen. Es werden vier Strukturebenen unterschieden: • Die Primärstruktur oder -sequenz ist die Aufeinanderfolge der Aminosäuren in der Polypeptidkette. Die Schreibweise der Sequenz erfolgt stets so, dass links mit der Aminosäure begonnen wird, die die freie _-Aminogruppe trägt (N-Terminus) und rechts mit der Aminosäure geendet wird, die die freie _-Carboxylgruppe trägt (C-Terminus). Die Beschreibung einer Proteinsequenz folgt ebenfalls einheitlichen Regeln. So kann zwar zwischen der Ein-Buchstaben-Kodierung und der Drei-Buchstaben-Kodierung gewählt werden, die Platzhalter für die Aminosäuren sind jedoch eindeutig (siehe Tabelle 3.3).
27
3. Moleküle der Erbinformation
• Die Sekundärstruktur beschreibt die in der Sequenz auftretenden charakteristischen Strukturelemente wie z.B. _-Helix, `-Faltblatt (`-sheet) und Haarnadelstrukturen (hair pin, `-turn). • Die Tertiärstruktur beschreibt die gesamte Raumstruktur, die sich durch die Verknüpfung von Polypeptidketten über kovalente Bindungen ergibt. • Die Quartärstruktur beschreibt die Raumstruktur eines funktionstüchtigen Proteins. Dies kann aus nur einer oder aus mehreren, nicht kovalent mit einander verbundenen Polypeptidstrukturen (Untereinheiten) bestehen. Proteine können nach ihrer chemischen Zusammensetzung (z.B. Glykoproteine, Phospho-proteine, Proteolipide, Hämproteine), ihrer Lokalisation (z.B. Kernproteine, zytoplasmatische Proteine, Membranproteine) und ihrer Funktion (Transportproteine, Speicherproteine, Rezeptorproteine, Enzyme etc.) eingeteilt werden. Mehrere dieser Charakteristika können auf ein Molekül zutreffen. Tabelle 3.3: Die 22 proteinogenen Aminosäuren und ihre Abkürzungen. Eine Aminosäuresequenz ist in einer Datenbank immer in der Kurz-Kodierung angegeben. codierte Aminosäure Alanin Arginin Asparagin Asparaginsäure Cystein Glutamin Glutaminsäure Glycin Histidin Isoleucin Leucin Lysin Methionin Phenylalanin Prolin Pyrrolysine Selenocysteine Serin Threonin Tryptophan Tyrosin Valin
IUPAC-IUC-Code Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Pyl Sec Ser Thr Trp Tyr Val
Kurz- Code A R N D C Q E G H I L K M F P
S T W Y V
28
3. Moleküle der Erbinformation
Protein Fingerprints, Familien, Domänen und mehr Die Begriffe Protein-Fingerabdruck (engl. fingerprint), -Motiv, -Domäne, -Pattern und -Profil werden mehr oder weniger als Synonyme gebraucht. Sie unterscheiden sich allerdings bei genauer Betrachtung. So beinhaltet ein Fingerabdruck mehrere Motive, die zusammen eine Proteinfamilie charakterisieren. Eine Proteinfamilie ist eine Gruppe von homologen Proteinen, die eine oder mehrere gemeinsame Domänen aufweisen. Unter Motiv versteht man eine hoch konservierte Region, bei der es sich um eine Domäne, ein Pattern oder ein Profil handelt. Diese wiederum sind im Folgenden kurz erläutert. • Eine Domäne ist eine unabhängige Struktureinheit, die alleine oder zusammen mit anderen Domänen vorkommt. Domänen sind homolog. Auch wenn die Struktur einer Domäne nicht immer bekannt ist, so lassen sich doch oft die Grenzen einer Domäne über die Sequenz bestimmen. • Konservierte Domänen charakterisieren eine Proteinfamilie oder eine Proteinfunktion. • Protein Patterns sind kleine Regionen mit hoher Sequenzähnlichkeit (‚core‘ pattern). Sie werden über Sequenzalignments von einer Proteinfamilie beschrieben und charakterisieren biologisch relevante Sequenzmotive wie z. B. Katalytische Zentren von Enzymen, Bindungsstellen für prosthetische Gruppen (z.B. für Häm, Biotin etc.), Aminosäuren, die für Metallbindung verantwortlich sind, Cysteine, die zu Disulfidbrücken beitragen oder Regionen für Molekülbindung (ADP/ATP, GDP/GTP, calcium, DNA, etc.). • Profile (oder „weight matrices“) werden aus globalen Sequenzausrichtungen (Alignments) von Proteinfamilien oder -domänen entwickelt. Sie sind in Form einer PSSM (Position-specific Scoring Matrices) beschrieben, die unterschiedliche Gewichtungen (weights) für die Aminosäuren an einer ganz bestimmten Position in einem Protein widerspiegelt (mehr zu PSSMs s. Kap. 6). ! Ein Beispiel für eine Datenbank mit Proteinfamilien und -domänen ist PROSITE (zu finden bei ExPASy (http://www.expasy.org/prosite/)). Sie enthält > 1000 Signaturen für Proteinfamilien und Domänen mit biologischer Signifikanz. Die Signatur einer Proteinfamilie oder einer Domäne ist im PROSITE-Format angegeben (siehe Sequenzformate). ! Eine weitere Datenbank für Proteindomänen ist NCBI’s CDD – Conserved Domain Database (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=cdd). Sie enthält Daten der Datenbanken SMART (Simple Modular Architecture Research Tool, EMBL), PFAM (Protein Families, Sanger Inst.) und COG/KOG (Clusters of orthologous Groups – Pro- bzw. Eukaryoten, NCBI).
Stoffwechselwege – Netzwerke des Lebens Alle chemischen Elemente und Verbindungen unseres Körpers, vom Spurenelement bis zum Protein, sind eingebunden in biochemische Reaktionen. Viele dieser Elemente sind an mehreren Reaktionen beteiligt und bilden so ein kompliziertes
3. Moleküle der Erbinformation
29
Netzwerk mit vielfachen Verknüpfungen. Da eine ganzheitliche Betrachtung der Biochemie in unserem Organismus schwierig ist, werden die metabolischen Reaktionswege oft isoliert betrachtet. Die folgende Auflistung beinhaltet nur Beispiele zur Veranschaulichung der Vielzahl an Stoffwechselwegen: (1) Zentralstoffwechsel • Kohlenhydrate (z.B. Zitronensäurezyklus, Glykolyse/Glukoneogenese, Pentosephosphatzyklus) • Aminosäuren (z.B. Harnstoffzyklus, Biosynthese aromatischer Aminosäuren, Proteolyse) • Lipide (Steroide) • Nukleotide (z.B. Purin- und Pyrimidinsynthese und -abbau) (2) Zelluläre Kommunikation und Signaltransduktionswege sowie Regulationsvorgänge (3) Nukleinsäurestoffwechsel und Proteinsynthese (DNA-Replikation/-Reparatur, Transkription, Translation) (4) Abwehrmechanismen, Immunsystem/Komplementsystem, Blutgerinnung/Fibrinolyse (5) Spezielle Reaktionswege von Bakterien und Pflanzen (z.B. Gärung, aerobe/anaerobe Atmung, Photosynthese, oxidative Phosphorylierung) In diesen Stoffwechselwegen stellen die Enzyme die Hauptakteure der chemischen Reaktionen dar. Enzyme enthalten neben einer aktivierenden Nicht-Protein-Komponente (Co-Faktor: Metall bzw. Co-Enzym) ein spezifisches Protein (= Apoenzym). Sie lösen oder knüpfen chemische Bindungen und enden meist auf „-ase“ (Ausnahmen sind Trivialnamen wie z.B. Typsin). Ihr Wirkungsprinzip beruht auf einer Herabsetzung der Aktivierungsenergie und der damit einhergehenden Steigerung der Reaktionsgeschwindigkeit, ohne dass sie dabei selbst eine chemische Veränderung erfahren.
ONLINE Viele Stoffwechselwege (engl. pathway) sind im Internet auf interaktiven Karten dargestellt. Auf den Karten der Ressourcen Kegg oder Biocarta gelangt man über einen Mausklick zu jeweils mehr Informationen über die Moleküle, die in den Wegen eine Rolle spielen. Der Einstieg zu den Informationen erfolgt entweder über eine Browsing-Funktion (Auswahl des Pathways mit weiterem Mausklick zur genspezifischen Information) oder über die Suche über den Gennamen bzw. Proteinnamen. Die bekanntesten Ressourcen für die Recherche in Stoffwechselwegen sind ! BioCarta online maps (http://www.biocarta.com/genes/allPathways.asp) ! KEGG Pathway Database – Kyoto Encyclopedia of Genes and Genomes (http://www.genome.ad.jp/kegg/pathway.html) ! Biochemical Pathways vom Expert Protein Analysis System (ExPASy) – Proteomics Server (http://www.expasy.ch/cgi-bin/search-biochem-index)
30
3. Moleküle der Erbinformation
! Kinase-Reaktionswege (http://kinase.uhnres.utoronto.ca/signallingmap. html) ! Weitere Pathway-Datenbanken sind im Journal Nucleic Acids Research Database Issue unter metabolic & signaling pathways aufgeführt (http://www.oxfordjournals.org/nar/database/c/) Die Datenbank ENZYME (http://www.expasy.org/enzyme/) enthält Enzyminformationen nach den Vorgaben des „Nomenclature Committee of the International Union of Biochemistry and Molecular Biology“ (IUBMB). Die Einträge müssen eine viergeteilte EC (Enzyme Commission)-Nummer aufweisen. Die Nummerierung unterliegt einer Einteilung nach der Enzymfunktion. Im Folgenden sind die 6 Enzymklassen aufgeführt. In jeder Klasse gibt es Untergruppen, die über die zweite und dritte Enzymnummer weiter beschrieben sind. Die Klassen sind beziffert mit 1. -. -.- für Oxidoreductasen, 2. -. -.- für Transferasen, 3. -. -.- für Hydrolasen, für 4. -. -.- Lyasen, 5. -. -.- für Isomerasen und 6. -. -.- für Ligasen.
Abbildung 3.2: Die Suchoptionen für die Datenbank ENZYME.
Programme für die Sequenzanalyse Es gibt zahlreiche Software und Softwarepakete für eine computergestützte Analyse von DNA- und Proteinsequenzen. Im Folgenden werden kurz Programme der Genstrukturanalyse sowie Ressourcensammlungen für die Analyse und Formatierung beider Sequenzarten vorgestellt. Bei der Genstrukturanalyse, d.h. der Erkennung der Exon-Intron-Struktur in einem Gen, müssen von einem Programm viele Eigenschaften eines Gens berücksichtigt werden. Manche Programme greifen einen Aspekt auf, vernachlässigen jedoch andere. So werden im Open Reading Frame Finder (ORF-Finder) „nur“ die Startkodons (ATGs und alternative Startkodons) identifiziert und der hier beginnende offene Leserahmen berechnet. Die Exon-Intron-Grenzen in einem Gen werden jedoch nicht näher ausgewertet. Mit Hilfe der Software SPLIGN können cDNA und genomische Sequenzen aneinander ausgerichtet bzw. aliniert (engl. aligned) werden. Exon-Intron-Übergänge werden berücksichtigt. Die Software GeneMachine versucht, über eine Sequenzanalyse mit unterschiedlicher Software ein aussagekräftiges Ergebnis zu erzielen. Des Weiteren ist es schwierig, kleine Gene und Gene, die auf RNA-Ebene agieren, zu identifizieren.
3. Moleküle der Erbinformation
31
ORF Finder In diesem Programm können DNA-Sequenzen eingeben werden, deren offene Leseraster mit nur einem Mausklick angezeigt werden können. Das Programm akzeptiert Sequenzen im FASTA-Format oder auch eine Zugriffs-/Accession-Nummer, um auf die NCBI-Nukleotid-Datendomäne zuzugreifen (mehr zu Accession-Nummern und der Nukleotid-Datendomäne des NCBI s. Kap. 4). Nach der Eingabe der Nummer bzw. der Sequenz genügt der Mausklick bei „OrfFind“ (siehe Abb. 3.3).
Abbildung 3.3: Erläuterungen im Text
32
3. Moleküle der Erbinformation
Das Programm übersetzt die DNA-Sequenz in alle sechs Leserahmen. In einer Grafik wird die Position für jeden gefundenen ORF angezeigt, der sich mindestens über einen Sequenzabschnitt von 100 bp (Standardeinstellung) erstreckt. Diese Einstellung kann über ein Pull-down-Menü in ORFs von 50 bzw. 300 bp geändert werden. Des Weiteren können die ORFs angeklickt werden, um mehr Informationen über das Protein (AS Reihenfolge, Protein Länge) zu gewinnen. Die Sequenzen der vorausgesagten Proteinprodukte können direkt mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST), einer Sequenzähnlichkeitssuche in einer Proteinsequenzdatenbank, weiter untersucht werden. Verschiedene genetische Kodierungen können für die Übersetzung der DNA- in die Proteinsequenz ausgewählt werden (Standard oder alternative genetische Kodierung für prokaryotische sowie eukaryotische Organismen stehen zur Verfügung). Alternativ können über die Funktion „SixFrames“ alle Start- und Stopkodons in allen sechs Leserastern angezeigt werden (siehe Abb. 3.4).
Abbildung 3.4: Erläuterungen im Text
Analyse der genomischen Sequenz von HBB (Accession no L48217) mit Hilfe des ORF-Finders. Das Ziel der Analyse ist die Identifizierung des kodierenden Gens einschließlich seiner Exon- und Intron-Sequenzen. 1. ORF-Finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html): Eingabe der Sequenz und „OrfFind“ mit dem genetischen Code „Standard“ 2. Ergebnis
3. Moleküle der Erbinformation
33
Das Ergebnis zeigt einen offenen Leserahmen im ersten Leseraster, drei offene Leserahmen im zweiten Leseraster und zwei offenen Leserahmen im dritten Leseraster sowie einen offenen Leserahmen in der reversen Kodierung. Welche Leserahmen sind sinnvoll und richtig? Welche Proteinsequenzen kodieren hier eventuell? Um diese Fragen zu beantworten, klicken Sie auf die zu untersuchenden Leserahmen und führen eine Sequenzähnlichkeitssuche über BLASTp durch. Sie erhalten für den ersten Leserahmen (217..402) im ersten Leseraster folgendes Ergebnis:
Die längste Übereinstimmung zeigt die Sequenz (Query) mit einer Sequenz des Schimpansen (Pan troglodytes; Sbjct = subject). Die beiden Sequenzen sind bis zur Aminosäure 45 zumindest ähnlich. Absolut identisch ist die Übereinstimmung bis zur Aminosäure 36. Der zweitbeste Treffer ist eine menschliche Sequenz. Hier zeigen die beiden Sequenzen eine 100%ige Übereinstimmung über einen Bereich von 32 Aminosäuren. Da meistens bekannt ist, aus welchem Organismus die Sequenz stammt, können Sie sich die Trefferanalyse erleichtern, indem Sie einen entsprechenen Filter anlegen (mehr zu BLAST-Einstellungen s. Kapitel 6). Die weiteren ORFs werden ebenfalls über eine BLAST-Suche analysiert. Für den langen Leserahmen des zweiten Leserasters (281..682) wird folgendes Ergebnis erzielt:
34
3. Moleküle der Erbinformation
Die beste Sequenzübereinstimmung mit dem Leserahmen ergibt ein Proteinabschnitt mit einer Globin-Region. Die Übereinstimmung betrifft die Aminosäuren 53 des Leserahmens und 31 in der gefundenen Sequenz. Die Länge der Übereinstimmung beträgt 81 Aminosäuren, d.h. bis zur Aminosäure 133 (Query) und 111 (Sbjct), obwohl das untersuchte Leseraster für 134 Aminosäuren kodiert. Der dritte Leserahmen (758..904) zeigt eine Region sehr geringer Komplexität (low complexity region), wie sie z.B. sehr oft in Introns zu finden ist, und kodiert nicht für eine Proteinsequenz.
Ebenso nicht-kodierend ist der vierte (1427..1615) und fünfte (1248..1361) Leserahmen. Der letzte Leserahmen (1482..1640) der positiven Leseraster +1 bis +3 zeigt wieder 100%ige Übereinstimmung zu einem Globin-Gen, der betaUntereinheit von Hämoglobin. Die Übereinstimmung beginnt bei Aminosäure 10 des offenen Leserahmens (Aminosäure 105 vom sbjct) und endet bei Aminosäure 52 (Aminosäure 147 vom sbjct).
3. Moleküle der Erbinformation
35
Über diese BLAST-Analysen sind die richtigen Leserahmen sowie die kodierenden Bereiche des Gens identifiziert worden. Im nächsten Schritt kann die Proteinsequenz der Hämoglobin-Untereinheit zusammengesetzt werden. Die Proteinsequenz setzt sich zusammen aus: MVHLTPEEKSAVTALWGKVNVDEVGGEALGRL des ersten Leserahmens, LVVYPWTQRLFESFGDLFTPDAVMGNPKVKAHGKKVLGAFSDGPAHLDNLKGTFATLSELHCDKL HVDPENFR des zweiten Leserahmens und LLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH des dritten Leserahmens.
Die Exon/Intron-Grenzen der Nukleotidsequenz können im ORF-Finder nach Aktivierung des entsprechenden Leserahmens bestimmt werden. „Take-home message“ für Molekularbiologen • Exonsequenzen können in verschiedenen Leserastern abgelegt sein. Durch den Vorgang des Spleißens wird ein langer offener Leserahmen auf der mRNA erzeugt. • Die offenen Leserahmen fangen hier zwar alle mit einem ATG (Methionin) an (sonst wären sie vom Programm nicht gefunden worden), die Sequenzabschnitte, die für die fertige mRNA benötigt werden, jedoch nicht. Diese Abschnitte sind nur Teilbereiche eines offenen Leserahmens.
SPLIGN Über SPLIGN (http://www.ncbi.nlm.nih.gov/sutils/splign/) können mRNA(cDNA) an genomische Sequenzen angelegt werden. Über einen veränderten NeedlemanWunsch-Algorithmus werden die globalen Sequenzausrichtungen berechnet. Introns und Spleißstellen-Signale werden erkannt. Sequenzierungsfehler werden toleriert. Im Folgenden ist eine Sequenzausrichtung (engl. Alignment) für das Beta-Hämoglobin-Gen erstellt worden. Die Accession-Nummern der Nukleotidsequenzen sind NM_000518 für die mRNA und L48217 für die genomische DNA. Gezeigt werden die translatierte Region (Strich über den Balken), die mRNA mit den zusammengesetzten Exons, die genomische DNA sowie die Sequenzausrichtungen in den entsprechenden Exons (Segmenten). Punktmutationen sowie Insertionen und Deletionen sind in der Übersichtsgrafik (Balken) als Striche im Segment wie auch ausführlich in der Sequenzausrichtung angegeben (Abb. 3.5).
36
Abbildung 3.5: Die Suchoberfläche und das Ergebnis in SPLIGN.
3. Moleküle der Erbinformation
3. Moleküle der Erbinformation
37
NHGRI’s GeneMachine GeneMachine (http://www.genome.gov/10001504) ist über das National Human Genome Research Institute (NHGRI) zugänglich und beabsichtigt, die vergleichenden und bestimmenden Genkennzeichnungs-Techniken in einem einzigen Durchlauf abzuarbeiten. Das Ergebnis gibt es im ASN.1-Format per e-mail (BetrachtungsSoftware: Sequin). Für die Anwendung ist eine Benutzer-Registrierung notwendig. Die integrierten Analyseprogramme sind GRAIL für die Vorhersage von internen kodierenden Exons, MZEF für die Vorhersage von kodierenden Exons, GENSCAN für die Vorhersage von Gen-Strukturen, FGENES für die Vorhersage von Gen-Strukturen, HMMgene für die Vorhersage von Genen in anonymer DNA, RepeatMasker für die Vorhersage von komplexen Regionen und Wiederholungssequenzen, Sputnik für die Vorhersage von Wiederholungssequenzen und BLASTX und BLASTN für die Vorhersage von Sequenz-Homologien. Weitere Software für die Vorhersage von Genen • Gnomon (http://www.ncbi.nlm.nih.gov/genome/guide/gnomon.html). • Von der Webseite der Fachzeitschrift „Nucleic Acids Research“ (http://nar.oxfordjournals.org/) führt ein Link zu NAR Methods online (http:// nar.oxfordjournals.org/collections/index.dtl). Auf dieser Seite sind Methoden der biotechnologischen Forschung nach unterschiedlichen Kategorien wie z.B. Computational Methods oder DNA Characterisation zusammengestellt und suchbar. So führt eine Suche nach „gene prediction“ (als PHRASE in ABSTRACT und TITLE gesucht) in Computational Methods zu sechs Artikeln aus NAR. Sammlungen großer und kleiner Analyse-Tools ! ExPASY – Expert Protein Analysis System Proteomics Server (http://www. expasy.org), einer der wichtigsten Webserver für die Suche und Analyse von Proteinsequenzen (Abb. 3.6). ! Sequence Manipulation Suite (http://bioinformatics.org/sms2/) ! Molecular Biology Gateways & Tools (http://www.biotools.info/tools.html) ! NAR Methods online (http://nar.oxfordjournals.org/collections/index.dtl)
38
3. Moleküle der Erbinformation
Abbildung 3.6: Die beiden wichtigsten Rubriken von ExPASy. ExPASy beherbergt u.a. eine der wichtigsten Datenbanken für Proteininformationen, UniProt Knowledgebase. Unter den Tools & Software packages gibt es eine große Sammlung nützlicher Programme für die Proteinanalyse. Sie sind thematisch nach den hier rechts aufgeführten Kriterien sortiert.
Literaturvorschläge
Die Vorgänge der Transkription und der Prozessierung (Polyadenylierung, Capping am 5’-Ende, Spleißen) des Primärtranskriptes sowie die Vorgänge der Translation und posttranslationaler Modifizierungen sind in folgenden Lehrbüchern ausführlich beschrieben: • Lehrbuch der Genetik von Wilhelm Seyffert, Rudi Balling, Astrid Bunse, HeinzGert de Couet. Spektrum Akademischer Verlag; Auflage: 2 (Oktober 2003). ISBN10: 3827410223 • Lehrbuch der Molekularen Zellbiologie von Bruce Alberts, Dennis Bray, Karen Hopkin. Wiley-VCH; Auflage: 3 (April 2005). ISBN-10: 3527311602
Übungen (1) Welchen genetischen Code würden Sie für die Translation von Moneuplotes crassus-Sequenzen anwenden? Was sind die Besonderheiten in diesem genetischen Code? (2) Charakterisieren Sie die Proteinsequenz SWISS_PROT Accn.no P35523 mit ProtParam, Compute pI/Mw und PeptideMass • Was sind die Parameter der potentiellen extrazellulären Domäne des Proteins (aa 858-988)? • Welche Peptide entstehen bei einem tryptischen Verdau des Proteins? (3) Welche Enzyme benötigen Selen als Co-Faktor?
4 Biowissenschaftliche Datenbanken Der Aufbau biowissenschaftlicher Datenbanken In den frühen 60er Jahren, kurz nach Bekanntwerden der ersten Proteinsequenzen, sammelten Margaret O. Dayhoff (1925–1983; erste Bioinformatikerin) und ihre Mitarbeiter alle zu der Zeit bekannten Proteinsequenzen und erstellten einen Katalog. Dieser wurde1965 als „Atlas of Protein Sequences and Structures“ publiziert und enthielt 65 Sequenzen. Was damals in einem kleinen Buch zusammengetragen wurde, war leicht zu recherchieren. Heute fallen Sequenzdaten von Proteinen und Nukleotiden in großen Mengen an und werden elektronisch gespeichert. Um diese Daten sinnvoll nutzen zu können, sollten sie nicht nur in einen Datenpool eingespeist werden, sondern vor der Ablage in einer einheitlichen Form beschrieben und kategorisiert (indexiert) werden. Nur so lassen sie sich über eine Datenbankabfrage wieder aus dem Datenpool extrahieren. Für die Datenbankabfrage sind verschiedene Abfragesysteme, so genannte „Retrieval“ Systeme, wie z.B. Entrez oder das Sequence Retrieval System (SRS) entwickelt worden. Datenbanken können unterschiedlich aufgebaut sein. Man unterscheidet zwischen hierarchischen, netzwerkartigen, relational strukturierten und objektorientierten Datenbanken. Für die Hinterlegung von Daten aus der experimentellen Forschung im Bereich der Lebenswissenschaften bilden die relationalen Datenbanken die größte und wichtigste Datenbankgruppe. Ein relationales System bietet das höchste Maß an Flexibilität zur Verknüpfung von Daten. Wie der Name schon sagt, stehen die Daten in einer relationalen Datenbank miteinander in Beziehung. Die Daten sind in Tabellen hinterlegt. Der Zugriffsweg zu den gespeicherten Informationen ist nicht festgelegt. Erst wenn eine Information benötigt wird, definiert der Anwender über die Suchabfrage den Weg zur Extraktion der Daten.
Auswahl und Beurteilung einer Datenbank Der erste Schritt bei einer Datenbanksuche ist die Wahl einer geeigneten Datenbank. Dem Wissenschaftler im Bereich der Lebenswissenschaften stehen heute ungefähr 41
42
4. Biowissenschaftliche Datenbanken
1000 Datenbanken zur Verfügung. Um es nicht dem Zufall zu überlassen, ob die Datenbank, die für die zu untersuchende Fragestellung benutzt wird, wirklich die optimale ist, sind daher die folgenden drei Überlegungen entscheidend: • Sind die Informationen, die ich suche, von genereller Art (z.B. alle Informationen zu einem Gen/Protein, zur genomischen Sequenz vom Chromosom „x“) oder spezieller Art (z.B. die 3-D-Struktur von Protein „x“, Genexpressionsdaten im Gewebe „x“ unter der Bedingung „y“)? • Aus der Dokumentation zu einer Datenbank geht hervor, woher die aufgenommenen Daten kommen, mit welchem Ziel die Datenbank erstellt wurde und welche Informationen zur Verfügung stehen. Nachdem Sie sich über die Datenbank informiert haben, sollten Sie abschätzen können, ob die Informationen, die Sie suchen, auch in der Datenbank enthalten sind. In einer guten Datenbank sollten alle Informationen mit den Originaldaten verknüpft bzw. die Quelle der Daten dokumentiert sein, wie z.B. bei Entrez-Gene (Zusammenstellung sämtlicher Informationen zu einem Gen) oder PDB (Protein Database; dreidimensionale Strukturen von Proteinen). • Soll eine Datenbank mit rohen, nicht überarbeiteten Daten, mit bearbeiteten/ bewerteten Daten oder mit ausgewerteten Daten benutzt werden? • Jede Datenbank hat Vor- und Nachteile. Wichtig ist, dass Sie mit den richtigen Daten für ihre Fragestellung weiterarbeiten. So ist es z.B. für das Auffinden von Spleißvarianten sinnvoll, mit rohen/primären Daten zu arbeiten, also eine Datenbank, die alle zur Verfügung stehenden Sequenzen, einschließlich Expressed sequence tag (EST)-Sequenzen, enthält, zu benutzen. Für die Charakterisierung von Proteinfunktionen ist es jedoch besser, Datenbanken mit bearbeiteten Daten zu benutzen, die schon sehr gut charakterisierte Proteine mit ähnlichen Domänen enthalten. Datenbanken werden daher nach ihrem Bearbeitungsstatus eingeteilt: • Primäre Datenbanken sind Archivdatenbanken mit rohen Daten, vielen Duplikaten und nicht kontrollierten und überarbeiteten Einträgen, z.B. GenBank/EMBL/DDBJ. • Sekundäre Datenbanken sind zum einen überarbeitete Datenbanken ohne Duplikate, mit prozessierten, (oftmals) kommentierten Daten wie z.B. bei den Datenbanken Swiss-Prot und RefSeq, zum anderen aber auch Datenbanken mit Datensätzen, die aus einer Auswertung anderer Datensätze hervorgehen wie z.B. bei den Datenbanken UniGene (ESTCluster) oder COG (Clusters of Orthologous Groups). • Wenn die Daten, die ich suche, in der Datenbank „x“ vermutet werden, sind sie dann so hinterlegt, dass genau diese Information auch suchbar ist? • Hinter dieser Überlegung steht die Frage nach der Suchoberfläche. So gibt es in PubMed z.B. viele Artikel, die im Methodenteil die angewendete Methode beschreiben. Leider bietet die Suchoberfläche für die Artikel in PubMed nicht die Möglichkeit, die Suche auf eine bestimmte experimentelle Methode zu fokussieren und die Suche unter diesem Aspekt einzugrenzen. Dies ist in anderen Datenbanken wie z.B. in „Biological Abstracts“, die von OVID angeboten wird, mit anderer Suchoberfläche besser gelöst.
4. Biowissenschaftliche Datenbanken
43
Datenbank-Übersichten In Anbetracht der großen Anzahl von existierenden Datenbanken ist die Frage, wo es Übersichten und zuverlässige Informationen zu den Inhalten und Anwendungsfeldern gibt. Im Folgenden sind die wichtigsten Quellen aufgeführt. Eine der umfassendsten Informationsquellen über Datenbanken für die Lebenswissenschaften ist die Fachzeitschrift „Nucleic Acids Research“ (NAR). Die jeweils erste Ausgabe eines Jahres beinhaltet eine Auflistung von öffentlich zugänglichen molekularbiologischen Datenbanken. Im Januar 2007 gab es hier 968 Einträge. Diese Datenbanken sind in folgende Kategorien eingeteilt: • Nucleotide Sequence Databases, RNA Sequence Databases, Protein Sequence Databases, Structure Databases, Genomics Databases (non-vertebrate), Metabolic and Signaling Pathways, Human and other Vertebrate Genomes, Human Genes and Diseases, Microarray Data and other Gene Expression Databases, Proteomics Resources, Other Molecular Biology Databases, Organelle Databases, Plant Databases, Immunological Databases. Viele dieser Datenbanken sind in einer Publikation beschrieben. Da es sich bei NAR um ein so genanntes „Open Access Journal“ handelt, sind alle Artikel frei über das Internet verfügbar. Der Weg zu der Datenbanksammlung ist wie folgt: • Gehen Sie zur Webseite von “Nucleic Acids Research” (NAR; http://nar.oxfordjournals.org/) • Klicken Sie auf den Link „2007 Database Issue“ (rechts; http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl) • Der erste Artikel ist von Michael Y. Galperin und lautet: The Molecular Biology Database Collection: 2007 update. Unter diesem Artikel gibt es den Link zu den Datenbanklisten (Database Summaries; http://nar.oxfordjournals.org/cgi/content/full/35/suppl_1/D3/DC1). Hier kann in der „Category List“, der „Summary Paper List“ oder der „Complete Category/Summary Paper List“ gestöbert werden und/oder unter der Funktion „Search Summary Papers“ nach einem Datenbankartikel gesucht werden. Es lohnt sich, einmal in der „Category List“ zu stöbern. Weitere Datenbank-Übersichten gibt es unter den „Selected Resources“ der Informationsvermittlungsstelle von der Bio-Medizinischen Sektion der Max-Planck-Gesellschaft (http://wwwex.biochem.mpg.de/iv/external.html). Neben den hier behandelten kostenfreien Datenbanken gibt es Datenbanken, in denen die Recherche kostenpflichtig ist, so wie die MEDLINE-Recherchen, die man bis in die 90er Jahre in der Bibliothek über den Datenbankanbieter „Silverplatter“ durchführte. MEDLINE wurde von den Bibliotheken abonniert. An vielen Instituten ist heute der Zugriff auf viele Datenbanken und Zeitschriften über das Web of Knowledge bzw. Web of Science gewährleistet. Auch dieser Service ist kostenpflichtig. Bei anderen Datenbankanbietern wie z.B. dem deutschen Institut für Medizinische Dokumentation und Information (DIMDI) oder STN-International (Scientific & Technical Information Network) können die Datenbankrecherchen online durchgeführt werden. Die Kosten für eine Datenbankrecherche variieren je nach Anbieter und Datenbank. So kann die Verweildauer in einer Datenbank, die
44
4. Biowissenschaftliche Datenbanken
Dokumentenansicht oder beides kostenpflichtig sein. In sehr teuren Datenbanken, wie z.B. den Patentdatenbanken, ist es daher sehr wichtig, die Suchanfrage so präzise wie möglich zu stellen, um in möglichst kurzer Zeit nur die absolut relevanten Dokumente zu erhalten. Professionelle Suchdienste sind darauf spezialisiert, in den kostenpflichtigen Systemen zu recherchieren. Die Datenbanken des National Center for Biotechnology Information (NCBI) Das National Center for Biotechnology Information (NCBI) in Bethesda, Maryland wurde 1988 als zentrales Institut für Datenverarbeitung und Speicherung molekularbiologischer Daten gegründet. Es gehört zu den National Institutes of Health (NIH) der Vereinigten Staaten von Amerika. Auf den Webseiten des NCBI stehen die wichtigsten Nukleotid- und Proteindatenbanken sowie diverse Softwares der Bioinformatik zur Verfügung. Bei den Datenbanken des NCBI handelt es sich streng genommen um Datendomänen, da die Daten selbst aus verschiedenen Datenbanken zusammengetragen sind. Ein paar Beispiele sind: • Entrez-Nucleotides – beinhaltet die Datenbanken GenBank und „Patent sequences“ vom U.S. Patent and Trademark Office (USPTO) und anderen Patentämtern. • Entrez-Proteins – beinhaltet die Datenbanken GenPept, Swiss-Prot, Protein Data Bank (PDB) und andere. • Entrez-Conserved Domains – beinhaltet die Datenbanken Smart, Pfam, COG und andere. Die Recherchemöglichkeiten sind vielfältig. Zum einen können die Datendomänen über die NCBI-interne datenbankübergreifende Suchmaschine Entrez recherchiert werden, zum anderen über domänenspezifische Suchalgorithmen, wie z.B. BLAST (Basic Local Alignment Search Tool) für Nukleotid- und Proteinsequenzen oder VAST (Vector Alignment Search Tool) für ähnliche Proteinstrukturen. Die Datenbanken des European Bioinformatics Institute (EBI) Das EBI ist das europäische Äquivalent zum NCBI in den USA. Auch hier werden Datenbanken hergestellt, aktualisiert und verwaltet. Das EBI bietet einen Zugang zu den Datenbanken über verschiedene Suchoberflächen, wie z.B. das Sequence Retrieval System (SRS; startet mit einem Klick auf SRS Database Queries ganz unten auf der Homepage), durch das mehrere Datenbanken gleichzeitig durchsucht werden können. Ein Überblick über die Datenbanken steht unter dem Link „Databases“ (http://www.ebi.ac.uk/Databases/) zur Verfügung.
GenBank GenBank® (http://www.ncbi.nlm.nih.gov/Genbank/) ist die Sequenzdatenbank
4. Biowissenschaftliche Datenbanken
45
der NIH und eine Sammlung aller öffentlich zur Verfügung stehenden Nukleotidsequenzen. Es handelt sich bei GenBank demnach um eine reine Archivdatenbank, in der alle Sequenzen ohne weitere Beurteilung aufgenommen werden. Das bedeutet, dass sowohl Sequenzen von guter Qualität (Publishing Quality) als auch von schlechter Qualität, z.B. mit angehängten Vektorsequenzen, mit vielen Platzhaltern (N) oder mit fehlerhafter Rechtschreibung, wie z.B. „Phophate“ anstelle von „Phosphate“, in der Datenbank zu finden sind. GenBank ist eine von drei Datenbanken, die der Vereinigung „International Nucleotide Sequence Database Collaboration“ angehören. Die anderen beiden Datenbanken sind die EMBL Nucleotide Database (verwaltet vom European Molecular Biology Laboratory) und DDBJ (DNA Data Base of Japan). Diese drei Datenbanken vervollständigen ihren Datenpool täglich durch den Austausch der Neuzugänge in den jeweils anderen beiden Datenbanken. Somit handelt es sich bei den drei Datenbanken um einen identischen Pool an Daten. Es ist dem Benutzer überlassen, in welcher Datenbank er recherchiert. Alle Sequenzen sind im Sequenzformat GenBank Flat File hinterlegt. Dieses Format ist unter „Sequenzformaten“ in diesem Kapitel im Detail beschrieben.
RefSeq –NCBI’s Datenbank der Referenzsequenzen Die NCBI-Datenbank der Referenzsequenzen (http://www.ncbi.nlm.nih.gov/RefSeq) zielt darauf ab, einen vollständigen Satz an Sequenzen, einschließlich genomischer DNA, mRNA und Proteinprodukten ohne Duplikate zur Verfügung zu stellen. RefSeq unterliegt hohen Standards. Die Daten sind überarbeitet und die Datenbank bietet zuverlässige Informationen für die medizinische und biologische Grundlagenforschung. Die Haupteigenschaften der RefSeq Datenbank sind: • Nichtredundanz: Keine Duplikate. EIN Dokument für jedes Gen oder jede Spleißvariante von nur einem Organismus. • Nukleotid- und Proteinsequenzen sind explizit miteinander verbunden. • Jedes Dokument repräsentiert die aktuellen Erkenntnisse eines Gens oder Proteins. • Es erfolgt eine fortwährende Datenprüfung durch Mitarbeiter des NCBI. Informationen von Fachleuten werden hinzugefügt. • RefSeq ist über BLAST, Entrez und über NCBI-FTP zugänglich. Informationen sind auch in Entrez-Genome und Entrez-Gene vorhanden, sowie im NCBI’s MapViewer. RefSeq Accession-Nummern Das wichtigste Merkmal einer RefSeq Accession-Nummer ist der Unterstrich (_). Auch die beiden Kürzel am Anfang haben ihre Bedeutung. Die Informationen über die Accession-Nummern sind in der folgenden Tabelle zusammengestellt:
46
4. Biowissenschaftliche Datenbanken
Tabelle 4.1: RefSeq Accession-Nummern. Anmerkungen zur Spalte „Methode“: „Curation“: Diese Einträge unterlagen einer automatischen Verarbeitung sowie einer nachfolgenden Beurteilung durch einen Sachverständigen (vom NCBI Personal oder andere Experten). „Automated“: Diese Einträge durchliefen eine automatische Verarbeitung. Es erfolgte keine Bearbeitung und Beurteilung durch NCBI-Mitarbeiter oder andere Personen Accession-Nr. AC_123456
Molekül Methode Genomisch Mixed
AP_123456
Protein
NC_123456
Genomisch Curation
NG_123456 NM_123456 NM_123456789 NP_123456
Genomisch mRNA mRNA Protein
Curation Curation Curation Curation
NP_123456789 NR_123456
Protein RNA
Curation Curation
NT_123456
Genomisch Automated
NW_123456
Genomisch Automated
Mixed
NZ_ Genomisch Automated ABCD12345678 XM_123456
mRNA
Automated
XP_123456
Protein
Automated
XR_123456
RNA
Automated
YP_123456 ZP_12345678
Protein Protein
Automated Automated
Bemerkung Genomische DNA, vollständig sequenziert. Es handelt sich um eine alternative Zusammenstellung oder Beschreibung des Genoms (hauptsächlich für Einträge von Viren oder Prokaryoten). Protein, alternatives Proteinprodukt. Es handelt sich um eine alternative Zusammenstellung oder Beschreibung eines Proteins. Genomische DNA, vollständig sequenzierte Moleküle wie Chromosomen, Organellen oder Plasmide. Genomische Regionen/ Contigs. mRNA, Protein-kodierende Transkripte. Erweiterung von Accession-Nummern (geplant). Proteinprodukte; vorwiegend das vollständig translatierte Protein, aber auch partielle Proteine und fertige Peptide. Erweiterung von Accession-Nummern (geplant). Nicht-kodierende RNA-Transkripte, einschließlich Struktur-RNAs, transkribierte Pseudogene u.a. Genom-Zusammensetzung aus BAC SequenzDaten (evt. Zwischenstufen des Assembly). Genom-Zusammensetzung aus „Whole genome shotgun“ Sequenz-Daten (evt. Zwischenstufen des Assembly). „Whole genome shotgun “ Sequenz-Daten für ein spezielles Genom-Projekt. Die ersten vier Buchstaben sind der Projekt-Code. Modell-mRNAs, die bei der automatischen Genom-Annotierung gefunden werden. Die Sequenz ist die eines genomischen Contigs. Modell-Proteine, die bei der automatischen Genom-Annotierung gefunden werden. Die Sequenz ist die eines genomischen Contigs. Modelle von Nicht-translatierter RNA, die bei der automatischen Genom-Annotierung gefunden werden. Die Sequenz ist die eines genomischen Contigs. Bakterielle Proteine (Vorhersagen). Proteine, die in Sequenzen der NZ_ Accession-Nummern gefunden wurden (oft Computer-generiert).
4. Biowissenschaftliche Datenbanken
47
Status der RefSeq-Einträge Im jeweiligen Kommentarfeld „COMMENT“ der RefSeq-Einträge ist angegeben, in welchem Stadium der Prozessierung (provisorisch, vollständig überarbeitet etc.) sich das Dokument befindet. Hier befindet sich auch die GenBank-Accession-Nummer der Sequenz, die der Referenzsequenz zugrunde liegt. STATUS GENOME ANNOTATION
INFERRED
MODEL
PREDICTED
PROVISIONAL REVIEWED
VALIDATED
WGS
Definition Diese RefSeq-Sequenz kommt aus dem „NCBI Genome Annotation process“. Der Eintrag wurde automatisch erstellt und nicht weiter überarbeitet. mRNA und Protein korrespondieren meistens mit den Accession-Nummern der Modelltranskripte und Modellproteine aus RefSeq. „abgeleitet“, „gefolgert“. Diese RefSeq-Sequenz wurde aus genomischer Sequenzanalyse abgeleitet. Es gibt keine experimentellen Beweise für die vollständige Sequenz, sondern höchstens Homologien zu anderen Organismen. Diese RefSeq-Sequenz ist aus genomischer Sequenzanalyse abgeleitet und vorhergesagt worden. Es gibt erste Hinweise auf die Existenz, eventuell gezeigt anhand von Transkripten oder Homologien. Diese RefSeq-Sequenz ist eine Vorhersage für eine Sequenz, die aber noch nicht weiter beurteilt und bearbeitet wurde. Hinweise auf ein Transkript kommen von existierenden cDNA-Klonen, ESTs oder Homologien. Proteine sind in jedem Fall vorhergesagt. Diese RefSeq-Sequenz wurde noch nicht vollständig überarbeitet. Es gibt starke experimentelle Beweise für die Existenz des Transkriptes oder Proteins. Diese RefSeq-Sequenz wurde von NCBI-Mitarbeitern oder externen Mitarbeitern vollständig überarbeitet. Der Prozess der Überarbeitung beinhaltet oft auch die Durchsicht der für die Sequenz relevanten Literatur und anderer Informationsquellen. Für diese RefSeq-Sequenz hat der Überarbeitungsprozess begonnen. Die Sequenz ist meistens überarbeitet, die Hinweise auf Gen/Proteinfunktion aus der Literatur fehlen eventuell noch. Dieser RefSeq-Eintrag repräsentiert eine Sammlung aus „Whole Genome Shotgun“ (WGS) Sequenzen. Der Status WGS wird an genomische Sequenzen vergeben.
48
4. Biowissenschaftliche Datenbanken
ONLINE-Übung zu den Datenbanken GenBank und RefSeq Vergleichen Sie die Einträge aus GenBank und RefSeq für das CFTR-Gen des Menschen. Suchanfrage auf der NCBI-Homepage: NM_000492 OR M28668 • Was haben sie gemeinsam, worin unterscheiden sich die Einträge?
UniProt – Universal Protein Resource
Die Datenbank UniProt wurde im Jahre 2002 vom UniProt Konsortium ins Leben gerufen. Das Konsortium setzt sich aus Mitgliedern des European Bioinformatics Institute, Hinxton UK (EBI, http://www.ebi.ac.uk/), dem Swiss Institute of Bioinformatics, Genf CH (SIB, http://www.isb-sib.ch/) und dem PIR (Protein Information Resource Washington DC, USA, http://pir.georgetown.edu/pirwww/pirhome3. shtml) zusammen. Ihr Ziel war es, eine öffentliche Datenbank mit Informationen von hoher Qualität und mit Daten von minimaler Redundanz herzustellen. Noch heute sind alle Mitglieder des Konsortiums an den Aktualisierungen und an der Weiterentwicklung der Datenbank beteiligt. Streng genommen ist UniProt eher eine Datendomäne als eine Datenbank, da sie sich aus drei großen Datenbanken zusammensetzt, der UniProt Knowledgebase (SwissProt und TrEMBL), UniRef und UniPark. UniProt Knowledgebase (UniProt KB) UniProtKB ist die zentrale Quelle für Informationen zu Proteinen und Proteinfunktionen. Alle Einträge sind so weit wie möglich mit Beschreibungen (Annotationen) versehen, die aus zuverlässigen Ressourcen stammen und in sich konsistent sind. Die notwendigen Informationen (core data) für einen Eintrag in UniProtKB sind die Proteinsequenz, der Proteinname (oder eine Beschreibung), die taxonomischen Informationen und Literaturangaben. Wenn möglich werden weitere Annotationen wie z.B. Ontologien, Klassifikationen und Querverweise hinzugefügt. Die Daten in UniProtKB werden in zwei Gruppen eingeteilt, die aus Gründen der Wiedererkennung unter den Namen „SwissProt“ und „TrEMBL“ laufen. In der Datenbank-Kategorie „SWISS-PROT“ handelt es sich um manuell ausgewertete und annotierte Daten. Die Einträge können den Status „Standard“ (voll überarbeitete Daten) oder „Preliminary“ (Daten noch nicht vollständig überarbeitet) enthalten (siehe Abb. 4.1). Neben den oben genannten Hauptdaten (Core data) sind u.a. die Proteinfunktion, die posttranslationalen Modifikationen (Phosphorylierung etc.), die Domänen und Motive (z.B. Ca-bindende Regionen, ATP-Bindungsstellen, Zink-Finger, Homeobox, etc.), die Sekundärstruktur und Quartärstruktur (z.B. Homodimer, Heterotrimer), homologe und ähnliche Proteine sowie Mutationen und krankheitsbezogene Angaben aufgeführt. Mit „TrEMBL“ (Translations of EMBL) wird der Datensatz der Datenbank bezeichnet, der aus einer computergestützten Auswertung von den Proteinsequen-
4. Biowissenschaftliche Datenbanken
49
Abbildung 4.1: In der UniProt-Kategorie SwissProt sind Daten aus unterschiedlichsten Ressourcen zusammengetragen und miteinander verknüpft.
zen aus EMBL hervorgeht. Die Einträge sind noch nicht voll manuell bearbeitet und daher noch nicht in SWISS-PROT aufgenommen. UniRef – UniProt Non-redundant Reference Databases UniRef setzt sich aus drei Datenbanken mit unterschiedlichem „Cut-off“ zusammen: • UniRef100 – In UniRef100 sind identische Sequenzen und Fragmente derselben Spezies unter derselben Accession-Nummer (ID) zusammengefasst. Die Verknüpfungen zu den korrespondierenden UniProt- und UniParc-Einträgen sind vorhanden. • UniRef90 und UniRef50 – Diese Datenbanken umfassen die Cluster aus UniRef100 mit 11 oder mehr ähnlichen Sequenzen, plus den Sequenzen, die mindestens 90% (bzw. 50%) Identität aufweisen (aus mehreren Organismen). Dies sind Datenbanken mit ca. 40% (bzw. 65%) weniger Einträgen. Dadurch wird eine sehr viel schnellere Sequenzähnlichkeitssuche ermöglicht.
50
4. Biowissenschaftliche Datenbanken
Für die Erstellung von UniRef-Clustern ist eine Rangordnung für die Sequenzauswahl vorgegeben. Die Kriterien einer Referenzsequenz sind (in dieser Reihenfolge): ihre Qualität (Swiss-Prot Einträge sind bevorzugt), ihr Name (es sollte möglichst kein „hypothetical“, „probable“ oder ähnliches vorkommen), der Organismus (Modell-Organismen sind bevorzugt) und die Sequenzlänge (sie sollte möglichst lang sein). UniParc – UniProt Archive UniParc ist das Archiv für Proteinsequenzen. Das Hauptmerkmal dieser Datenbank jedoch ist ihre geringe Redundanz der Daten. Jede Sequenz ist nur einmal in UniParc vorhanden, obwohl sie in vielen Datenbanken (und dort eventuell auch mehrfach) existiert. In UniParc wird eine ID/Sequenz vergeben (mit Änderungsstatus) und in diesem Eintrag auf die Ursprungsdatenbanken verwiesen. Die Proteinsequenzen in UniParc kommen von den Datenbanken UniProtKB, EnsEMBL database of animal genomes, International Protein Index (IPI), Protein Data Bank (PDB), NCBI‘s Reference Sequence Collection (RefSeq), Datenbanken von Modell-Organismen wie z.B. FlyBase und WormBase und den europäischen, amerikanischen und japanischen Patentämtern. Die Recherche in UniProtKB
Abbildung 4.2: Die Suchoptionen für UniProtKB.
Sequenzformate Sequenzformate geben die Art und Weise vor, wie die DNA- oder Aminosäuresequenz in einer Datei hinterlegt wird. Sequenzen sind in den Datenbanken einheitlich formatiert wie z.B. im GenBank Flat File Format oder im EMBL-Format. Über Umwandlung der Formate ist es möglich, die Sequenzen in einer anderen Formatierung anzusehen und abzuspeichern. Dies ist notwendig, um Sequenzen z.B. mit Hilfe von Sequenz-Analyse-Programmen zu untersuchen oder charakterisieren zu können. Diese Programme verlangen nach einer bestimmten Formatierung für die
4. Biowissenschaftliche Datenbanken
51
Sequenz (z.B. FASTA Format). Damit ist gewährleistet, dass die Software die Eingabe erkennt und bearbeitet. Häufige Sequenzformate sind (alphabetisch geordnet): ALN/ClustalW beschreibt alinierte Sequenzen. Es gibt Zeilen mit je 60 Buchstaben, angegeben jeweils mit (w = with) oder ohne (wo = without) Angabe der Nummerierung. Jeder Block zeigt die Sequenznamen am Anfang der Zeilen. In der letzten Zeile wird die Konsensussequenz mit Hilfe von folgenden Sonderzeichen angegeben: „*“ identische Base bzw. AS, „:“ conserved substitutions, „.“ semi-conserved substitutions. GCG/MSF-Format beinhaltet im ersten Abschnitt Informationen über die Sequenz und im zweiten Abschnitt die Sequenz selbst. Beide Abschnitte sind durch zwei Punkte (..) voneinander getrennt. GenBank Flat File beinhaltet ebenfalls einen Abschnitt mit Informationen über die Sequenz und einen Abschnitt mit der Sequenz und beschriebenen Charakteristika. Alle Informationen sind indexiert (Details über die Indexierung s. unten). FASTA (Pearson) beinhaltet die rohe Sequenz und eine Überschriftszeile. Die erste Zeile beginnt mit „>“, gefolgt von max. 80 Zeichen, dann folgt ein Zeilenumbruch mit der rohen Sequenz in der 2. Zeile; wichtiges Format für viele Sequenzanalyse-Programme. Die Sequenzen, die am NCBI im GenBank-FlatFile-Format abgerufen werden, können über das Display Pull-down-Menü mit nur einem Mausklick in das FASTA-Format umgewandelt werden (Einstellung wechseln zu „FASTA“ anstelle von „Summary“)! PROSITE-Format beschreibt Protein-Muster in einer Kodierungssprache (Details über die Kodierung s. unten). Raw beinhaltet die rohe Sequenz ohne Zahlen und Zwischenräume. UniProt-Format beinhaltet indexierte Informationen über die Sequenz und die beschriebenen Charakteristika. Die Informationen sind mit den Quellen, aus denen sie kommen, verknüpft (Details über die Darstellung einer Sequenz im UniProt-Format s. unten). Weitere Sequenzformate sind AMPS Block file format, Codata, EMBL, GDE, NBRF/ PIR, PDB format, Pfam/Stockholm format, Phylip, RSF und UniProtKB/SwissProt. Für mehr Informationen zu diesen Sequenzformaten siehe http://www.ebi.ac.uk/ clustalw/index.html. Das Sequenzformat „GenBank Flat File“ Aufgrund der Indexierung der Daten können die Informationen aus den einzelnen Datenfeldern gezielt abgefragt werden. Eine Recherche ist für jedes Feld der Datenbank möglich. Die Kürzel der Datenbankfelder sind unten mit aufgeführt. Ihre Anwendungen werden unter Entrez (Kap. 5) genau beschrieben. Ein Beispiel eines GenBank-Eintrages steht am NCBI unter dem Link GenBank Sample Record (http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html) und im Folgenden zur Verfügung.
52
4. Biowissenschaftliche Datenbanken
LOCUS
SCU49845
DEFINITION
Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
5028 bp
DNA
PLN
21-JUN-1999
(AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION
Eine Sequenz erhält die folgende Indexierung: LOCUS NAME = die Initialen des Artnamen, gefolgt von der Accession-Nummer (unwichtiges Feld für die Recherche, da es früher andere Angaben enthielt) SEQUENCE LENGTH = Angabe über die Sequenz-Länge; Feldkürzel: [SLEN] MOLECULE TYPE = Angabe über den Molekül-Typ (DNA, RNA etc.); Information aus dem Properties-Field; Feldkürzel: [PROP] GENBANK DIVISION = Angabe über die GenBank-Kategorie; Information aus dem Properties-Field; Feldkürzel: [PROP] MODIFICATION DATE = Datum der letzten Änderung des Eintrages; Feldkürzel: [MDAT] DEFINITION = Titel des Eintrages; Feldkürzel: [TITL] ACCESSION = Zugriffsnummer für die Datenbanken der International Nucleotide Sequence Database Collaboration, Einmalige Nummer in allen drei Datenbanken; Feldkürzel: [ACCN] VERSION = Version für diesen Eintrag z.B. ACCN.2 = 2. Version dieser Sequenz GI = GenInfo-Nummer, eine Zugriffsnummer für die Datenbank GenBank. Einmalige Nummer in der Datenbank; Feldkürzel: [ACCN] KEYWORDS = Angaben des Autors, keine Angaben notwendig, daher kein gutes Feld für eine Recherche; Feldkürzel: [KYWD] SOURCE = Organismus, aus dem die Sequenz stammt; Feldkürzel: [ORGN] REFERENCE = Publikationen (Zitate) für diese Sequenz; Feldkürzel: [TEXT] FEATURES = Charakteristika der Sequenz wie z.B. Coding-Sequence, Exon, Intron etc.; Feldkürzel: [FKEY] (Feature Key) BASE COUNT = Anzahl der Basen aufgeteilt in A, C, G und T ORIGIN = die Sequenz in Ein-Buchstaben-Kodierung (one-letter code) ONLINE-Übung zu den Datenbanken GenBank und RefSeq Vergleichen Sie die Einträge aus GenBank und RefSeq für das CFTR-Gen des Menschen. Beide werden am NCBI im GenBank Flat File Format gezeigt. Suchanfrage auf der NCBI-Homepage: NM_000492 OR M28668 • Was haben sie gemeinsam, worin unterscheiden sich die Einträge? Das PROSITE-Format zur Beschreibung von Protein-Pattern und -Profilen Die Beschreibung eines Protein-Musters oder -Profils erfolgt nach folgenden Regeln: • Die Sequenz ist in der Standard IUPAC-Ein-Buchstaben-Kodierung angegeben • Das Symbol ‚x‘ ist Platzhalter für alle Aminosäuren. • Alternative Aminosäuren für eine Position („Entweder/ Oder“) sind in eckigen Klammern angegeben [ ], z.B. [ALT] bedeutet, dass an dieser Stelle Ala oder Leu oder Thr vorkommen können. • Aminosäuren, die an bestimmten Positionen nicht vorkommen dürfen, sind in geschwungenen Klammern angegeben{ }, z.B. {AM} bedeutet, dass an dieser Position weder Ala noch Met vorkommen.
4. Biowissenschaftliche Datenbanken
55
• Die Aminosäuren in dem Motiv sind durch einen Bindestrich voneinander getrennt. • Die Anzahl von Aminosäure-Wiederholungen wird durch die Angabe der Wiederholungen in natürlichen Zahlen in Klammern ausgedrückt, z.B: x(3) bedeuetet, dass jede beliebige Aminosäure an den nächsten drei Positionen vorkommen kann (x-x-x), x(2,4) bedeutet das Vorkommen von x-x oder x-x-x oder x-x-x-x. • Wenn ein Motiv nur am Anfang bzw. am Ende einer Sequenz vorkommen darf, wird für das N-terminale Ende das Symbol ‚<‘ und für das C-terminale Ende das Symbol ‚>‘ angegeben. • Am Ende des Motivs steht der Punkt. Beispiele für Sequenzenmotive im PROSITE-Format: • [AC]-x-V-x(4)-{ED}.= [Ala oder Cys]-beliebig-Val- beliebig - beliebig - beliebig - beliebig -{ beliebig, aber nicht Glu oder Asp} • < A-x-[ST](2)-x(0,1)-V. = N-terminal (`<‘) Ala- beliebig -[Ser oder Thr]-[Ser oder Thr]- (beliebig oder keine)-Val • <{C}*>. = alle Sequenzen ohne Cysteine • IIRIFHLRNI. = alle Sequenzen, die das Motiv „IIRIFHLRNI“ enthalten
Webadressen Biowissenschaftliche Datenbanken • Nucleic Acids Research (NAR) Database Issues (http://nar.oxfordjournals.org/ content/vol35/suppl_1/index.dtl) • Bioinformatics Resources & Databases (http://wwwex.biochem.mpg.de/iv/external.html) • DIMDI – ca. 70 Datenbanken zu Medizin, Arzneimitteln und Toxikologie (siehe die Datenbankübersicht unter http://www.dimdi.de/static/de/db/dbinfo/index. htm) • STN – ca. 220 Datenbanken (siehe die Datenbankübersicht unter http://www. stn-international.de/stndatabases/databases/onlin_db.html) NCBI (National Center for Biotechnology Information) • NCBI Homepage (http://www.ncbi.nlm.nih.gov/) • NCBI SiteMap(http://www.ncbi.nlm.nih.gov/Sitemap/index.html & http://www. ncbi.nlm.nih.gov/gquery/gquery.fcgi) • GenBank (http://www.ncbi.nlm.nih.gov/Genbank/) • RefSeq (http://www.ncbi.nlm.nih.gov/RefSeq/) EBI (European Bioinformatics Institute) • EBI Homepage (http://www.ebi.ac.uk/) • EBI Databases (http://www.ebi.ac.uk/Databases/) UniProt (ExPASy) • UniProt Knowledgebase (http://www.expasy.org/sprot/)
56
4. Biowissenschaftliche Datenbanken
Übungen (1) GenBank Flat File: Welche Gene liegen auf dem Mitochondrium-Genom der Maus (NC_006914)? Wie können Sie schnell das Gen „cytochrome c oxidase“ finden? Erläutern Sie die Indexierung des GenBank Flat File. Was für eine Art Referenzsequenz ist hier hinterlegt und in welchem Status der Überarbeitung ist es?
5 Entrez – NCBI’s datenbankübergreifende Suchmaschine Die datenbankübergreifende Suche mit Entrez Für die Beantwortung einer wissenschaftlichen Frage ist es oft notwendig, Informationen und Daten von unterschiedlichster Art und Herkunft einzusehen. Mit der datenbankübergreifenden Suchmaschine Entrez können die Datendomänen des NCBI wie z.B. Nukleotidsequenzen, Proteinsequenzen, Genomdaten, 3-D-Strukturen, Polymorphismus-Informationen und bibliographische Daten wie z.B. aus den Datenbanken OMIM und PubMed über eine Textsuchfunktion gleichzeitig recherchiert werden. Die Treffer der Suche werden für die Datendomänen gesondert angezeigt. Viele Fragen lassen sich dadurch vor Beginn eines wissenschaftlichen Experimentes mit nur wenigen Mausklicks beantworten. Zu den Informationen, die man im Vorfeld der Experimente einholen kann, gehören die Identifizierung einer repräsentativen mRNA-Sequenz, von der schon viele Eigenschaften beschrieben worden sind, Proteinsequenzinformationen einschließlich Informationen über konservierte Regionen oder 3-D-Strukturen, homologe Sequenzen in anderen Organismen, Mutationen und Polymorphismen sowie relevante Literaturstellen. Des Weiteren ist es oft notwendig, die Datenformate zu ändern, z.B. eine Sequenz vom GenBank Flat File Format in ein FASTA-Format umzuwandeln, oder Daten zu speichern, z.B. einen genomischen Sequenzabschnitt von Base 300 bis 500 herunterzuladen. Letztendlich dient eine Datenbankrecherche auch der Kontrolle eines wissenschaftlichen Experimentes. Die Datendomänen, die in Entrez eingebunden sind, werden in Abbildung 5.1 gezeigt. Über Entrez hat der Benutzer die Möglichkeit, die Suche in den Datendomänen auf drei Ebenen durchzuführen. Zuerst kann er über die Textsuche nur in einer Datendomäne recherchieren. Über die so genannten „hardlinks“ kann in weiteren Datendomänen recherchiert werden, ohne dass eine erneute Suchanfrage über Texteingaben notwendig wird. Zusätzlich wird die Suchanfrage über den NeighboringAlgorithmus erweitert. Die besonderen Eigenschaften von Entrez sind: 57
Abbildung 5.1: Die Standard-Sucheinstellung für die Suchbox auf der NCBI-Homepage ist die Stichwortsuche in allen Datendomänen (All Databases). Mit dem Link zu „ All Databases“ (umrandet) gelangt der Anwender zu der Übersichtsseite der Entrez-Datendomänen, auf der auch die Ergebnisse angezeigt werden. Von hier aus können die Datendomänen durch einen Mausklick auf den DomänenNamen separat angesteuert werden.
(1) Die Art der Daten unter Entrez ist sehr vielfältig. Es können reine Sequenzdaten, Literaturangaben, 3-D-Strukturen oder Daten aus Expressionsanalysen sein. In jeder Domäne können spezifische Parameter gesetzt werden, um eine Recherche einzugrenzen und zu fokussieren. Daher gilt: Wer genau weiß, welche Art von Daten er sucht (z.B. Nukleotidsequenzen), sollte immer zu der jeweiligen „Domänen-Homepage“ gehen, da sich die Suche hier über LIMITS und PREVIEW/INDEX fokussieren und präzisieren lässt (siehe unten). (2) Die Daten der Domänen am NCBI sind miteinander verknüpft. So gibt es von der Domäne Entrez-Nucleotide z.B. über 3,46 Mill. feste Verknüpfungen (Hardlinks) zur Domäne Entrez-Protein, über 1,96 Mill. Hardlinks zur Domäne Entrez-Gene und über 24,61 Mill. Hardlinks zur Domäne Entrez-PubMed (Stand: Januar 2007). Eine interaktive Grafik steht auf der NCBI Webseite unter dem Link Molecular Databases (http://www.ncbi.nlm.nih.gov/Database/datamodel/ index.html) zur Verfügung. Die Maus-over Funktion zeigt die jeweilige Anzahl an Verknüpfungen. (3) Die Verknüpfung der Daten innerhalb einer Datendomäne („neighbors“, z.B. „related sequences“ etc.). Über diesen Link können ähnliche Daten gefunden werden, bei denen das Suchwort nicht unbedingt im Text vorkommt. Diese Ergebnisse werden über andere Algorithmen als über Text-Algorithmen für ähnlich befunden. Der Algorithmus für „neighboring“ ist von der Datendomäne abhängig. Beispiele hierfür sind:
Abbildung 5.3: Der Zugriff auf die jeweils andere Domäne erfolgt auf der Ergebnisseite über „Links“.
• „Word Weight Algorithm“ findet in der Domäne „PubMed“ Anwendung. • BLAST (Basic Local Alignment Search Tool) Algorithmus findet in den Domänen „Nucleotide“ und „Protein“ Anwendung. • VAST (Vector Alignment Search Tool) Algorithmus findet in der Domäne „Structure“ Anwendung. Des Weiteren können die Ergebnisse innerhalb der Domänen jeweils auf unterschiedliche Weise angezeigt, weiter verarbeitet und gespeichert werden. Alle Daten sind im ASN.1 Format (Abstract Syntax Notation) erstellt. In dieser Kodierung können die Daten externen Anwendungen angepasst werden. ONLINE-Demo zu Entrez Gesucht wird eine repräsentative Nukleotidsequenz (mRNA) sowie die korrespondierende Proteinsequenz für die Erbkrankheit „Zystische Fibrose“ (Suchwort: cystic fibrosis).
Workflow • Startseite: NCBI Homepage (http://www.ncbi.nlm.nih.gov/). Klicken Sie auf „All Databases“ und von hier in die Datendomäne „Nucleotide“. • Wie finde ich eine repräsentative Nukleotid-Sequenz? • Entrez-Nucleotide ist in die Subdomänen CoreNucleotide, EST und GSSSequenzen unterteilt. Wählen Sie die Sequenzdomäne „Core Nucleotide“. EST- und GSS-Sequenzen sind kurze und eher ungenaue Sequenzen (siehe Glossar), die bei dieser Suche keine Rolle spielen und nicht in Betracht gezogen werden sollen. Arbeiten Sie in der Domäne „CoreNucleotide“ weiter, damit Sie die Funktionen „Limits“ und „History“ (Erklärung s. unten) voll nutzen können. • Entrez-Nucleotide enthält Informationen von verschiedenen Nukleotiddatenbanken, darunter GenBank und Refseq. Eine repräsentative Sequenz gibt es ausschließlich in der Datenbank RefSeq. Zu diesen Ergebnissen führt ein Link von der Ergebnisseite unter Entrez-Nucleotide.
• 1. Ergebnis: In einer Treffermenge von 15114 Sequenzen, darunter 151 Referenzsequenzen (Stand: Jan. 2007) ist es schwierig, schnell eine geeignete Sequenz auszuwählen. Die Treffermenge ist dafür zu hoch. Klicken Sie auf „Limits“, um über ein paar Sucheinstellungen die Suche zu fokussieren. • Unter „Limits“ wählen Sie den Molekül-Typ (molecule = mRNA) und die genomische Zuordnung (Gene Location = Genomic DNA/RNA). • Zusätzlich zu den Einstellungen in den Pull-down-Menüs setzen Sie Häkchen, um weitere Sequenzkategorien auszuschließen, wie z.B. keine STS, keine patentierten Sequenzen, keine Sequenzen der TPA-Kategorie (Third Party Annotations), keine vorläufigen Sequenzen (working draft). Um all diese Kategorien auszuschließen genügt ein Häkchen unter „exclude all of the above“.
• 2. Ergebnis: Die Treffermenge mit den gezeigten Sucheinstellungen beträgt 219. Darunter befinden sich 148 Referenzsequenzen. Auch in einer solchen Treffermenge ist es noch schwierig, eine geeignete Sequenz auszuwählen. Es müssen weitere Sucheinstellungen vorgenommen werden. • Da Sie im Allgemeinen wissen, von welchem Organismus Ihre gesuchte Sequenz stammt, sollten Sie die Suche gleich auf diesen Organismus fokussieren. Dafür fügen Sie den Organismusnamen mit dem Boole’schen Operator „AND“ hinter dem Suchwort ein und beschränken ihn auf das Suchfeld „Organismus“ mit Hilfe der Suchfeldeinschränkung [orgn]. Ihr Suchfeld enthält jetzt die Suchanfrage cystic fibrosis AND human[orgn]. Die Limits bleiben für diesen Suchschritt ebenfalls aktiv. Sie erhalten 103 Treffer mit 81 Referenzsequenzen, was noch immer eine „unhandliche“ Treffermenge ist. • Jetzt ist es an der Zeit, sich die Interpretation der Suchanfrage unter „Details“ anzusehen. Gehen Sie zu „Details“, hier können Sie kontrollieren, wie die Suchanfrage an das System gestellt wurde.
• Wie kann man die Suchanfrage weiter fokussieren? • Unter „Details“ wird ersichtlich, dass das Suchwort „cystic fibrosis“ in allen indexierten Suchfeldern der Datenbank ([All fields]) aufgenommen und bearbeitet wurde. Wird das Suchwort jedoch auf das Suchfeld „Title“ ([titl]) eingeschränkt, erhalten Sie eine übersichtliche Menge an Treffern, einschließlich des relevanten Treffers (8 Treffer inkl. 1 Treffer in RefSeq). Die Änderungen hierfür können Sie mit der „Details“-Funktion vornehmen. Danach muss die Suche mit „Search“ initiiert werden.
• Wie finde ich die korrespondierende Proteinsequenz des Gens? • Gehen Sie zu den „Links“ (hinter den Ergebnissen des entsprechenden Items, ganz rechts) der Referenzsequenz. Über das Pull-down-Menü „Protein“ kommen Sie zu Entrez-Protein.
Die Suchfunktionen von Entrez Eine Suchanfrage in Entrez kann je nach Kenntnissen des Anwenders über eine einfache Suche (basic search), eine erweiterte Suche (advanced search) oder über einen komplexen Suchaufbau mit Hilfe einer Suchwortkette und Boole’schen Suchsyntax (complex Boolean) gestellt werden. Die einfache Suche Bei der Suche mit einem Suchwort in der Suchmaske ohne Suchwortbeschränkung wird Entrez die Suchanfrage nach genau festgelegter Regel durchführen. Diese Suchanfrage kann und sollte über die Details-Funktion kontrolliert werden. So wird z.B. eine einfache Suche nach „human“ als „Homo sapiens“[Organism] OR human[All Fields] interpretiert. Das System hat zum einen erkannt, dass „human“ für die Spezies Homo sapiens stehen kann (das Organismus-Feld ist mit der Taxonomy-Datenbank verknüpft, in der „human“ als Synonym für Homo sapiens steht). Zum anderen wurde jedoch nicht präzise angegeben, was in der Suche gewollt ist. So werden auch alle Einträge gefunden, in denen das Wort „human“ vorkommt, wie z.B. in „humanlike gene“ oder „Institute of human genetics“. Die erweiterte Suche Bei der erweiterten Suche greifen die Kontrollmechanismen, die bei der Verwendung von „Limits“, „Preview/Index“ oder „History“ angewendet werden. • Limits – Geben Sie ein Suchwort ein und klicken Sie „Limits“, um die Suche zu fokussieren. Auch das Suchwort selbst kann einem Suchfeld zugeordnet werden. • Index (unter Preview/Index) – Im Index können die gewünschten Suchfelder ausgewählt werden. Nach dem Aufschlagen des Indexes wird die Anzahl der zu erwartenden Treffer dieser Suchanfrage angezeigt. Das gibt einen guten Überblick über die Suchmenge, die über diese Suchanfrage in der Datendomäne vorhanden und zu erwarten ist. Das gewünschte Suchwort bzw. eine gewünschte Phrase kann von hier ausgewählt und in das Suchfeld übertragen werden.
• History – Alle Schritte einer ununterbrochenen Online-Recherche werden unter der Funktion „History“ gespeichert und stehen für 8 Stunden nach Beenden der Arbeit noch zur Verfügung. Unter der Rubrik „History“ können einzelne Schritte der Suchanfragen über Boole’sche Operatoren miteinander verknüpft werden, ohne dass sie nochmals als Text ausformuliert werden. Hierbei werden alle Sucheinstellungen einschließlich der „Limits“ oder der anderen Feldqualifizierungen, die unter einer Suchnummer (#lfd. Nummer) abgelegt sind, mit übernommen.
Die komplexe Suche mit Boole’schen Operatoren Eine Boole’sche Suche bedient sich einer Kommandosprache mit einer Suchfeldqualifizierung. Diese Suchfeldqualifizierung muss in eckigen Klammern [] angegeben werden. Die Suchsyntax ist:
Suchwort[Suchfeld] BOOLE’SCHER OPERATOR Suchwort[Suchfeld] BOOLE’SCHER OPERATOR Suchwort[Suchfeld] etc. Suchfelder sind von der Datendomäne abhängig Die Suchfelder der Datenbank GenBank sind im Kapitel 4 besprochen worden. Die Tabellen mit den Abkürzungen für die Suchfeldqualifizierungen insbesondere für die Datendomänen Entrez-Nucleotide und Entrez-Protein finden Sie im Anhang 1 dieses Buches. Die Tabellen beinhalten folgende Erläuterungen: Tabelle 1 zeigt die Optionen unter der Rubrik „Limits“ (Limits Available by Database). Tabelle 2 ist eine Zusammenstellung der Suchfelder, die in den Domänen existieren (Search Fields Available by Database). So sind manche Indexierungsfelder in allen Datendomänen vorhanden, wie z.B. Author und Accession-Nummer, andere sind domänenspezifisch, z.B. Feature Key und Molecular Weight. Beachten sollte man auch, dass das Suchfeld Proteinname nicht in der Datendomäne „Structure“ angewählt werden kann. Folgende Felder und Operatoren sind sehr hilfreich, um in den Domänen „Nucleotide“ und „Protein“ zu recherchieren: • Organismus-Feld [ORGN] • Properties-Feld (für Molekül-Typ, GenBank-Division, Source-Database etc.) [PROP] • Sequenzlänge [SLEN] • Feature Key [FKEY] • Molecular Weight (für Proteine) [MOLWT] • Range Searching (_:_) für die Suchfelder mit Zahlenangaben ([ACCN], [SLEN], [MOLWT], [MDAT]). Über diese Funktion können z.B. alle Sequenzen mit einer Länge von 100 bis 150 bp gesucht werden. Die Suchanfrage würde lauten: 100:150 [SLEN] Die Suchfeldqualifizierung für Entrez-Nucleotide und Entrez-Protein sind in Tabelle 3 bzw. 4 im Anhang 1 zusammengestellt (Search Field Desriptions and Qualifiers). Das „Blättern im Index“ Im Index einer Datendomäne kann man alle indexierten Felder der Domäne anwählen und einsehen. Durch das „Blättern im Index“ kann das Suchwort für ein beliebiges Suchfeld ausgewählt und über Boole’sche Operatoren mit in die Suche einbezogen werden. Zur Veranschaulichung der Funktion des Indexes vergleichen Sie einmal die Treffer für die Suchanfrage cystic fibrosis, gesucht in allen Feldern der Datenbank ([All Fields]) bzw. in der Definition-Line, dem Titel des GenBank Flat File ([Titl ]). Wie viele Treffer sind in der jeweiligen Suche zu finden?
Das „Properties“ [PROP] Suchfeld Im Properties-Feld sind viele Attribute eines GenBank Flat Files hinterlegt. Über Angaben aus dem Properties-Feld können die Suchanfragen präzisiert werden. Einige dieser Attribute sind hier aufgeführt: • molecule type (siehe „Sequin Help“ Dokument*) z.B. genomicDNA „biomol_genomic“[prop] mRNA „biomol_mRNA“[prop]
• GenBank division (siehe „Sample GenBank record“) z.B. GenBank EST „gbdiv_EST“[prop]
• gene location (siehe „Sequin Help“ Dokument*) z.B. mitochondrial gene „gene in mitochondrion“[prop]
• Ursprungsdatenbank (siehe „Sequin Help“ Dokument*) z.B. RefSeq record „srcdb_refseq“[prop]
*Das Dokument „Sequin Help“beinhaltet die Richtlinien zur Einreichung einer Sequenz in die Datenbank GenBank. Hier gibt es Informationen zu den Sequenzcharakteristika und ihrer Zuordnung zu den GenBank-Suchfeldern (http://www.ncbi. nlm.nih.gov/Sequin/sequin.hlp.html).
Das “Feature key” [FKEY] Suchfeld Im Rahmen der Internationalen Nukleotid Sequenz Datenbank Kollaboration (INSDC) sind Sequenzcharakteristika zusammengestellt worden, um dem Wissenschaftler eine genaue Annotation einer Sequenz zur Verfügung zu stellen. Diese Zusammenstellung ist unter „The DDBJ/EMBL/GenBank Feature Table“ (http:// www.ncbi.nlm.nih.gov/projects/collab/FT/index.html) zugänglich. Das Feature KeyFeld kann im Index aufgerufen und die gewünschten Sequenzcharakteristika ausgewählt werden. Dafür klicken Sie hinter dem Suchfeld unter Preview/Index (ohne eine Eingabe im Suchfeld) auf „Index“, um ihn zu öffnen. Die gewünschten Sequenzcharakteristika können nun angeklickt werden.
Die „Details“-Funktion Über die Funktion „Details“ wird die Suchanfrage kontrolliert. Hier ist dargestellt, wie die Suchanfrage von Entrez interpretiert wurde. Zusätzlich können in dem Anzeigefeld Veränderungen vorgenommen werden, die bei einer Suche über die Funktion „Search“ berücksichtigt werden (z.B. Änderung der Suche für cystic fibrosis [All Fields] in cystic fibrosis [titl]; s.o.). Über die Funktion „URL“ wird die Suchanfrage zu den Favoriten im Browser hinzugefügt und kann zu einem späteren Zeitpunkt wieder aufgerufen werden, um die Suche dann in einem aktuelleren Datenbestand durchzuführen. Erweiterung einer Suche Manchmal kommt es wider Erwarten zu wenigen oder keinen Recherche-Ergebnissen. In diesem Fall sollte man die Suchanfrage und Interpretation durch Entrez über die Funktion „Details“ genau analysieren. Trotzdem kann es sein, dass es zu der gewünschten Thematik nur wenige Einträge in der Datenbank gibt. Folgende Möglichkeiten führen zu einer Erweiterung der Suchanfrage:
• Benutzung von weiterfassenden Feldern (z.B. [text word], NICHT [title word]) • Preview/Index • Wahl von „term supersets“ vom Index • Wahl von mehreren Schreibweisen (und Rechtschreibfehlern) • Suche mit Synonymen, Abkürzungen, Gensymbolen, alternativen Symbolen, ausgeschriebenen Wörtern, synonymen biologischen Eigenschaften/Funktionen (Gene Ontology) • Benutzung von Wortstämmen (Trunkierung/wildcard wie Asterisk (*), 150 var=max) • Kombinierung der Suchen mit OR • Benutzung von „Related Records“; dies sind ähnliche Ergebnisse, die aber eventuell nicht die benutzten Suchworte enthalten • Benutzung der Datenverknüpfungen (hardlinks)
Display-Funktionen in Entrez Über die Display-Funktionen in Entrez können folgende Veränderungen in der Trefferanzeige vorgenommen werden (gezeigt für Entrez-Nucleotide):
Die Einstellungsmöglichkeiten gelten für alle Treffer (wenn kein Häkchen vor dem Treffer gesetzt wurde) oder für ausgewählte Treffer (wenn ein Häkchen vor die gewünschten Sequenzen in das kleine quadratische Feld gesetzt wurde). Die Display-Funktion dient unter anderem zur Überführung der Ergebnisse in andere Formate (z.B. Darstellung einer Sequenz im FASTA-Format), sowie der Möglichkeit,
ein paar Treffer vorübergehend zu speichern (Send to – Clipboard). Im Clipboard werden ausgewählte Sequenzen für acht Stunden (bei Inaktivität auf der Webseite) aufgehoben. Die Einträge im Clipboard können unter der Funktion „History“ als #0 mit in die Recherche einbezogen werden. Zusätzlich können mehr (oder weniger) als 20 Treffer auf einer Webseite dargestellt werden („show“) oder die Verknüpfung von ausgewählten Treffern in anderen Datendomänen angezeigt werden (z.B. Display – HomoloGene Links).
Entrez-Gene Eine der wichtigsten Datenbanken unter Entrez ist Entrez-Gene. In den Einträgen der Datenbank sind alle bekannten Informationen zu einem Gen zusammengestellt und zu den ursprünglichen Informationsquellen verknüpft. In Entrez-Gene gibt es Informationen zur Genstruktur, zu Referenzsequenzen, Chromosomenkarten, bibliografische Informationen und vieles mehr in nur einem Datenbankeintrag. Der minimale Satz an Daten, der für einen Eintrag in Entrez-Gene notwendig ist, ist eine vom NCBI vergebene einmalige Zugriffsnummer (unique Identifier bzw. eine GeneID), ein bevorzugtes Gensymbol, Sequenzinformationen, Kartierungsinformationen oder eine Bezeichnung von einer autorisierten Liste. Bestehende Einträge werden aktualisiert, wenn neue Informationen zu dem Gen bekannt werden. Die Daten zu einem Gen sind wie folgt eingeteilt: Summary, Genomic regions & transcripts, Genomic context, Bibliography (Literatur in PubMed), Interactions, General gene information (wie z.B. zur GeneOntology „GO“, homologen Genen und Genmarkern), General protein information, Reference Sequences, Related Sequences und Additional Links.
So gehören zu den Informationen der Kategorie „Summary“ u.a. das offizielle Gensymbol, der vollständige Genname, so wie Synonyme und alternative oder alte Namen des Gens. Alte Gennamen, die vor der Einführung eines offiziellen Gensymbols verwendet wurden und Synonyme sind besonders wichtig, um in der NukleotidDatendomäne nach sämtlichen Daten zu einer Sequenz zu recherchieren, d.h. eine vollständige Suche über die Textsuchfunktion durchzuführen. Die folgende Abbildung zeigt die Summary-Kategorie für das CFTR-Gen des Menschen.
Des Weiteren stehen unter Links Verknüpfungen zu den anderen Entrez-Datendomänen sowie zu anderen, zum Teil sehr spezialisierten, Datenbanken (z.B. zu der Human ABC-Transporter Proteindatenbank für das menschliche CFTR-Gen) zur Verfügung.
Vergleichbares zu Entrez-Gene Entrez-Gene ist nicht die einzige Datenbank, in der sämtliche Informationen zu einem Gen zusammengetragen sind. Weitere Informationsquellen zu Genen sind z.B. • GeneCards (Rebhan, M., Chalifa-Caspi, V., Prilusky, J., Lancet, D.: GeneCards: encyclopedia for genes, proteins and diseases. Weizmann Institute of Science, Bioinformatics Unit and Genome Center (Rehovot, Israel), 1997. World Wide Web URL: http://www.genecards.org/) • Ensemble Gene Reports (Hubbard, TJP et al. Ensembl 2007 Nucleic Acids Res. 2007 Jan 1; Database issue; World Wide Web URL: http://www.ensembl.org/)
Suchworte suchen und finden Die Genbeschreibungen in den Sequenzdatenbanken sind unterschiedlichen Ursprungs. In Entrez-Gene haben die Gene einen offiziellen Gennamen oder einen Namen, der mit dem Namen in anderen überarbeiteten Datenbanken, wie z.B. in RefSeq, übereinstimmt. In der Archivdatenbank GenBank werden die Gennamen und Genbeschreibungen, die vom Wissenschaftler zusammen mit der Sequenz geliefert werden, nicht weiter überprüft. So findet man unter dem Suchwort glyceraldehyde-3-phosphate dehydrogenase nicht nur die Einträge mit korrekter Schreibweise, sondern auch Einträge mit Rechtschreibfehlern wie z.B. „glyceraldehyd“, „glyceraldyhyde“, „phophate“ usw. Unter der Rubrik „Preview/Index“ können alle Einträge mit dem Suchwort in jedem beliebigen Feld recherchiert und in die Suche mit aufgenommen werden. Für eine vollständige Suche nach z.B. glyceraldehyde-3phosphate dehydrogenase werden alle diese Einträge ausgewählt (Strg + Mausklick) und mit AND in die Suchbox geschickt. Bei einer Mehrfachauswahl von Suchworten werden diese automatisch mit OR verknüpft.
Dennoch möchte der Wissenschaftler oft nur nach zuverlässigen Datenbankeinträgen in überarbeiteten Datenbanken wie z.B. Entrez-Gene oder RefSeq recherchieren. Der offizielle Genname sowie eine funktionelle Beschreibung von Genaktivitäten können Suchworte sein, um die gesuchten Sequenzen zu finden. Die beiden fol-
genden Organisationen setzen sich mit einer einheitlichen Klassifizierung molekularbiologischer Daten auseinander. Sie bieten über ihre Webseiten die Möglichkeit, das offizielle Gensymbol für ein Gen zu finden bzw. eine klassifizierte Beschreibung einer Genaktivität auszuwählen. (1) HUGO (Human Genome Organisation) Human Gene Nomenclature Committee mit der Datenbank der offiziellen Gensymbole (HGNC-database; http:// www.gene.ucl.ac.uk/nomenclature/) (2) Gene Ontology Consortium mit dem Gene Ontology (GO) Browser (http://www. geneontology.org/) HUGO Human Gene Nomenclature Committee Das Human Gene Nomenclature Committee (HGNC) benennt die offiziellen Gennamen und Gensymbole. Zur Zeit beinhaltet die HGNC-Datenbank über 24.000 offizielle Gensymbole für menschliche Gene (Stand: Jan. 2007). Über die “Quick Search” auf der Homepage der Organisation kann die Datenbank über eine Stichwortsuche abgefragt werden.
Zusätzlich sind Geninformationen über Listen für viele Genfamilien und Gengruppierungen (Gene Families/Groupings) zugänglich.
ONLINE-Übung zu HGNC Webseite: http://www.gene.ucl.ac.uk/nomenclature/ • Was ist das offizielle Gensymbol für den „cystic fibrosis transmembrane conductance regulator“? Die Suche erfolgt mit dem Suchwort cystic fibrosis.
• Was wäre, wenn Sie das alternative Gensymbol MRP7 für Recherchen nach Nukleotidsequenzen benutzen würden? Klicken Sie MRP7.
MRP7 ist kein eindeutiges Gensymbol. Dieses Symbol wurde für zwei verschiedene Gene benutzt und würde bei einer Suche in der Nukleotiddatenbank alle Einträge hervorbringen, die mit „MPR7“ beschrieben sind.
Gene Ontology (GO) Consortium Das „Gene Ontology Consortium“ entwickelt ein Vokabular für Gene und Genprodukte. Die Genbeschreibungen sind hierarchisch gegliedert. Die Terminologie beruht auf 3 Konzepten (Zitate von der GO Webseite): (1) Molecular Function: „the tasks performed by individual gene products; examples include transcription factor and DNA helicase.“ What kind of molecule it is. (2) Biological Process: „broad biological goals, such as mitosis or purine metabolism, that are accomplished by ordered assemblies of molecular functions.“ What molecule does; what it is involved in. (3) Cellular Component: „subcellular structures, locations, and macromolecular complexes; examples include nucleus, telomere, and origin recognition complex“. Where it is.
ONLINE-Übung zu GeneOntology Webseite: http://www.geneontology.org/ • Betrachten Sie die Hierarchie der Genbeschreibungen im AMIGO Browser. Die Zahl hinter den Beschreibungen führt zu einer Liste von Genen zum gewählten Thema (z.B. biological process, development, usw.). Ist ein „+“-Zeichen vor dem Terminus, kann die Hierarchie eine Ebene weiter aufgefächert werden, so dass man zu einer detaillierteren Beschreibung der Funktion bzw. des Prozesses oder der Lokalisation kommt.
• Welche Gen-Ontologie hat das CFTR-Gen? • Entrez-Gene zeigt die Gen-Ontologie für CFTR.
Suchworte suchen und finden • Human Gene Nomenclature Commettee (HUGO, http://www.gene.ucl.ac.uk/ nomenclature/) • Gene Ontology Browser (GO, http://www.geneontology.org/)
Übungen (1) Gehen Sie zu den verschiedenen Datendomänen am NCBI und machen Sie sich mit den „Limits“-Funktionen insbesondere von Entrez-Nucleotide, EntrezSNPs und auch der Literaturdatenbanken Entrez-PubMed und Entrez-OMIM vertraut. Auch bei PubMed wird Entrez zur Suchanfrage genutzt! Die Handhabung der Suchmaschine sollte Ihnen soweit vertraut werden, dass Sie alle Recherchen am NCBI zumindest über die „Limits“-Einstellungen fokussieren können. PubMed hat darüber hinaus noch viele weitere Besonderheiten aufzuweisen, wie z.B. eine Suche über ein kontrolliertes Vokabular, den MeSHTerms (Medical Subject Headings). (2) Suchen Sie eine repräsentative Nukleotidsequenz von „presenilin 1“ des Menschen. Sie wissen nicht, ob die Suchanfrage mit oder ohne Leerzeichen bzw. mit Bindestrich geschrieben wird und was besser ist. Wie gehen Sie vor? Was können Sie tun, um die Suchanfrage zu fokussieren? (3) Suchen Sie nach „glyceraldehyde-3-phosphate dehydrogenase“-Sequenzen unter Berücksichtigung von Rechtschreibfehlern in den GenBank-Einträgen. (4) Suchen Sie nach Kinase-Sequenzen mit einer Promotorregion von der Maus. (5) Suchen Sie in Entrez-Nucleotide alle „reviewed RefSeq human mRNAs“. (6) Welche Gene wurden für Brustkrebs bei jungen Frauen (Early Onset Breast Cancer) identifiziert? Gehen Sie über Entrez CoreNucleotide. (7) Welche Gene kodieren für Proteine zum Kupferionentransport (copper ion transport)? (8) Vergleichen Sie für die Suchanfrage Homo sapiens [orgn] die Ergebnisse in Entrez-Nucleotide und Entrez-Genome. Wie viele Treffer gibt es in der jeweiligen Domäne? Warum? (9) Sie wollen im Genom von Escherichia coli K12 das Riboflavin B Gen (ribb) lokalisieren. Wie gehen Sie vor? (10) Der folgende Artikel beschreibt die Klonierung und Charakterisierung von Heparinsulfat-2-O-Sulfatase aus Flavobacterium heparinum. Obwohl die Datenbanken PubMed und Entrez-Nucleotide miteinander verknüpft sind (Hardlinks) und aufgrund des Titels auf jeden Fall Sequenzen in Entrez-Nucleotide zu finden sein müssten, können Sie keine Verbindung zwischen dem Artikel und Entrez-Nucleotide finden. Welche Sequenzen sind mit hoher Wahrscheinlichkeit in diesem Artikel beschrieben? Suchen Sie die Sequenzen in Entrez-Nucleotide. • Myette JR, Shriver Z, Claycamp C, McLean MW, Venkataraman G, Sasisekharan R. The heparin/heparan sulfate 2-O-sulfatase from Flavobacterium heparinum. Molecular cloning, recombinant expression, and biochemical characterization. J Biol Chem. 2003 Apr 4;278(14):12157–66. Epub 2003 Jan 7.
6 Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tool“ (BLAST) in den Sequenzdatenbanken des NCBI Was ist eine Sequenzähnlichkeitssuche? Über eine Sequenzähnlichkeit von einer unbekannten und einer bereits beschriebenen Sequenz können wichtige Informationen für die Charakterisierung der unbekannten Sequenz erlangt werden. So können Gen- und Proteinfunktionen über eine Sequenzähnlichkeit abgeleitet werden, konservierte Regionen und Domänen in einer Sequenz identifiziert werden oder auch Vektorsequenzen eines Klonierungsplasmides gefunden und eliminiert werden. In diesem Kapitel geht es um Datenbankrecherchen in den Sequenzdatenbanken, die auch in den vorherigen Kapiteln besprochen wurden, wie z.B. GenBank, RefSeq und Swiss-Prot. Es behandelt jedoch nicht die Suchanfrage mit Suchworten, sondern die Suchanfrage mit einer Sequenz als Ausgangspunkt. Für eine Sequenzähnlichkeitssuche sind verschiedene Algorithmen entwickelt worden. Der am weitesten verbreitete Suchalgorithmus ist in BLAST, dem „Basic Local Alignment Search Tool“, integriert und wurde 1990 von Stephen F. Altschul (amerikan. Mathematiker) zunächst für einen Vergleich von Proteinsequenzen publiziert. Die Stärken von BLAST sind der schnelle Sequenzvergleich und die genaue Berechnung der statistischen Signifikanz der Sequenzähnlichkeit. Beim BLAST-Algorithmus wird eine hohe Empfindlichkeit (sensitivity) mit einer sehr guten hohen Selektivität (selectivity) kombiniert. BLAST errechnet selten die Werte für nicht-ähnliche Sequenzen, es sei denn, die Sequenz enthält Regionen niedriger Komplexität (low-complexity regions). BLAST Scores haben statistische Signifikanz und echte Treffer können von Hintergrund-Ergebnissen unterschieden werden. Der Schwerpunkt für die Besprechung der Sequenzähnlichkeitssuche in diesem Kapitel liegt auf dem NCBI-BLAST. Der Anwender wird eventuell auf BLAST-Programme auf anderen Servern stoßen, bei denen sich die Einstellungen gegenüber dem NCBI-BLAST unterscheiden. So ist z.B. bei einem WU-BLAST (verändertes Suchprogramm, das u.a. an der Washington University installiert ist) der „T“-Wert 79
80
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
(Threshold-Wert) von 13 auf 12 herabgesetzt, was die Suche zwar sensitiver, aber langsamer ablaufen lässt. Auch andere Suchparameter haben Einfluss auf das Suchergebnis. So müssen z.B. für kurze Sequenzen andere Einstellungen vorgenommen werden als für lange Sequenzen. Im Folgenden werden die Suchparameter besprochen, über die eine fokussierte Suche in den Sequenzdatenbanken wie GenBank möglich wird.
Veranschaulichung von BLAST anhand von Beispielfragen Über BLAST können viele Fragen zu einer Sequenz im Vorfeld von experimentellen Untersuchungen geklärt werden: • Sie haben das Gen eines spannungsabhängigen Chloridkanals des Zitterrochens (Torpedo marmorata) kloniert und in GenBank deponiert. Die Accession-Nummern sind X56758 (für die Nukleotidsequenz) und CAA40078 (für die Proteinsequenz). Sie wollen folgende Fragen beantworten: • Gibt es ähnliche Sequenzen beim Menschen? • Ist das Protein bei einer Erbkrankheit beschrieben worden und gibt es mehr Informationen zu der Krankheit am NCBI? • Sie wollen auch entfernt verwandte Gene finden – wie gehen Sie vor? • Besitzt die Proteinsequenz Motive und welche Funktion übernehmen diese Motive?
Homologe vs. ähnliche Sequenzen Die Begriffe Sequenzidentität, -ähnlichkeit und -homologie werden oft nicht konsequent nach ihrer Bedeutung verwendet; so liest man oft von homologen Sequenzen, wenn nur eine Sequenzähnlichkeit festgestellt wurde. Besondere Vorsicht ist deshalb beim Gebrauch folgender Angaben/Begriffe geboten: • Sequenzidentität (Sequence Identity) – sie bezeichnet die 100%ige Übereinstimmung zwischen zwei Sequenzen (Nukleotid oder Protein). • Sequenzähnlichkeit (Sequence Similarity) – sie bezeichnet den Verwandtschaftsgrad zweier Sequenzen in Prozent. Das Ausmaß an Verwandtschaft hängt von identischen und/oder konservierten Sequenzbereichen ab. Bei BLAST führt eine Sequenzähnlichkeit auf einen positiven Matrix-Score zurück (mehr zu MatrixScores siehe unten). • Sequenzhomologie (Sequence Homology) – sie bezeichnet ähnliche Sequenzen, die auf eine gemeinsame Ursprungssequenz zurückgehen. (Abb. 6.1) Obwohl es sich bei BLAST um eine Sequenzähnlichkeitssuche handelt, kann unter Berücksichtigung der folgenden Suchkriterien auf eventuelle Sequenzhomologie geschlossen werden:
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
81
Abbildung 6.1: Homologe Sequenzen gehen auf eine Ursprungssequenz zurück. Man unterscheidet paraloge und orthologe Sequenzen. Orthologe Sequenzen sind homologe Sequenzen in verschiedenen Organismen. In allen Organismen, in denen man sie findet, haben sie die gleiche Funktion. Paraloge Sequenzen kommen nur in ein und demselben Organismus vor, üben dort jedoch unterschiedliche Funktionen aus (Quelle: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Orthology.html)
1. Wenn eine DNA-Region für Proteine kodiert, sollte ein Sequenzvergleich der Proteinsequenz gegenüber einem DNA-Sequenzvergleich bevorzugt durchgeführt werden. Aufgrund eines höheren Selektionsdruckes auf Proteine gibt dieser Vergleich einen weitergehenden Blick in die Vergangenheit und die molekulare Evolution. 2. Während die meisten Sequenzen, die statistisch signifikante Ähnlichkeiten aufweisen, also im Alignment übereinstimmen, sind jedoch viele davon nicht homolog. So weisen Regionen mit niedriger Komplexität eine hohe Ähnlichkeit auf und täuschen somit eine falsche Homologie vor. In einem Bereich von 2040 Aminosäuren tritt eine über 50%ige Ähnlichkeit oft zufällig auf. Die Anwendung von Filtern (siehe unten) hilft, die Regionen von geringer Komplexität aus der Suche auszuschließen. 3. Abhängig von dem Entwicklungsabstand und dem Entwicklungsweg der Organismen weisen zwei oder mehrere ähnliche Sequenzen eventuell nur wenige absolut konservierte Regionen auf. Wenn eine Homologie zwischen den Genen
82
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
A und B, zwischen B und C und zwischen C und D gezeigt worden ist, so sind A und D ebenfalls homolog, selbst wenn sie keine bedeutende Ähnlichkeit teilen. 4. Die Wahl der Matrix bestimmt die Selektion der Treffer. Für die Suche nach homologen Sequenzen sollte eine Matrix angewendet werden, die aus einem Datensatz homologer Sequenzen berechnet wurde, wie z.B. PAM-Matrizen (siehe unten). Im BLAST-Programm kann unter zwei verschiedenen PAMMatrizen gewählt werden, die eine unterschiedliche Stringenz in der Suche vorgeben.
Algorithmen für eine Sequenzähnlichkeitssuche – lokale vs. globale Sequenzvergleiche Ein Algorithmus ist ein Verfahren für das Lösen eines mathematischen Problems in einer begrenzten Anzahl von Schritten, die eine mehrfache Wiederholung dieser Schritte mit einbezieht. Es gibt eine Vielzahl von Algorithmen und Bewertungsparametern, um Proteinoder DNA- Sequenzähnlichkeiten zu beurteilen. Im Allgemeinen hängt die Wahl für den „besten“ Algorithmus vom zu lösenden Problem ab. Algorithmen, die einen lokalen Vergleich errechnen, finden Bereiche mit der stärksten Ähnlichkeit zwischen zwei Sequenzen, indem sie Unterschiede außerhalb der ähnlichsten Region ignorieren. Sie sind am besten geeignet für die Recherche in Protein- und DNADatenbanken. Globale Vergleichs-Algorithmen sollten bevorzugt werden, wenn Sequenzhomologien untersucht werden und ein phylogenetischer Baum berechnet werden soll. Um zwei Sequenzen miteinander zu vergleichen, werden die Sequenzen für jede mögliche Ausrichtung (Alignment) berechnet. Die Sequenzausrichtung mit der höchsten Übereinstimmung wird als Ergebnis angezeigt, sobald sie über dem vorher definierten Schwellenwert liegt. Die Berechnung von Sequenzausrichtungen ist in vielen Büchern und anderen Quellen der Bioinformatik ausführlich beschrieben (siehe „Literaturvorschläge“). Die wichtigsten Algorithmen sind hier kurz zusammengestellt: • Needleman/Wunsch • Ziel: Berechnung eines globalen Alignments zweier Sequenzen durch die Erstellung einer Vergleichsmatrix. • Nachteil: prozessierungs- und zeitintensiv, übergeht oft Domänen und Motive, ungeeignet für große Datenbestände. • Literatur: Needleman S.B., Wunsch C.D. (1970) A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol 48: 443–453. • Smith/Waterman • Ziel: Berechnung eines lokalen Alignments zweier Sequenzen durch die Erstellung einer Vergleichsmatrix. • Vorteil: sehr sensitiv.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
83
• Nachteil: prozessierungs- und zeitintensiv, ungeeignet für eine Suche in großen Datenbeständen. • Literatur: Smith T.F., Waterman M.S. (1981) Identification of common molecular subsequences. J Mol Biol 147: 195–197 • FASTA • Ziel: Berechnung eines lokalen Alignments zwischen zwei Sequenzen. Dabei wird die Suchsequenz mit Sequenzen unterschiedlicher Länge aus den Datenbank-Indexdateien verglichen. Die gewählte Wortlänge (k-tuple) dieser Tabelle bestimmt die Empfindlichkeit und die Schnelligkeit der Suche. • Vorteil: sensitiv und schnell. • Literatur: Pearson W.R., Lipman D.J. (1988) Improved Tools for Biological Sequence Comparison. PNAS 85: 2444-2448 • BLAST • Ziel: Berechnung eines lokalen Alignments zwischen zwei Sequenzen durch die Identifizierung von High-Scoring-Pairs (HSP). Diese Treffer werden erweitert, bis sie die größtmögliche Länge erzielen oder mit anderen Treffern in derselben Sequenz aneinandergereiht werden können. • Ziemlich sensitiv und sehr schnell. • Literatur: Altschul S.F., Gish W., Miller W, Myers E.W. & Lipman D.J. (1990) Basic local alignment search tool. J Mol Biol 215: 403–410 • Die bioinformatischen Details des BLAST-Algorithmus sind in den unten angegebenen Literaturquellen ausführlich beschrieben.
Die BLAST-Programmauswahl BLAST-Programme laufen auf vielen Servern, wie z.B. auf denen am NCBI (http:// www.ncbi.nlm.nih.gov/BLAST/) und am EBI (European Bioinformatics Institute; http://www.ebi.ac.uk/blast/). Zum einen unterscheiden sich BLAST-Programme durch Parameter im Suchalgorithmus wie z.B. NCBI-BLAST und WU-BLAST, zum anderen werden BLAST-Programme mit angepassten Voreinstellungen für die Suchparameter angeboten. Am NCBI steht der NCBI-BLAST für alle dort existierenden
Tabelle 6.1: Die Auswahl an BLAST-Programmen am NCBI. Programm
Sequenztyp zur Abfrage der Datenbank
BLASTP BLASTN BLASTX TBLASTN
Protein Nukleinsäure Nukleinsäure (translatiert) Protein
Sequenztyp im Ergebnis der Abfrage (Datenbanktyp) Protein Nukleinsäure Protein Nukleinsäure
TBLASTX
Nukleinsäure (translatiert)
Nukleinsäure (translatiert)
84
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Abbildung 6.2: Die neuen BLAST-Seiten, die seit April 2007 zur Verfügung stehen, gewähren einen Einstieg in die Suchprogramme über die Auswahl eines Algorithmus in den hier aufgeführten fünf Kategorien.
Sequenzdatenbanken (Nukleotid und Protein) zur Suchabfrage in allen Suchkombinationen zur Verfügung (siehe Tabelle 6.1). Tabelle 6.2: Programmwahl für eine BLAST-Suche in Abhängigkeit von der zu untersuchenden Nukleotidsequenz und dem Rechercheziel. Länge der Nukleotidsequenz 20 bp oder länger (28 bp oder mehr für megablast)
7–20 bp
Ziel
Programm
Identifizierung einer unbekannten Sequenz oder Suche nach ähnlichen Sequenzen
BLASTN, disc. MEGABLAST oder MEGABLAST
Suche nach Proteinsequenzen, die der translatierten Nukleotidsequenz ähnlich sind
Translated BLAST (tblastx)
Suche nach übersetzten Proteinsequenzen mit übersetzten Proteinsequenzen
Translated BLAST (blastx; Db = Protein)
Suche nach Primer-Bindungsstellen oder Search for short, nearly exact kurzen Sequenz-Motiven matches *
85
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Tabelle 6.3: Programmwahl für eine BLAST-Suche in Abhängigkeit von der zu untersuchenden Proteinsequenz und dem Rechercheziel. Länge der Proteinsequenz 15 AS oder länger
5–15 AS
Ziel
Programm
Identifizierung einer unbekannten Sequenz oder Suche nach ähnlichen Sequenzen Suche nach Mitgliedern einer Proteinfamilie mit Hilfe einer PSSM Suche nach Proteinen mit best. Motiven Suche nach konservierten Domänen Suche nach konservierten Domänen und nach weiteren Proteinen mit dieser Domäne Suche nach Nukleotidsequenzen für ähnliche Proteine Suche nach Peptid-Motiven
Standard Protein BLAST (BLASTP) PSI-BLAST PHI-BLAST CD-Search CDART Translated BLAST (TBLASTN) Db=Nt Search for short, nearly exact matches *
Die Auswahl der Suchoberfläche Die Wahl der Suchoberfläche richtet sich nach der Fragestellung für eine Suche. Die Tabellen 6.2 und 6.3 zeigen die wichtigsten Kriterien zur Auswahl der Suchoberfläche. Die Suchoberfläche des NCBI-BLAST Die BLAST-Suchoberfläche für eine BLAST-Suche am NCBI ist in drei Abschnitte eingeteilt, in denen die notwendigen, die erweiterten und die Formatierungs-Parameter eingegeben werden. Im ersten Abschnitt wird die Suchanfrage eingegeben (Enter Query Sequence), die Datenbank (Choose Search Set) und das Programm bzw. der Suchalgorithmus ausgewählt (Program Selection). Im nächsten Abschnitt können die Einstellungen der Suchparameter verändert werden wie es z.B. für eine Suche mit einer höheren Stringenz notwendig ist (siehe Abb. 6.5). In einer dritten Suchmaske können Änderungen zu Formatierungen des Ergebnisses vorgenommen werden. Sie ist jetzt jedoch nicht mehr auf der initialen Suchoberfläche vorhanden, sondern kann erst nach dem Abschicken der Suchanfrage über die Funktionen Formatting options bzw. Reformat these Results unter dem Menüpunkt Recent Results aufgerufen werden.
86
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Die Suchanfrage (Query) Für eine Sequenzähnlichkeitssuche mit Standard-Sucheinstellungen ist es oft schon ausreichend, nur den ersten Abschnitt der Suchoberfläche zu benutzen (siehe Abb. 6.3).
Abbildung 6.3: Der erste von drei Abschnitten auf der BLAST-Suchoberfläche.
Die hierfür erforderlichen Angaben sind: 1. Eingabe der zu vergleichenden Sequenz (Enter Query Sequence) in einem der folgenden Formate • FASTA Sequenzformat • Rohe Sequenz • NCBI Accession Nummer bzw. GI-Nummer (GenInfo-Nummer), wie z.B. CAA40078. Die Sequenzinformationen können auch in einer Datei aufgeführt werden, die dann auf den BLAST-Server hochgeladen werden muss (upload file). Zusätzlich ist es möglich, den Bereich für eine Suche in einer Sequenz einzuschränken (Query subrange). In diese Kästchen kann eine bestimmte Sequenzstelle mit der Zahl des Anfangs- und End-Nukleotids eingegeben werden. Nur dieser Sequenzabschnitt wird dann für die BLAST-Suche herangezogen. Die Angaben sind sinnvoll, wenn man z.B. mit einer Accession-Nummer eines Con-
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
87
tigs arbeitet (eine Contig-Sequenz kann mehrere Millionen Basenpaare enthalten), aber nur einen kleinen Teil der Sequenz über BLAST analysieren will. Lässt man diese Kästchen leer, wird die vollständige Sequenz aus dem Sequenzfeld einer BLAST-Suche unterzogen. 2. Auswahl der Datenbank, wie z.B. RefSeq, evtl. Einschränkung über die Auswahl von einem oder wenigen Organismen und/oder über Suchfeldqualifizierungen, wie sie in Entrez vorgenommen werden können (siehe Kap. 5). 3. Auswahl des BLAST-Programmes innerhalb der in Abbildung 1 aufgeführten fünf Kategorien, wie z.B. blastp. Auf der Suchoberfläche selbst können Optimierungen für das Suchprogramm vorgenommen werden (Program Selection), wie z.B. für PSI-BLAST. 4. Abschicken der Suche durch den Mausklick auf „BLAST!“. • Für jede Suche wird eine Such-ID Nummer (Request ID) vergeben, unter der das Suchergebnis für 36 Stunden vom NCBI Server abgefragt werden kann. Mit dieser Nummer lassen sich die Ergebnisse in unterschiedlicher Formatierung, wie z.B. eine Trefferanzeige für nur einen Organismus, wieder aufrufen. Die RID wird unter der Rubrik Recent Results hinterlegt.
Die Sucheinstellungen der einfachen BLAST-Suche mit Standardparametern Die Datenbankauswahl (Choose Search Set) Die Datenbank „nr“ (non-redundant) bildet jeweils die größte Datenmenge mit den Datenbeständen „All GenBank + EMBL + DDBJ + PDB” (keine EST, STS, GSS, oder Phase 0, 1 oder 2 HTGS Sequenzen) für Nukleotide bzw. “GenBank CDS translations + PDB + SwissProt + PIR + PRF“ für Proteine. Der Datensatz ist jedoch keines-
88
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Abbildung 6.4: Die Auswahl der Datenbank erfolgt über ein Pull-down-Menü.
wegs „non-redundant“, da viele Sequenzen z.T. mehrfach in die Datenbanken der „nr“-Domäne aufgenommen werden. Zusätzlich zu allen öffentlich zur Verfügung stehenden Sequenzen ist das vollständige menschliche Genom aus zwei Sequenzierungsansätzen in GenBank enthalten. Wie im Jahre 2001 berichtet wurde, ist das menschliche Genom über zwei unterschiedliche Ansätze vollständig sequenziert worden. Die Sequenzen, die über das Human-Genom-Projekt (öffentlich gefördertes internationales Projekt) aufgeklärt und in die Datenbanken eingespeist wurden, waren öffentlich zugänglich, die der amerikanischen Firma Celera Genomics (1998 von Craig Venter gegründet) jedoch nicht. Im Jahre 2005 wurden auch die Celera-Sequenzen öffentlich zugänglich gemacht und in GenBank eingebunden. Der Datenbestand erhöhte sich damit schlagartig. Für die Auswahl der Nukleotiddatenbank stehen neben verschiedenen GenBankKategorien und speziellen Datenbanken zwei ausgegliederte Datenbereiche zur Verfügung. Für menschliche sowie für Maus-Sequenzen können genomische Sequenzen sowie Transkripte gemeinsam recherchiert werden. Eine getrennte Recherche in genomischen Daten bzw. Transkripten kann mit der Datenbankauswahl Reference genomic sequences bzw. Reference mRNA sequences vorgenommen werden. Bei einer solchen Einstellung empfiehlt sich die zusätzliche Auswahl eines Organismus oder einer Organismen-Gruppe über ein ähnliches Pull-down Menü in diesem Abschnitt (siehe Abb. 6.4). Sollten Sie wider Erwarten keine Treffer für Ihre Nukleotidsequenz finden, ist die erste Überlegung, den Datenbestand, in dem Sie recherchieren, zu wechseln. Vielleicht denken Sie, dass Sie auf jeden Fall eine EST-Sequenz in der „nr“-Domäne hätten finden müssen. Doch die nr-Domäne sowie die jetzt als Standardeinstellung
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
89
vorgegebene „Human genomic plus transcript“-Datenbank enthalten keine ESTSequenzen. Versuchen Sie zunächst also die Datenbank zu wechseln, bevor Sie die unten besprochenen Suchparameter ändern. Darüber hinaus wünscht sich der ein oder andere Anwender für eine Sequenzähnlichkeitssuche vielleicht eine andere Datenbank als die am NCBI zur Verfügung gestellten. Wie oben erwähnt ist BLAST auch auf dem Server des EBI installiert. Hier können weitere Datenbanken mit BLAST durchmustert werden. Ferner besteht die Möglichkeit, BLAST lokal zu installieren, um z.B. eine In-House Datenbank zu durchsuchen. Eine genaue Beschreibung zur Installation von BLAST gibt es auf den Webseiten des NCBI. Textsuchfunktionen bei BLAST (Entrez Query) Eine Suchanfrage in BLAST kann über Text-Suchfunktionen gesteuert werden. Mit der Funktion Entrez Query wird die Recherche auf eine Teilmenge der gewählten Datenbanken eingeschränkt. Entrez-Querys sind Suchanfragen über eine Suchsyntax mit Suchfeldqualifizierung und Boole’schen Operatoren, die in Kapitel 4 besprochen wurden. So kann über eine Entrez-Suchanfrage die Recherche z.B. auf eine bestimmte Molekülart oder den Genlocus begrenzt werden (wie z.B. „biomol_mrna[PROP]“ bzw. gene_in_plastid_chloroplast[PROP]). Um die Suche auf einen spezifischen Organismus zu begrenzen, kann der Organismus oder die Organismengruppe in einem Pull-down-Menü ausgewählt werden, das sich öffnet, sobald die Datenbank Others angeklickt ist (BLASTN); bzw. ein eigenes Eingabefeld darstellt (BLASTP).
Die Algorithmus-Parameter Im zweiten Abschnitt der BLAST-Suchmaske (Algorithm parameters) können viele Parameter verändert werden (siehe Abb. 6.5). Die Wortlänge (Word size) Der BLAST-Algorithmus sucht in mehreren unabhängen Schritten nach lokalen Sequenzübereinstimmungen. Im ersten Schritt werden aus der zu untersuchenden Sequenz „Wörter“ gebildet. Die Länge der Wörter wird über die Wortlänge (Word size) bestimmt. Die Standardeinstellung ist eine Wortlänge von elf Nukleotidbasen (BLASTN) bzw. drei Aminosäuren (BLASTP). BLAST sucht für alle Wörter der Sequenz (z.B. für die Aminosäuren 1,2,3 (= 1. Wort), 2,3,4 (= 2. Wort), u.s.w.) die möglichen Sequenzübereinstimmungen und -ähnlichkeiten in der Datenbank und bewertet die Übereinstimmung mit Hilfe einer Matrix. Liegt eine Übereinstimmung von elf Nukleotiden bzw. drei Aminosäuren vor, und ist der errechnete Wert für diese Sequenzübereinstimmung höher oder gleich dem gesetzten Grenzwert (T), so wird das „Wort“ in eine Tabelle der „High Scoring Pairs“ (HSP), dem so genannten „lookup table“ oder „hash table“, überführt. Diese Nachschlagetabelle wird für den
90
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Abbildung 6.5: Die veränderbaren Parameter werden nach einem Mausklick auf Algorithm parameters sichtbar. Die Abbildung zeigt die Standardeinstellungen für BLASTN (oben), BLASTP (unten).
weiteren Vergleich der Sequenz mit den Sequenzen in der Datenbank herangezogen (siehe Abb. 6.6). Im nächsten Schritt werden die HSPs um je eine Base bzw. Aminosäure verlängert und die neuen, jetzt verlängerten, Wörter berechnet. Die Verlängerung der Wörter erfolgt in beide Richtungen. Auch diese verlängerten Wörter müssen hoch genug bewertet werden, um weiter verlängert zu werden.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
91
Unter Anwendung des BLAST-Algorithmus für eine Datenbanksuche kommt es zu vielen einzelnen Ergebnissen („gapped results“), die am Ende der Suche (3. Schritt) zusammengefasst werden. Die Sequenzähnlichkeiten über verschiedene Bereiche innerhalb einer Sequenz werden im Ergebnis unter der einen Sequenz (Zugriffsnummer) aufgeführt. So können in einem Treffer durchaus zwei und mehr Sequenzausrichtungen gezeigt werden. Die Einstellung für die Wortlänge ist variabel und sollte auf die Sequenzlänge der Ausgangssequenz abgestimmt werden. So sollte die Wortlänge für kurze Sequenzen heruntergesetzt werden, damit eine Übereinstimmung wie z. B. für ein Oligonukleotid oder einen Primer (d.h. einer kurzen Sequenz) ebenfalls gefunden wird. Unter der alten Suchmaske gab es vorgefertigte Suchoberflächen für kurze Sequenzen (Search for short, nearly exact matches). Hier betrug die Wortlänge für eine BLASTN-Suche sieben Nukleotide und für eine BLASTP-Suche zwei Aminosäuren. In der neuen Suchmaske gibt es die Option Automatically adjust parameters for short input sequences. Leider wird nicht ersichtlich, wie die Suchparameter angepasst wurden, mit denen die Ergebnisse für kurze Sequenzen erzielt wurden.
Abbildung 6.6: Der Schwellenwert für Sequenzübereinstimmungen in BLASTP beträgt 13 (11 für eine Wortlänge von 2). Alle Sequenzen in einer Datenbank mit einer Übereinstimmung (Bewertung) zur Ausgangssequenz von weniger als 13 werden verworfen. Alle Sequenzen mit einer Bewertung mit oder oberhalb des Schwellenwertes werden für eine Sequenzverlängerung herangezogen und neu bewertet. Die jeweils längsten Sequenzen mit höchster Bewertung gehen in die Ergebnisliste ein (Quelle: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/BLAST_algorithm.html).
92
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Die Matrix Eine Matrix liefert die Grundlage für die Bewertung einer Sequenzähnlichkeit. Es wird ein sogenannter „Score“ berechnet. Je höher der Score, desto besser das Alignment. Die Signifikanz des Ergebnisses hängt jedoch nicht allein vom Score, sondern auch vom E-Wert ab (siehe unten). Im Falle von Nukleotidsequenz-Vergleichen erfolgt die Bewertung mit Hilfe einer sogenannten Einheits- oder „Unitary“-Matrix. Bei der Anwendung dieser Matrix erhalten alle Übereinstimmungen in einem Sequenzvergleich denselben Wert (Score), ebenso alle Nicht-Übereinstimmungen. In BLASTN erhalten alle Übereinstimmungen einen Wert von (+2) und alle Nicht-Übereinstimmungen einen Wert von (–3). Der Score des Alignments ist dann die Summe aller Bewertungen für ein bestimmtes Alignment. Die Sequenzübereinstimmung mit dem höchsten Wert wird als die wahrscheinlichste angesehen (siehe Abb. 6.6). Achtung: In einer solchen Unitary Matrix bleibt die Tatsache, dass Transitionen wahrscheinlicher sind als Transversionen, unberücksichtigt. Es wird angenommen, dass die Basenaustausche alle mit derselben Häufigkeit auftreten. Daher ist BLASTN kein geeignetes Programm für Studien im Bereich der molekularen Evolution.
Abbildung 6.7: Der errechnete Wert für einen Sequenzvergleich ist die Summe der Werte aus allen Nukleotid- bzw. AS-Werten aus einer Matrix.
Die Bewertung von Proteinsequenz-Vergleichen ist ein wenig komplizierter. Bei 20 Aminosäuren mit unterschiedlichen Charakteristika kann nicht mehr angenommen werden, dass alle Aminosäureaustausche mit der gleichen Häufigkeit erfolgen. Es liegt ein hoher Selektionsdruck auf Proteinsequenzen, weil sie die Funktionen in der Zelle ausführen und präzise funktionieren müssen. Ein Austausch von Aminosäuren wirkt sich oft auch auf die Struktur und/oder Funktion eines Proteins aus. So ist ein Austausch von zwei basischen Aminosäuren für die Funktion des Proteins oft nicht so dramatisch wie ein Austausch von einer sauren und einer basischen Aminosäure. Ähnliches gilt für den Austausch von hydrophilen und hydrophoben oder von kleinen und großen Aminosäuren. Aufgrund dessen wurden und werden für den Vergleich von Proteinsequenzen Matrizen entwickelt, die die einzelnen Aminosäuresubstitutionen gewichten. Das Prinzip einer Matrix ist es, eine hohe „Strafe“ für die Ausrichtung von Aminosäuren zu vergeben, die wahrscheinlich nicht ähnlich oder homolog sind.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
93
Ein Wert in einer Matrix ist der negative Logarithmus der Wahrscheinlichkeit eines bestimmten Aminosäure-Austausches. Diese Werte lassen sich in Koordinatensystemen darstellen und werden zum Sequenzvergleich herangezogen. Auch hier entspricht die Summe der Werte dem (rohen) „Score“ für den Sequenzvergleich.
Abbildung 6.8: Die Aminosäuren sind in der Ein-Buchstaben-Kodierung auf der x- und der y-Achse aufgetragen. Der Austausch zwischen zwei Aminosäuren erhält einen Vergleichswert aus der Tabelle, z.B. der Austausch von C (Cystein) zu E (Glutaminsäure) erhält den Score –4 (Quelle: http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Scoring2.html).
Matrizen werden aus Sequenzausrichtungen von mehreren Sequenzen (Multiple Alignments) entwickelt, denen unterschiedliche Daten zugrunde liegen. Die Auswahl der Matrix für eine BLAST-Suche richtet sich nach der Fragestellung der Recherche. Die Matrix bestimmt die Stringenz der Suche. Am NCBI werden verschiedene Matrizen angeboten, die in die zwei Gruppen PAM und BLOSUM eingeteilt werden. Im Folgenden werden die Matrizen kurz besprochen. PAM – Point Accepted Mutation PAM-Matrizen basieren auf Evolutionsmodellen von nahe verwandten Sequenzen. Sie werden aus globalen Sequenzausrichtungen entwickelt; somit gehen hoch konservierte Regionen und hoch variable Regionen mit in die Berechnung der Matrizen ein. Zu jeder PAM-Matrix gehört eine Zahl, die die Mutationsrate widerspiegelt. So bedeutet die „eins“ bei der Matrix PAM1, dass wahrscheinlich eine Aminosäure von 100 Aminosäuren einer unabhängigen Mutation unterliegt. Dem entsprechend unterlagen bei der Entwicklung der Matrizen PAM30 und PAM70 jeweils 30% bzw. 70% der Aminosäuren einer unabhängigen Mutation. Daraus folgt, dass mit der Matrix PAM30 ein höherer Verwandtschaftsgrad aufgespürt werden kann als mit der Matrix PAM70. Auch PAM120 und PAM250 Matrizen sind entwickelt worden. In diesen wurden die Rückmutationen in einem Bereich von 100 Aminosäuren in die Berechnung mit einbezogen. Im Allgemeinen gilt: Je höher die PAM-Zahl, desto höher ist der Fehler in der Mutationswahrscheinlichkeit und desto geringer ist die Stringenz bei der Datenbanksuche. Die PAM-Matrizen, die bei der webbasierten
94
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
BLASTP-Suche zur Verfügung gestellt werden, sind PAM30 und PAM70. Weitere Matrizen wie z.B. PAM10 oder PAM500 gibt es auf der FTP-Seite des NCBI; sie können in lokal installierten BLAST-Programmen integriert werden. BLOSUM – BLOCKS Substitutions BLOSUM-Matrizen basieren auf einem größeren Datenpool als PAM-Matrizen. Die zu Grunde liegenden Daten wurden der Datenbank BLOCKS entnommen, einem Datensatz mit lückenlosen Sequenzausrichtungen von Proteinfamilien, die zusätzlich noch in Cluster unterteilt sind. Sie sind entwickelt worden, um konservierte Proteindomänen zu finden und sind, ebenso wie PAM-Matrizen, mit einer angehängten Zahl versehen. BLOSUM62 ist die Standardmatrix in BLASTP. Die Zahl, z. B. “62”, steht für die minimale Sequenzidentität eines Protein-Clusters und wird in % angegeben. Weitere BLOSUM-Matrizen, die bei der Web-basierten BLASTP-Suche zur Verfügung gestellt werden, sind BLOSUM80 und BLOSUM45. Eine BLAST-Suche mit BLOSUM80 ist wesentlich stringenter als z.B. mit BLOSUM45, da die Protein-Cluster, aus denen die Matrix entwickelt wurde, eine 80%ige Übereinstimmung aufweisen. Mehr Matrizen, wie z.B. BLOSUM30 oder BLOSUM100, gibt es auf der FTP-Seite des NCBI, sie können in lokal installierten BLAST-Programmen integriert werden. Die Bewertung von Lücken im Alignment (Gap existence and gap extension costs) In einem Sequenzvergleich werden nicht nur die Sequenzübereinstimmungen, sondern auch die fehlenden Übereinstimmungen, die Lücken in einer Sequenzausrichtung, bewertet. Eine Lücke hat eine hohe biologische Bedeutung, wogegen die Länge der Lücke zweitrangig ist. Wenn z.B. einer Sequenz im Vergleich zu einer anderen Sequenz eine funktionelle Domäne fehlt, kommt es in einer Sequenzausrichtung zu einer Lücke. Die Größe der fehlenden Domäne, d.h. die Länge der Lücke, ist aus biologischer Sicht unwichtig. Dies wird in der Berechnung der Sequenzausrichtung mit den so genannten „gap costs“ berücksichtigt, indem die „gap opening penalty“ höher ist als die „gap extension penalty“. Gap-costs sind negativ und werden vom berechneten Score abgezogen. Lückenwerte berechnen sich wie folgt: Gap-costs = – (a + b × l) (a = gap opening penalty, b = gap extension penalty, l = Länge der Lücke). Gebräuchlich sind empirische Werte wie z.B. –11 (gap opening penalty) und –1 (gap extension penalty). Somit würden bei einer Alignment-Lücke von 10 Aminosäuren 21 Bewertungspunkte vom Score abgezogen werden (–11 + (10 × –1). Geringe Gap-costs führen zu einer stark mit Lücken besetzten, eher globalen Sequenzausrichtung. Die Anwendung von Filtern (Filters and Masking) Filter-Softwares, wie z.B. DUST für Nukleotidsequenzen und SEG für Proteinsequenzen, maskieren Regionen in einer Sequenz, die während einer BLAST-Suche aus einem Sequenzvergleich ausgeschlossen werden sollen. Beide Programme filtern
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
95
Regionen mit niedriger Komplexität (low complexity regions), d.h. Regionen, in denen die Nukleotid- bzw. Aminosäure-Zusammensetzung wenig variiert. Dazu gehören z.B. Bereiche mit nur einer oder zwei Basen (z.B. AAAAAAAAAAA) in Nukleotidsequenzen oder stark saure, basische oder Prolin-reiche Regionen in Proteinsequenzen. Der Filter maskiert nur die Sequenz aus der Suchanfrage, nicht die Sequenzen in der Datenbank selbst. Für die BLAST-Anwendung „BLAST the Human Genome“ gibt es noch Filter für Wiederholungssequenzen (Repeats) im menschlichen Genom oder im Maus-Genom wie z.B. LINEs (Long Interspersed Nuclear Elememts), SINEs (Short Interspersed Nuclear Elements; ALU-Sequenzen gehören zu den SINEs). Mit Hilfe dieser Filter wird die Suche besonders für lange Sequenzen schneller. Filter haben Einfluss auf den berechneten Score eines Sequenzvergleichs.
Abbildung 6.9: „Low complexity“ – Regionen mit geringer Variation in der Aminosäurezusammensetzung. Entnommen aus http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/Seg.html
Die Optionen sind: • Low complexity – Unter dieser Option laufen die Programme DUST (NukleotidBLAST) bzw. SEG (Protein-BLAST). • Species –specific repeats – Unter dieser Option werden Wiederholungssequenzen im Genom gefiltert (Nukleotid-BLAST). Mehrere Organismen (-Gruppen) stehen hierfür zur Verfügung. • Mask for lookup table only – Die „lookup table“ wird bei einer BLAST-Suche im ersten Schritt der Sequenzvergleiche in der Datenbank erstellt. Unter dieser Opti-
96
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
on ist der Filter „Low complexity“ für diesen ersten Schritt angeschaltet. Im zweiten Schritt (siehe oben) ist der Filter nicht mehr angeschaltet, d.h. wenn auch die Regionen geringer Komplexität im ersten Schritt übersprungen wurden, so ist es doch möglich, einen Sequenzvergleich über diese Regionen hinweg zu berechnen, um zusammenhängende Sequenzbereiche zu finden. • Mask lower case – Unter dieser Option können die in einer Sequenz zu filternden Bereiche selbst bestimmt werden. Hierfür wird die Suchanfrage (Sequenz) im FASTA-Format mit Großbuchstaben, die zu filternden Regionen aber in Kleinbuchstaben angegeben und vor der Option ein Häkchen gesetzt. Diese Funktion bietet sich an, um Sequenzstrukturen wie z.B. „coiled-coiled regions“ oder Transmembranspannen für eine Sequenzähnlichkeitssuche unsichtbar zu machen. Die erwähnten Regionen weisen oft hohe Ähnlichkeiten auf, sind aber nicht homolog. So besitzen die Transmembranspannen eines Proteins viele hydrophobe Aminosäuren, weil das Protein (z.B. ein Rezeptor) in eine hydrophobe Struktur der Membran eingebaut werden muss. Andere Proteine mit Transmembranspannen, wie z.B. Ionenkanäle, haben ähnliche hydrophobe Regionen, da sie ebenfalls in die Membran eingebaut werden. Somit würde die Suche mit der Sequenz eines Rezeptorproteins auch Sequenzen von Ionenkanälen in der Datenbank finden. Die beiden Proteintypen würden jedoch keine Sequenzähnlichkeit in cytoplasmatischen oder extrazellulären Bereichen zeigen, und nur in diesen Bereichen sind die Untersuchungen für funktionelle Einheiten eines Proteins sinnvoll. Filter können kombiniert werden. So können z.B. sowohl der Filter für „Low complexity“-Bereiche angeschaltet sein als auch Teile einer Sequenz selbst maskiert werden. Der E-Wert (Expect threshold) Der E-Wert beschreibt die Anzahl an Hits mit entsprechender (oder besserer) Bewertung (Score), die bei der Suche mit einer Zufallssequenz in einer Datenbank entsprechender Größe vorkämen. Er ist ein Maß für die Signifikanz der Treffer. Je kleiner ein E-Wert ist, desto geringer ist die Wahrscheinlichkeit, nicht nur eine zufällige Übereinstimmung gefunden zu haben. Treffer mit hoher Signifikanz sind die wahrscheinlich „homologen“ Sequenzen; sie haben einen E-value ≤ 0,01. In vielen BLAST-Suchen gibt es sogar Treffer mit einem E-Wert von 0,0. Das bedeutet, dass die Wahrscheinlichkeit gleich Null ist, dass dieser Treffer in der Datenbank zufällig auftrat (demzufolge ist der Treffer signifikant). Trotzdem ist Vorsicht geboten. Manchmal findet man auch unter den Sequenzen mit einem E-Wert >1 noch homologe Sequenzen. Dies betrifft oft die Datenbanksuchen mit kurzen Sequenzen. Der Zusammenhang von E-Wert, der Länge der Sequenz (m), der Größe der Datenbank (n), der verwendeten Matrix (k) und dem Score (S) wird in der Berechnungsformel für den E-Wert deutlich (siehe unten). Ein normalisierter „Score“, S‘ mit E value = E, ist statistisch signifikant, wenn er größer ist als log N/E (mit N = size of the search space).
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
97
Ein wenig Statistik zu Erwartungswerten (E-values): E = kmne–hS • E = Expectation Value = number of matches expected to occur randomly with a given score. In general terms the smaller E is the more likely the match is significant. • k = A variable with a value dependent upon the substitution matrix used and adjusted for search base size. • m = Length of query (in nucleotides or amino acids). • n = Size of database (in nucleotides or amino acids). • mn = Size of the search space. • h = A statistical parameter used as a natural scale for the scoring system. • S = Raw Score = sum of substitution scores (ungapped BLAST) or substitution + gap scores. E-value-Rechner: http://www.ncbi.nlm.nih.gov/Class/BLAST/eval.html
Der Standard E-value für BLASTN, BLASTP, BLASTX und TBLASTN ist 10. E-values können herauf- und herabgesetzt werden, um die Stringenz der Suche zu erniedrigen oder zu erhöhen. E-values sollten stark erhöht werden (z.B. auf 1000 für BLASTN), wenn man mit kurzen Sequenzen arbeitet, da Sequenzähnlichkeiten von kurzen Sequenzen sehr viel häufiger in der Datenbank zu finden sind und daher oft zufällig auftreten. Dieses „Rauschen“ muss bei der Suche zugelassen werden, um überhaupt die relevanten Sequenzähnlichkeiten zu finden. Hinzu kommt, dass der Score einer kurzen Sequenz eher klein ist („S“ ist im Exponenten der Berechnungsformel), eine Datenbank wie „nr“ jedoch sehr groß ist (n ist Multiplikator in der Berechnungsformel). Somit hat der E-Wert keine Chance, unter dem Standardwert 10 zu liegen. Mehr Statistik zur Berechnung der Signifikanz (Composition-based statistics) Über diese Funktion wird die Zahl an falsch positiven Ergebnissen in einer BLASTPSuche verringert, indem die E-Wert-Genauigkeit verbessert wird. Die Anpassung des E-Werts erfolgt über einen Faktor, der aus dem Ähnlichkeitswert (substitution score) der für ähnlich befundenen Sequenzen, d.h. den Treffern, berechnet wird. Somit ist der Korrekturfaktor für jede Suche anders. Besonders die Datenbank „nr“, über die viele Recherchen durchgeführt werden, enthält so viele Sequenzen, dass die Berechnung einer stärkeren Signifikanz unter den Treffern sinnvoll ist. Die automatische „Verbesserung“ der Signifikanz der Treffer sollte bei der Verwendung von kurzen Sequenzen abgeschaltet werden, da die Signifikanz der Treffer oft nicht sehr hoch ist. Ein anspruchsvollerer Ansatz zur Verbesserung der Signifikanz kann unter „compositional score matrix adjustment“ ausgewählt werden. Bei dieser Einstellung
98
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
wird jede einzelne Sequenzähnlichkeit statistisch analysiert und positionsspezifische Ähnlichkeitswerte werden ausgerechnet. Tabelle 6.4.: Zusammenfassung: Wahl der Parameter & URL Standard-Einstellung Filter Scoring Matrix
an BLOSUM-62
Wortlänge E-value Gap cost Anzahl angezeigter Alignments
3 10 11.1 100
Recherche mit kurzen Sequenzen aus PAM-30 (< 35) PAM-70 (35–50) BLOSUM-80 (50-85) 3, or reduce to 2 1000 or more 9.1–10.1 100
Große Proteinfamilie an BLOSUM-62
3 10 11.1 2000
Bookmark – mit der Bookmark-Funktion ganz oben rechts auf der BLAST-Suchoberfläche kann man die Suchoberfläche mit den veränderten BLAST-Einstellungen als URL abspeichern, was über die normale Favoritenfunktion der Web-Browser nicht möglich ist.
Die Format-Einstellungen Wie oben erwähnt können Einstellungen zur Ergebnisanzeige unter den Funktionen Formatting options bzw. Reformat these Results unter dem Menüpunkt Recent Results vorgenommen werden. Im Folgenden sind die Auswahlmöglichkeiten beschrieben (siehe Abb 6.10). „Show“ Die Einstellungen unter „Show“ betreffen • Format – in diesem Menü gibt es die Möglichkeit, die Alignments aus dem Ergebnis im HTML-, Text-, ASN.1-, XML- Format, eine PSSM im Text-Format oder die Sequenzen im Format “BioSeq”/ASN.1 auszugeben. • Advanced View (Ja/Nein) – mit dieser Auswahl wird eine neue Art der Ergebnisanzeige zur Verfügung gestellt. Es handelt sich um eine Tabelle, die nicht nur die ursprünglichen Angaben wie “Accession-Nummer”, “Description”, “Score” und “E-Value”, sondern auch die Prozentangabe zur Länge der Sequenzübereinstimmungen und die Prozentangabe der Sequenzidentitäten angibt. Die Tabelle kann nach den Kriterien einer jeden Spalte sortiert werden.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
99
Abbildung 6.10: Über die Formateinstellungen kann die Trefferanzeige formatiert werden (gezeigt für BLASTP).
Abbildung 6.11: Alignment View – Einstellungen
„Alignment View“ Die Möglichkeiten zur Betrachtung der Sequenzausrichtungen sind in den Abbildungen 6.11 und 6.12 dargestellt. Die Standardeinstellung ist ein „Pairwise-Alignment“. Es gibt u.a. noch die Möglichkeit eines „Query-Anchored-Alignment“. Doch Vorsicht: Diese Sequenzausrichtungen sehen zwar aus wie echte multiple Alignments, sind aber nur die Darstellungen der Treffer, die allein an der Query-Sequenz ausgerichtet wurden. In einem echten multiplen Alignment werden die Sequenzausrichtungen aller Sequenzen untereinander berechnet und mit abgestufter Bewertung dargestellt. Eine weitere Möglichkeit ist die Darstellung der Treffer als Tabelle (Hit Table).
100
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
„Display“ Die Einstellungen unter „Display“ betreffen • Graphical Overview (Ja/Nein) – mit dieser Auswahl wird zusätzlich zu der Ergebnistabelle ein Übersichtsdiagramm mit farbigen Balken angezeigt. • Linkout (Ja/Nein) – mit dieser Auswahl wird ein Treffer mit einem Hyperlink zu anderen NCBI-Datendomänen verknüpft, z.B. über G zu Entrez-Gene, U zu UniGene, E zu Entrez-Geo (Nukleotid-BLAST), S zu Entrez-Structure (Protein-BLAST) und M zum NCBI MapViewer. • Sequence Retrieval (Ja/Nein) – mit dieser Auswahl besteht die Möglichkeit, Sequenzen aus der Treffermenge auszuwählen und zu speichern. • NCBI gi (Ja/Nein) – mit dieser Auswahl wird in der Liste der Treffer auch die GINummer der gefundenen Sequenzen angezeigt. • CDS feature (für BLASTN; Coding Sequenz: Ja/Nein) – mit dieser Auswahl werden die translatierten Regionen sowohl mit der Nukleotidsequenz als auch mit der Aminosäuresequenz dargestellt. Die Unterschiede in der Zusammensetzung der Aminosäuren werden hervorgehoben. „Masking Charakter“ Über ein kleines Pull-down-Menü kann folgende Auswahl getroffen werden: • Ein gefilterter Sequenzabschnitt kann in der Sequenzausrichtung mit „X“ für Aminosäuren oder „n“ für Nukleotide maskiert oder in Kleinbuchstaben angegeben werden. • Der gefilterte Sequenzabschnitt kann in den Farben schwarz, grau oder rot markiert werden.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
101
„Limit results“ Die Standardeinstellung für die Ergebnisausgabe in BLASTN sind 100 Beschreibungen, 100 Sequenzausrichtungen und 100 Balken in der Übersichtsanzeige, und in BLASTP sind es 500 Beschreibungen, 250 Sequenzausrichtungen und 100 Balken in der Übersichtsanzeige. Diese Einstellungen sollten der zu erwartenden Treffermenge angepasst werden. So bietet es sich für die Untersuchung von großen Proteinfamilien an, die Anzahl an gezeigten Alignments (Sequenzausrichtungen) zu erhöhen, da man sonst die Sequenzvergleiche der weit entfernt verwandten Sequenzen nicht einsehen kann. • „Entrez query“ – mit dieser Funktion wird das Suchergebnis auf eine Teilmenge eingeschränkt, die über eine Suchsyntax mit Suchfeldqualifizierung und Boole’schen Operatoren definiert wird (siehe oben). Des Weiteren kann das Ergebnis auch auf einen Organismus oder auf eine Organismengruppe beschränkt werden. • „Expect-Value Range“ – mit dieser Funktion können die Ergebnisse höherer als der bereits gezeigten E-Werte angesehen werden.
BLAST-Ergebnisse entziffern Die BLAST-Ergebnisse sind in drei Abschnitte gegliedert: die Übersichtsgrafik, die Tabelle mit den Beschreibungen der Treffer einschließlich der Scores und E-Werte und die Alignments. Diese Aufgliederung ist auch im erst kürzlich eingeführten „Advanced View“ gegeben, bei dem die Tabelle noch weitere Informationen wie z.B. die Identität (in %) enthält. Übersichtsgrafik Eine Zusammenfassung der BLAST-Ergebnisse ist in einem interaktiven Balkendiagramm farbig dargestellt. Sequenzen mit hoher Bewertung (Score) werden als rote Balken gezeigt; es folgen rosa-farbige, grüne, blaue und schwarze sowie schraffierte Balken für die Treffer mit einem niedrigeren Score. Über die „Mouse over“-Funktion wird eine kurze Information zu der dargestellten Sequenz angezeigt. Beschreibungen Die Ergebnisse im „Advanced View“ sind nach aufsteigendem E-value sortiert und werden in einer Tabelle mit acht Spalten beschrieben (von links nach rechts): 1. Accession-Nummer in der Datenbank (Link zum vollständigen GenBank Report). 2. Description - Kurze Beschreibung der Sequenz. 3. Max score (Bit score; Link zum entsprechenden Sequenzvergleich). Dieser Wert ist der normalisierte Wert für die lokale Sequenzübereinstimmung.
102
4. 5. 6. 7. 8.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
• Bit score (gezeigt in BLAST) berücksichtigt das Bewertungssystem und beinhaltet eine Normalisierung des rohen Wertes (S) mit statistischen Variablen. Bit Scores lassen einen Vergleich an „Scores“ von verschiedenen Suchen zu. • „S“ ist der rohe Wert (raw score) und ergibt sich aus der Summe der Matrixwerte, die im Sequenzvergleich benutzt wurden [gezeigt in bl2Seq (Alignment von nur zwei Sequenzen], BLink und im Alignment). Total Score. Der Wert für alle lokalen Sequenzübereinstimmungen auf dem Sequenzabschnitt. Query coverage. Angabe für die Sequenzlänge der Suchsequenz (in %), die eine Übereinstimmung mit der Sequenz im Ergebnis zeigt. E-Value. Angabe der Signifikanz des Treffers. Max. Identity. Angabe über den Grad der identischen Übereinstimmungen von Suchsequenz und Ergebnis (in %). Links. Verknüpfung zu anderen Datensätzen wie z.B. über G zu Entrez-Gene, U zu UniGene, E zu Entrez-Geo (Nukleotid-BLAST), S zu Entrez-Structure (Protein-BLAST) und M zum NCBI MapViewer.
Der Sequenzvergleich Die Sequenzähnlichkeit wird im Standardformat als „pairwise alignment“ gezeigt. Hierbei wird die Ausrichtung zweier Sequenzen mit einer mittig gelegenen Angabe zu den Sequenzübereinstimmungen gezeigt (siehe oben). In einem Nukleotidsequenzvergleich können die identischen Nukleotide dabei sofort von den nicht-übereinstimmenden Nukleotiden unterschieden werden. In einem Proteinsequenzvergleich werden ebenfalls die identischen Aminosäuren, aber auch die konservierten Aminosäurepaare (als Pluszeichen (+)) angezeigt. Lücken werden in den entsprechenden Sequenzen als Bindestrich angezeigt (-). Auch andere Formate, wie z.B. „query anchored“, stehen zur Verfügung (siehe oben). Gefilterte Sequenzen werden, wenn nicht anders formatiert, als „X“ (Proteinseq.) oder „n“ (Nukleotidseq.) angezeigt. Diese Regionen tragen zu einer geringeren Sequenzidentität und zu einem erhöhten E-Wert bei. Es gibt evt. mehr als ein Alignment pro Sequenz.
Prüfen des Suchprozesses Am Ende der Suche steht die Prüfung des Suchvorgangs. Entscheidend ist dabei die Dokumentation folgender Angaben: • Welche Datenbank, Matrix und Gap-costs wurden benutzt? • Wann wurde die Datenbank zuletzt überarbeitet? • Wie groß ist/war die Datenbank zum Zeitpunkt der Suche? Die Suchparameter sind jeweils am Ende der Ergebnisliste (nach den Alignments) aufgeführt und können von dort in eine Datei der Suchdokumentation kopiert werden.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
103
Die Familie der Sequenzähnlichkeitssuch-Programme Für BLAST gibt es viele Installationen, die auf eine gezielte Anwendung zugeschnitten sind. Es gibt Programme, bei denen das Anzeigeformat über wenige Mausklicks verändert werden kann (z.B. BLink), Programme, die auf eine Suche nach bestimmten Sequenzeigenschaften zugeschnitten sind (z.B. rps-BLAST für die Suche nach konservierten Proteindomänen) und Programme, die für eine Recherche in einer bestimmten Datenbank konfiguriert sind (z.B. Genomic BLAST und VecScreen). Diese Variationen erlauben es dem Anwender, die Datenbankrecherche ressourcenspezifisch und zeitlich effizient durchzuführen. BLink – der BLAST Link Hinter dem BLAST-Link verbergen sich die Ergebnisse einer vorab angefertigten BLASTP-Suche (pre-computed BLASTP). Ein solcher Link steht für alle Proteinsequenzen aus der Datendomäne Entrez-Protein zur Verfügung und zeigt die Ergebnisse einer BLASTP-Suche mit den Standardeinstellungen gegen die „Protein nonredundant“ (nr) Datenbank. Die Eigenschaften von BLINK sind: • Bis zu 200 BLAST Ergebnisse werden in einer übersichtlichen Grafik einschließlich der „Scores“ und der Sequenzvergleiche dargestellt. • Die Ergebnisse können nach Verwandtschaftsgrad der Organismen sortiert werden und Organismengruppen können auch ausgeschlossen werden. • Proteindomänen können angezeigt und weiter verfolgt werden. • 3-D-Struktur ähnlicher Sequenzen kann eingesehen werden, wenn sie bekannt ist. • Über die Verknüpfung zur GI-List können die Ergebnisse in Entrez-Protein angezeigt werden. Von hier sind alle Entrez-Funktionen zugänglich, wie z.B. die Anzeige der Sequenzen im FASTA-Format und das Abspeichern der Ergebnis-Liste. • Für die Anzeigefunktion ist es außerdem möglich, • den BLAST „cut-off score“ zu erhöhen oder zu erniedrigen • die BLAST Ergebnisse verschiedener Datenbanken gesondert anzusehen (z.B. Swiss-Prot). Die hier aufgeführten Optionen geben schnell einen Überblick über die ähnlichen Sequenzen einer Proteinsequenz. Da es sich um eine vorgefertigte BLAST-Suche handelt, hat man keine Möglichkeit zur Kontrolle über die Suchparameter. Des Weiteren gibt es maximal „nur“ 200 Ergebnisse. Überlegen Sie: Was ist der Unterschied von BLink zu der Entrez-Funktion „Related Sequences“?
104
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Fragestellungen für die Anwendung von BLink Ich möchte orthologe Sequenzen des spannungsabhängigen Chloridkanals (CLC) vom Zitterrochen für Säugetiere studieren (Entrez-Suche: chloride channel AND torpedo marmorata[orgn]), aber die BLAST-Liste hat so viele Sequenzen, die nicht von Säugetieren stammen und sehr viele Isoformen an Proteinsequenzen, dass es müßig ist, das BLAST-Ergebnis auszuwerten. • Wie kann ich schnell die Sequenzen von ausgewählten Organismen finden? • Welche Domänen gibt es in meiner Proteinsequenz? • Welche Proteine mit bekannter 3-D-Struktur sind meiner Sequenz ähnlich? • Wie kann ich die BLAST-Ergebnisse im FASTA-Format anzeigen lassen und speichern? Klicken Sie auf den BLink-Link in Entrez-Protein (siehe Abb. 6.13)
Abbildung 6.13: BLAST-Link (BLink) in Entrez-Protein.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
105
Abbildung 6.14: BLink gezeigt für P21564. Neben der Möglichkeit, die Anzeige zu verändern (z.B. durch „Best hits“ etc.), sind die Ergebnisse zu einem Sequenzvergleich dargestellt, der über BLAST2Seq erstellt wurde (Verknüfung über den „Score“) und zum GenBank Flat File (Verknüpfung über die Accession-Nummer) sowie zu weiteren BLink-Ergebnissen der Treffer (Verknüpfung über die GI-Nummer) verknüpft ist.
Abbildung 6.15: Ergebnisanzeige von BLAST2Seq über BLink (durch Klick auf den „Score“).
106
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
bl2Seq „BLAST-2-Sequences“ ist ein Programm für das Ausrichten von zwei Protein- oder Nukleotidsequenzen, ohne in den Nukleotid- oder Proteindatenbanken nach übereinstimmenden Sequenzen zu suchen. Diese Sequenzen sind oft schon als ähnlich identifiziert und sollen einer genauen Analyse unterzogen werden. Beispiele für bl2Seq sind z.B. Untersuchungen von unterschiedlichen Isolaten des gleichen Virus, von orthologen oder paralogen Sequenzen. Das Programm verwendet den BLAST-Algorithmus für paarweise DNA-DNA oder Protein-Protein Sequenzvergleiche. Die Sequenzvergleiche über die ÜbersetzungsBLAST-Programme (TBLASTN, BLASTX und TBLASTX) sind ebenfalls möglich. Die resultierenden Ausrichtungen werden in grafischer und in Textform dargestellt (siehe Abb. 6.13). Der Zugang zu bl2Seq erfolgt von der BLAST-Homepage unter „Specialized BLAST“ über ALIGN (bl2seq). PSI-BLAST PSI-BLAST, der Position-specific-iterated-BLAST, bezieht sich auf eine Eigenschaft von BLAST, in der ein Profil, die positionsspezifische Matrix (PSSM), aus den Treffern der durchgeführten BLAST-Suche angelegt wird. In dieser Matrix werden die gleichen Aminosäuren, die aber auf unterschiedlichen Positionen im Protein sitzen, über die Sequenzvergleiche unterschiedlich bewertet. In hohem Grad konservierte Positionen erhalten eine hohe Bewertung und schwach konservierte Positionen eine niedrige Bewertung (nahe null). Das Profil wird verwendet, um eine zweite BLASTSuche durchzuführen (zweite Iteration). In dieser zweiten Iteration wird wieder ein Profil aus den Treffern dieser Suche erstellt und in der nächsten Wiederholung (dritte Iteration) weiter verwendet, usw. Mit jedem Mal wird das Profil auf die spezifische Sequenz hin verfeinert. E-values sind dabei nur aussagekräftig, wenn die Sequenz das erste Mal im Ergebnis auftaucht. Der Anwender sucht mit weiteren Iterationen, bis keine neuen Sequenzen im Suchergebnis erscheinen. Eine sogenannte Konvergenz ist erzielt worden. Recherchen über PSI-BLAST eignen sich zur Charakterisierung von unbekannten Proteinsequenzen bis hin zur Charakterisierung von ganzen Genomen. Die Stärke von PSI-BLAST besteht darin, schwache Homologien auch zu weit entfernt verwandten Sequenzen aufzudecken. Diese schwachen Sequenzverwandtschaften werden nicht notwendigerweise durch BLAST detektiert. Zwei Vorgehensweisen zur Untersuchung von großen Proteinfamilien sind denkbar: • PSI-BLAST-Suchen unter Einbeziehung aller bekannten Mitglieder der Proteinfamilie, oder • PSI-BLAST-Suchen mit den am weitesten entfernten verwandten Mitgliedern der Proteinfamilie. Da viele Einträge in einer Datenbank bereits genauer beschrieben sind, eignet sich PSI-BLAST auch zur Eingrenzung von möglichen biochemischen Charakteristika und Proteinfunktionen.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
107
Abbildung 6.16: Unterschiedliche Bewertung für die Aminosäuren in verschiedenen Sequenzpositionen in der Sequenz verbessert die Suche nach konservierten Eigenschaften von Proteinen (entnommen aus dem NCBI Field Guide, 1. Teil).
Abbildung 6.17: Formatierung zur Ansicht der PSSM im Text-Format. Diese PSSM kann als Textdatei gespeichert werden und bei den Optionen für weitere BLAST-Einstellungen verwendet werden.
108
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Unter Upload PSSM kann eine positionsspezifische Scoring Matrix (PSSM) im Textformat hochgeladen werden.
Reversed-Position-Specific-BLAST (RPS-BLAST) Welche Domänen hat mein Protein? Diese Frage steht für einen Reversed-PositionSpecific BLAST (RPS-BLAST) im Vordergrund. Eine RPS-BLAST-Suche wird auch CD-Search genannt, da die der Suche zugrunde liegende Datenbank die „Conserved Domain Database“ (CDD), die Datenbank der konservierten Proteindomänen, ist. Ein CD-Search ist eine Standardsuchfunktion von BLASTP, die man durch das Wegnehmen eines Häkchens auf der Suchmaske ausschalten kann. Konservierte Domänen sind Sequenzmotive, die eine Proteinfamilie oder eine Proteinfunktion charakterisieren. Diese Domänen sind in Form von PSSMs hinterlegt, die aus den Alignments konservierter Domänen errechnet wurden. Somit wird bei einem RPS-BLAST nicht mit Hilfe einer Matrix gesucht, sondern gegen PSSMs (daher „reverse-position-specific“). Die Bewertungen (Scores) müssen über einem Schwellenwert liegen, damit die Region als eine beschriebene konservierte Domäne erkannt wird. Ergebnisse aus der CD-Databank erhält man jedoch nicht nur über eine RPS-BLAST-Suche, sondern auch über BLink (siehe Abb. 6.13). Die Datenbank der konservierten Domänen enthält z. Z. 17402 PSSMs (Stand: Mai 2007) und umfasst die Datensätze der Datenbanken SMART (Simple Modular Architecture Research Tool, EMBL), PFAM (Protein Families, Sanger Inst.), COG (Clusters of orthologous Groups – Prokaryota, NCBI) und KOG (Clusters of orthologous Groups – Eukaroyta, NCBI). Weitere Analysemöglichkeiten der konservierten Domänen bietet CDART, das „Conserved Domain Architecture Retrieval Tool“. Mit CDART werden Proteine mit ähnlichen Domänen gefunden (precomputed CDsearch results; s. unten).
CDART – Conserved Domain Architecture Retrieval Tool Welche Proteine haben diese Domäne? Diese Frage steht für eine CDART-Suche im Vordergrund. Über CDART können die Strukturen aller Proteine in der „Conserved Domain Database“ überprüft werden. Es werden Proteine gefunden, die eine oder mehrere Proteindomänen in gleicher oder ähnlicher Abfolge wie die Ausgangssequenz aufweisen. Das Ergebnis wird entsprechend der Taxonomieklassifikation sortiert.
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
109
Abbildung 6.18: Ergebnis einer CDART Suche. Im Vordergrund dieser Anwendung steht die Frage „Welche anderen Proteine haben diese Domäne?“.
PHI-BLAST Der Pattern-Hit-Initiated BLAST (PHI-BLAST) ist entwickelt worden, um nach Proteinen zu suchen, die ein bestimmtes Motiv enthalten, das zusätzlich in einer ähnlichen Sequenz wie die der Ausgangssequenz eingebettet ist. Um die Suchanfrage zu stellen, muss die Sequenz in der Suchoberfläche (1. Abschnitt) eingegeben werden und das Motiv im PHI-Pattern-Kasten (Program Selection/PHI-BLAST) beschrieben sein. Die Motivbeschreibung erfolgt im PROSITE-Format, einer Kodierung für Proteinmotive mit variablen Aminosäuren (siehe auch Kapitel 4).
Genomic BLAST Für eine genomische BLAST-Suche stehen Datenbanken aus verschiedenen GenomAssembly-Projekten zur Verfügung. Die Datenbanken für die jeweiligen Genome sind sehr unterschiedlich. Es lohnt sich, über ein Stöbern auf den Genom-BLASTSeiten die Datenbanken der verschiedenen Organismen einzusehen, um sich einen
110
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
Überblick über die unterschiedlichen Ansätze zu Genomanalysen zu verschaffen („Pull-down-Menü „Database“). Die Ergebnisse aus Genom-BLAST-Recherchen sind mit dem NCBI MapViewer verknüpft, um die Sequenzen in ihrem genomischen Kontext anzusehen und zu bewerten. Im MapViewer stehen wiederum viele Chromosomenkarten und Einstellungsmöglichkeiten für eine Trefferanzeige zur Verfügung, so dass die Sequenzen weiter beurteilt und bearbeitet werden können (siehe Kap. 7). MEGABLAST MEGABLAST wurde entwickelt, um lange unbekannte Nukleotidsequenzen mit der Datenbank abzugleichen. Auf diesen Seiten sind die Suchparameter wie Wortlänge, Gap-Cost und Filter so verändert, dass eine Suche im gleichen Organismus (MEGABLAST) oder über Organismengruppen hinweg (DISCONTINIOUS MEGABLAST) begünstigt ist. Es ist ebenso möglich, eine Reihe von Sequenzen gleichzeitig zu untersuchen (BATCH MEGABLAST) sowie die Sequenzen gegen die Trace-Archive abzugleichen. VecScreen VecScreen ist ein Programm zur Identifizierung von Sequenzen aus Klonierungsvektoren. Es handelt sich um eine BLASTN-Suche gegen die Datenbank der Vektorsequenzen, UniVec. Das Programm ist entwickelt worden, um das Problem der „Verschmutzung“ von Sequenzdatenbanken durch diese Sequenzen zu bekämpfen. Vektorsequenzen können die Sequenzähnlichkeitssuche stark beeinflussen, indem sie zu fehlerhaften Ergebnissen durch hohe Sequenzidentitäten führen. Die Forscher sind dazu angehalten, ihre Sequenzen vor der Veröffentlichung in einer allgemeinen Datenbank auf Vektorsequenzen hin zu überprüfen und diese zu entfernen, damit keine unnötige Zeit und Mühe bei der Analyse von Sequenzähnlichkeiten verloren geht.
Webadressen und Literatur Sequenzähnlichkeitssuche • BLAST Homepage (http://www.ncbi.nlm.nih.gov/BLAST/index.shtml) • BLAST Program Selection Guide (http://www.ncbi.nlm.nih.gov/BLAST/producttable.shtml) • European Bioinformatics Institute (http://www.ebi.ac.uk/Tools/homology.html) • WU-BLAST • NCBI-BLAST • FASTA3 • MPsrch • Scanps2.3 • UCSC Genome Bioinformatics
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
111
• BLAT - BLAST Like Alignment Search Tool (http://genome.ucsc.edu/cgi-bin/hgBlat) Literaturvorschlag Die bioinformatischen Details des BLAST-Algorithmus sind im folgenden Lehrbuch ausführlich beschrieben. • Interaktive Bioinformatik: Algorithmen und Praxis (Greim/Henschler: Occupational Toxicants) von Rainer Merkl, Stephan Waack. Verlag: Wiley-VCH; Auflage: 1 (November 2002) ISBN-10: 3527306625
Übungen (1) Sie haben einen PCR-Primer mit der Sequenz 5’- CAGGCATCCAGCGGTCAAGTCGAG-3’. Führen Sie eine BLASTN- Suche durch: • Um welche Sequenz(en) handelt es sich? • Ist der Primer spezifisch? • Können damit auch ähnliche Sequenzen aus anderen Organismen amplifiziert werden? (2) (Short Sequence Search) As the database grows, so does the number of chance occurrences of amino acid motifs that spell out words or people‘s names in single-letter amino acid codes. One such name motif is MARIA. Find the number of occurrences of MARIA in the protein nr. To get any hits at all, you will have to adjust several of the advanced BLAST parameters including the Expect value (10 000), Word size, and Score Matrix. (http://www.ncbi.nlm.nih.gov/Class/ FieldGuide/problem_set.html) (3) (BLink) Wählen Sie eine der angegebenen Accession-Nummern für DNASequenzen zur Beantwortung der unten aufgeführten Fragen (Accn.: AF008124 oder Y11250) • Wie finden Sie die korrespondierende Proteinsequenz? • Wie können Sie sich nur die Arabidopsis Sequenzen der BLink Ergebnisse anzeigen lassen? • Wie viele ähnliche Sequenzen gibt es beim Menschen? • Haben die Proteine charakteristische Domänen? • Gibt es eine 3-D-Struktur von den Proteinen? • Wie können Sie die Sequenzen im FASTA-Format speichern? (4) (BLink) Sie möchten die Evolution eines Hitzeschockproteins (Chaperone protein dnaK (Heat shock protein 70) aus Streptomyceten studieren (Accession-Nummer: Q826F6). Dafür wäre der beste BLAST-Treffer in Eukaryoten interessant für Sie. Wie finden Sie ihn? (5) (BLink) Ihr Protein (epidermal growth factor receptor – Accession-Nummer 1007208A) hat eine Tyrosinkinase-Domäne. Hat das Protein noch andere Domänen? • Sind diese anderen Domänen in weiteren Proteinen bekannt?
112
6. Sequenzähnlichkeitssuche mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST)
(6) (BLASTN & VecScreen) Bei einer BLAST-Suche für Ihre Nukleotidsequenz (Sequenz A, www.biotools.info/compo1.html) gibt es ähnliche Sequenzen für zwei unabhängige Regionen. Welche der beiden Regionen ist für die Genfunktion bedeutungsvoller? • Kopieren Sie die Sequenz von der Webseite in die Standard BLASTN-Suchoberfläche und starten Sie das Programm. Was zeigt das Ergebnis? • Nehmen Sie die gleiche Sequenz zur Durchführung von VecScreen. (7) Suchen Sie über Entrez-Protein (NCBI) nach dem Eintrag für das CFTR-Protein (cystic fibrosis) aus der Datenbank SWISS-PROT. Welches ist die häufigste Mutation unter der weißen Bevölkerung? Was bewirkt sie beim Menschen? • Welche Rolle spielen ähnliche Proteine in dem Organismus Fundulus heteroclitus? • Um welchen Organismus handelt es sich? • CFTR besitzt konservierte Domänen, die zu Bakterienproteinen homolog sind. Diese erscheinen nicht unter BLink (warum nicht?). • Wie können Sie die Bakteriensequenzen recherchieren? Wie viele sind es?
7 Genom-Informationen und Genkarten Für die Analyse von Genen ist es oftmals notwendig, ein Gen in seinem genomischen Kontext zu studieren. Das menschliche Genom ist, wie schon erwähnt, vollständig sequenziert. Auch von vielen weiteren eukaryotischen wie auch prokaryotischen Genomen kennen wir die vollständige Sequenz. Weitere Genome werden in nächster Zukunft entschlüsselt. Zur Darstellung eines Genoms werden Genomkarten unter verschiedenen Aspekten, z.B. mit cytogenetischen Informationen oder mit Sequenzinformationen zu genetischen Markern oder Polymorphismen, erstellt, die u.a. am NCBI über den Genom-Browser „Map Viewer“ zur Verfügung gestellt werden. Ähnlich wie bei einer Datenbankrecherche die Wahl der Datenbank für das Ergebnis entscheidend ist, so ist die Wahl der richtigen Genomkarte wichtig für die Recherche nach Informationen im genomischen Kontext. In diesem Kapitel wird insbesondere auf die Suchfunktionen des „Map Viewers“ für die Darstellung des menschlichen Genoms eingegangen. Darüber hinaus gibt es für den Einstieg in die Ressourcen von Genominformationen weitere Webseiten am NCBI. Über sie stehen dem Anwender unterschiedliche Such- und Browsing-Funktionen zur Verfügung. Zu den drei großen Übersichtsseiten für Genominformationen gehören die „Genomic Biology Page” (http://www.ncbi.nlm.nih.gov/Genomes/), Entrez-Genome-Projects (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=genomeprj) und Entrez-Genome (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome).
„Genomic Biology“, “Entrez-Genome” und “Entrez-GenomeProjects” Die Genombiologie verfolgt einen ganzheitlichen Ansatz, um die molekulare Evolution zu erforschen. Hierfür werden die Daten aus vollständig oder fast vollständig sequenzierten Genomen, deren Gene und Proteine sowie deren Gen- und Proteinexpressionsmuster untersucht. Auf den WebSeiten des NCBI stehen eine Vielzahl von Hilfsmitteln und Ressourcen, einschließlich organismusspezifischer Informationsquellen und Datenbanken, zur Verfügung. Diese sind auf der „Genomic-Biology“-Seite unter den Rubriken Genome Resources und Organism specific (siehe Abb. 7.1), sowie auf den von hier 113
114
7. Genom-Informationen und Genkarten
aus verknüpften Seiten verfügbar. Darüber hinaus sind hier viele Tools zugänglich, die für die Analyse von Genomen nützlich sind, wie z.B. Genomic-BLAST, der Map Viewer oder der TaxPlot. Diese Tools arbeiten mit Such- und Vergleichsalgorithmen, die auf lange Sequenzen, wie die eines Chromosoms, oder auf einen großen Datenpool, wie den eines Proteoms, zugeschnitten sind.
Abbildung 7.1: Auf der Seite „Genomic Biology“ findet man weitere „Hubs“, bzw. Einstiegsseiten für Genominformationen, entweder speziesübergreifend (Genome Resources) oder speziesspezifisch (Organism-Specific).
! Unter der Rubrik Organism specific sind über den G-Link die sogenannten „Organism-homes“ verknüpft. Diese Seiten bieten eine Zusammenstellung der Ressourcen zur Analyse des gewünschten Genoms. Darüber hinaus enthalten sie Rubriken wie FAQ (Frequently Asked Questions and Answers) und Neuigkeiten. Die populärsten Ressourcen, wie z.B. BLAST, dbSNP, ePCR, GEO, HomoloGene, RefSeq, SAGEMap, Map Viewer, UniGene oder UniSTS sind ebenfalls hier aufgeführt. Diese Seiten enthalten die Entrez-Suchmaske mit der Suchdomäne Entrez-Genome.
7. Genom-Informationen und Genkarten
115
Genkarten Genkarten sind Diagramme, aus denen die Lage einzelner Gene, Genomabschnitte oder auch die Anordnung von Fixpunkten auf einem Chromosom hervorgeht. Die Stelle auf dem Chromosom, an der sich ein Gen befindet, nennt man Genort oder Genlocus. Derartige Diagramme sind immer unverzweigt und linear oder ringförmig, so dass man auch von linearen bzw. zirkulären Genkarten spricht, je nachdem, ob es sich um ein lineares, wie z.B. beim menschlichen Chromosom, oder um ein in sich geschlossenes DNA-Molekül, z.B. ein Bakterienchromosom, handelt. Die zahlreichen Verfahren, die die Erstellung von Genkarten erlauben, werden als Genkartierungsverfahren oder Mapping-Verfahren bezeichnet. Hierzu zählen z.B. die In-situ-Hybridisierung, das Chromosomen-Walking, die Komplementation und die Deletionskartierung. Man unterscheidet mehrere Arten von Genkarten: A. Genetische Karten bzw. Genkopplungskarten (linkage maps) Diese Karten werden seit ca. 1915 für die verschiedensten Organismen aufgestellt und beschreiben die Nachbarschaftsverhältnisse von Genen auf den Chromosomen. Aus ihnen ist ersichtlich, ob zwei gegebene Gene einander benachbart (gekoppelt) sind, ob sie auf dem gleichen Chromosom, aber weit voneinander entfernt, oder ob sie auf unterschiedlichen Chromosomen liegen. Genetische Chromosomenkarten beinhalten Informationen über Gene, die mit einem Phänotyp einhergehen, wie z.B. bei einer genetischen Krankheit. Sie bilden ein wesentliches Gerüst für das Erstellen physikalischer Genkarten. Genetische Karten werden konstruiert, indem man über Rekombinationsanalysen misst, wie häufig ein Rekombinationsereignis zwischen zwei verschiedenen Genloci auftritt. Da Rekombinationsereignisse umso seltener sind, je enger die beiden untersuchten Loci beieinander liegen, sind die gemessenen Werte ein Maß für die relativen Kartenabstände der Genloci innerhalb eines Chromosoms. Die Einheit zur Angabe der relativen Position von Genloci in Rekombinationsereignissen ist Centimorgan (cM; zu Ehren des amerikanischen Genetikers Thomas H. Morgan). Ein cM entspricht einer Rekombinationshäufigkeit von 1%. Da eine Rekombination in Oozyten fast doppelt so häufig eintritt wie in Spermatozyten, ist die genetische Karte des weiblichen Geschlechts um etwa 40% länger als die des männlichen. B. Physikalische Karten Die physikalische Karte gibt die Position eines Genlocus und die Entfernung zu anderen Genen auf demselben Chromosom in absoluten Werten an, ausgedrückt in Basenpaaren und bezogen auf die Positionsangaben entlang eines Chromosoms. Es gibt verschiedene Arten von physikalischen Karten, die sich in zwei Hauptkategorien einteilen lassen: • Die cytogenetische Karte beinhaltet die Reihenfolge und den Abstand von Markern auf einem DNA-Molekül. Sie beruht auf mikroskopischen Analysen, d.h. die Lokalisation der Gene oder genetischen Marker kann aufgrund von sichtbaren Eigenschaften auf dem Chromosom mikroskopisch erkannt werden. Für die Herstellung dieser Karten werden heute zumeist fluoreszierende Marker eingesetzt, um
116
7. Genom-Informationen und Genkarten
bestimmte Genregionen zu markieren. Danach werden die Chromosomen gefärbt (z.B. mit Giemsa), um die Relation der markierten Stelle zum Bandenmuster der Chromosomen zu zeigen. Die Auflösung einer solchen Karte ist relativ gering. So kann sich ein kartierter Marker in einem Bereich von 10 Mill. bp befinden.
Abbildung 7.2: Die Angabe eines cytogenetischen Ortes auf einem Chromosom unterliegt folgenden Regeln: An erster Stelle steht die Chromomennummer. Das Chromosom ist in zwei große Bereiche, den P-Arm (petite, franz. klein) und den Q-Arm (lang), unterteilt. Die Beschriftung p bzw. q folgt an zweiter Stelle. Die (z.B. mit Giemsa) gefärbten Banden sind vom Centromer ausgehend nummeriert. Die Angabe dieser Bande erfolgt an dritter Stelle. Eine hohe Auflösung erlaubt eine weitere Bandenbenennung (siehe Abb.). Die Beschriftung der Unterbanden geht immer vom Centromer gesehen zu den Chromosomenenden (Telomere). Entnommen dem NCBI Workshop „Introduction to Molecular Biology Information Resources/Cytogenetic Bands“ (http://www.ncbi.nlm.nih.gov/Class/MLACourse/Modules/Genomes/ map_cytogenetic_bands.html)
• Der größte Teil der physikalischen Karten gehört zur Gruppe der Sequenzkarten. Diese Karten beruhen auf den Techniken der DNA-Rekombination. Zu ihr gehören die Isolierung, Restriktionsverdau, Klonierung und Sequenzierung von DNA-Fragmenten und deren Zuordnung zu den Chromosomen, z.B. über die Zusammensetzung von Contigs oder Restriktions-Längen-Polymorphismus-Analysen (RFLP). Ein Contig ist ein großes, virtuell zusammengesetztes DNA-Fragment, das sich aus überlappenden, kleineren und schon klonierten DNA-Fragmenten ergibt. Die heutigen humanen Sequenzkarten beruhen auf der Referenzsequenz des menschlichen Genoms, welche ursprünglich über Contigs zusammengesetzt wurde. Die Genkarten im Map Viewer Genkarten beinhalten unterschiedlichste Daten. Wie oben erwähnt, hängt die Wahl der richtigen Karte von der Fragestellung ab, die es zu beantworten gilt. Die Anzahl an Karten ist vielfältig und es stehen nicht für alle Organismen die jeweils gleichen Karten zur Verfügung. Eine Übersicht über die Art der Karten verschiedener Orga-
7. Genom-Informationen und Genkarten
117
nismen steht auf den Map Viewer Help-Seiten zur Verfügung (http://www.ncbi.nlm. nih.gov/mapview/static/Map ViewerHelp.html). Zur Veranschaulichung der unterschiedlichen Arten von Karten ist hier eine Auswahl an Karten für das menschliche Genom kurz zusammengestellt: Beispiele für cytogenetische Karten im Map Viewer Ideogram: G-Banden-Muster mit einer Auflösung von 850 Banden/Chr. FISH Clone: BAC–Klone projiziert auf das cytogenetische Bandenmustern mit Hilfe von Fluoreszenz-in-situ-Hybridisierung. (http://www.accessexcellence.org/AB/GG/fish.html ). Mitelman: Kartierte Chromosomen-Bruchstellen aus Krebszellen und anderen Zellen. Entnommen der Mitelman Db of Chromosome Aberrations in Cancer (http://cgap.nci.nih.gov/Chromosomes/Mitelman ). Morbid: Cytogenetische Daten aus OMIM. Beispiele für Genkopplungskarten im Map Viewer Genethon: Kartierung von Mikrosatelliten-DNA. Microsatellite markers: Mikrosatelliten sind kurze, sich wiederholende Sequenzen von (meistens) 2–3 bp (z.B. 15x CGG). Die am häufigsten vorkommende Wiederholungssequenz ist CA und die dazu komplementäre Sequenz GT. Der Nachweis dieser Segmente wird über PCR geführt. Marshfield: Kartierung menschlicher genetischer Rekombinationen. deCODE: Kartierung genetischer Rekombinationen der isländischen Bevölkerung. Beispiele für „Radiation Hybrid“-Karten im Map Viewer Die Kartierung für Radiation-Hybrid-Karten erfolgt ähnlich wie in Genkopplungskarten, nur mit dem Unterschied, dass die Chromosomenbrüche und Rekombinationen durch radioaktive Bestrahlung hervorgerufen wurden und nicht auf Vererbung beruhen. Für eine Kartierung werden die gebrochenen Chromosomen der behandelten Zellen mit Empfängerzellen hybridisiert. Die Bruchhäufigkeit ist ein Maß für die Distanz zwischen zwei Markern. Die Einheit der Karten ist centiRay (cRay). Diese Karten sind statisch und werden nicht mit neuen Daten aktualisiert. GeneMap99-G3: 7,061 STS Marker kartiert im G3 RH Pannel (International Radiation Hybrid Consortium). GeneMap99-GB4: 45,758 STS kartiert auf GB4 RH Pannel (International Radiation Hybrid Consortium). NCBI RH: NCBI Integrated Radiation Hybrid Map mit 23,723 Markern aus beiden GeneMap99 Maps. Stanford G3: 11,458 STS Marker (gene-based und non-gene-based) kartiert auf G3 RH. Whitehead-RH: 6,193 STS Marker kartiert auf GB4 RH Pannel.
118
7. Genom-Informationen und Genkarten
Dosisabhängige Anzahl an Chromosomenbrüchen: • GB4 RH panel: 3,000 Rads zerkleinern genomische DNA in ca. 10 Mbp große Fragmente. • G3 panel: 10,000 Rads zerkleinern genomische DNA in ca. 3 Mbp große Fragmente. Beispiele für Sequenzkarten im Map Viewer Clone: Kartierung von FISH mapped clones. Contig: Kartierung von NCBI-generierten Contigs. UniGene Maps: Kartierung von EST-Sequenzen aus Mensch, Maus etc. UniGene und EST Karten EST Karte = einzelne ESTs UniGene Karte = „density map“, ESTs im UniGene-Cluster EST-Karten existieren von: human, mouse, rat, pig, und cow. Component: GenBank DNA: Genes_Seq: GenomeScan:
Kartierung von einzelnen GenBank Sequenzen (aus Contigs). Kartierung von GenBank Sequenzen (nicht aus Contigs). Kartierung annotierter Gene. Genvorhersagen aus mRNA Alignments, generiert durch den GenomeScan Algorithmus. STS: Kartierung von STSs über elektron.-PCR (e-PCR). Variation: Kartierung von DNA-Polymorphismen aus dbSNP. CpG Island: Kartierung von Regionen mit hohem GC-Gehalt. dbSNP_Haplotype: Intervalle von Contig-Sequenzen mit Haplotyp-Informationen. Haplotype: Kartierung bekannter menschlicher Allele (Referenz-Sequenzen). FES_Clone: (Fosmid) Kartierung von Fosmiden. SAGE tag: Kartierung von Daten aus SAGEmap, NCBI Db für „Serial Analysis of Gene Expression Data“. Transcript (RNA): Kartierung von mRNAs (einschl. Spleiss-Varianten). u.a. Wiederholungsfrage: Die Qual der Wahl Welche Karte ist geeignet für die Betrachtung von • SNPs (single nucleotide polymorphisms)? • ESTs (expressed sequence tags)? • STSs (Sequence-tagged sites)? • Microsatelliten? • Genen zu genetischen Krankheiten? • BAC-Klonen? • Gen-Kartierungen, die auf einem Vergleich von mRNA zu genomischer DNA beruhen?
7. Genom-Informationen und Genkarten
119
Übung: Welche Karten stehen für folgende Organismen zur Verfügung? • Maus • Drosophila • Zebrafisch • Arabidopsis • Mais Tipp: Gehen Sie auch zum GenomeView der Organismen. Von hier sind die organismenspezifischen Help-Dokumente vom Map Viewer zugänglich.
NCBI Map Viewer Die Einstiegsmöglichkeiten zum Map Viewer sind vielfältig. So können die Karten über einen Link aus Entrez-Datenbanken wie Entrez-Gene oder Entrez-Genome oder von Genom-BLAST-Ergebnissen aus aufgerufen werden. Geht man über die Verknüpfung „Map Viewer“ von der NCBI-Homepage (unter Hot Spots), so werden drei Darstellungsebenen für das Genom deutlich: ! Genome View: Diese Seiten zeigen eine grafische Darstellung des Genoms als Ideogramme der Chromosomen (maßstabsgetreu) und bieten eine Textsuchfunktion für die kartierten Elemente auf den Chromosomen. Die Suchoptionen sind: • Einfache Suche durch die Eingabe eines Suchwortes • Trunkierung* zur Wortverlängerung ist in allen Variationen möglich (z.B. HB*) • Kombinierte Suche mit Boole’schen Operatoren (AND, OR, NOT) • Erweiterte Suche mit Suchfeld Qualifizierung (Search in fields) nach Objekt-Art (Type of mapped object), Chromosomen-Nummer, Art der Karte (Map name), Eigenschaften im Ergebnis (Search only records with…), zeige Übereinstimmung zwischen den Karten (Show linked entries) wie z.B. SNPs, Contigs oder Klone in der gezeigten Region (siehe Abb. 7.3). ! Map View: Hat man im Genom recherchiert, werden die Ergebnisse auf einer oder mehreren Chromosomenkarten angezeigt. Die Auflösung der Karten ist variabel und manuell zu verändern. Die Informationen auf den Karten sind mit den unterschiedlichsten Datendomänen verknüpft. ! Sequence View: Diese Darstellungsform ist die höchste Auflösung einer Chromosomenkarte und zeigt die Sequenz für eine bestimmte Region auf dem Chromosom. Verschiedene molekularbiologische Merkmale sind markiert.
120
7. Genom-Informationen und Genkarten
Abbildung 7.3: „Genome View“ auf die menschlichen Chromosomen. Auf dieser Seite gibt es eine Suchfunktion (Texteingabe) für die Suche nach Merkmalen auf allen zur Verfügung stehenden Genkarten. Diese Merkmale sind z.B. der Name des Klons, das Gensymbol (z.B. HBB), der Gen-Name (z.B. hemoglobin beta), der Marker-Name, einfache Suchwörter (z.B. blood) oder Text-Phrasen (z.B. „oxygen transport“) oder die Beschreibung eines Phänotyps (z.B. sickle cell anemia).
Übung: Sie suchen Informationen zum Hämoglobin beta, einem Gen auf Chromosom 11, das, wenn es mutiert, für die Erbkrankheit der Sichelzell-Anämie verantwortlich ist. Betrachten Sie das Chromosom 11 (klicken Sie auf 11 unterhalb des Chromosoms im Genome-View) bzw. suchen Sie: • das Gen HBB • alle Hämoglobin Gene (HB*) • nach sickle cell anemia Vergleichen Sie die Ergebnisse der Suchanfragen. Erläuterungen zur Kartenansicht im Map Viewer • Es können maximal 10 Karten angezeigt werden (9 + Master Map). • Die Karte auf der rechten Seite ist die sogenannte Master-Karte. Viele der Karten sind mit weiteren NCBI Ressourcen verknüpft (Hyperlink oder Mouse-over). Von der Master-Karte sind Verknüpfungen zu zusätzlichen Informationen aktiv. • Durch Klick auf den Pfeil über der jeweiligen Karte wird die gewählte Karte zur Master-Karte gemacht und im folgenden Fenster ganz rechts angezeigt. • Durch Klick auf das Kreuz über der jeweiligen Karte wird die Karte aus der Ansicht entfernt. • Der Name der Karte ist ein Link zu mehr Informationen über diese Genkarte. • Durch Klick auf die oben und unten angezeigten kleinen Pfeile (neben der Chromosomenlinie) kann der Bereich der Ansicht verstellt werden (scrollen).
7. Genom-Informationen und Genkarten
121
• Im blauen Bereich der Webpage ist an einem Ideogramm (Standard) bzw. an einer MiniaturMaster-Karte der Bereich auf dem Chromosom gezeigt, der auf der Webseite zu sehen ist. • Die Kartenansicht kann über verschiedene Zoom-Funktionen verändert werden: • Durch Klick mit der linken Maustaste in die gewünschte Region kann ein Zoom-Faktor gewählt werden, der zu einer Vergrößerung oder Verkleinerung der Auflösung der Anzeige führt. • Im blauen Bereich der Webseite kann die Region „von … bis … “ eingegeben werden. • Ebenfalls im blauen Bereich der Webseite gibt es eine Zoom-Box zum Vergrößern und Verkleinern der Auflösung Beachte: ! Die Einheiten der Karten können in bp, cM, oder cRay angegeben sein. Die Karten mit unterschiedlichen Einheiten sind annähernd ausgerichtet. ! Ein Marker kann auf verschiedenen genetischen Karten vorkommen.
Abbildung 7.4: Ansicht vom Genort des HBB-Gens auf Chromosom 11 anhand der Karten „Morbid“, „RefSeq“, „RNA“, „Variation“ und „Gene“ im Map Viewer.
Chromosomenkarten manipulieren – Maps & Options Unter der Funktion „Maps & Options“ kann die Anzeige der Karten verändert werden. Die Einstellungsmöglichkeiten sind in Abbildung 7.5 ersichtlich. Zu ihnen gehören:
122
7. Genom-Informationen und Genkarten
Allgemeine Funktionen unter „Maps & Options“: • Auswahl und Sortierung der Genkarten für die Anzeige (max. 10) • Für jede Karte kann eine Maßstableiste in der Einheit der Karte mit angezeigt werden (Ruler). Je nach Karte ist die Einheit auf dem „Ruler“ in bp, Chromosomen Banden, Centi-Ray oder CentiMorgan angegeben. ‚More options‘ • Anzeige der Ähnlichkeiten zwischen den Karten (Show connections, default: no) • Anzeige der zusätzlichen Informationen, die von der Master-Karte zur Verfügung stehen (Verbose mode, default: yes) • Anzahl an Beschriftungen (Page length, default: 30 annotations) • Wähle zwischen Ideogramm und Master-Karte für die Übersichtsanzeige auf der linken Seite (Thumbnail view, default: ideogram).
Abbildung 7.5: Die Einstellungsmöglichkeiten unter „Maps & Options“. Erläuterungen im Text.
Die „Gene“ (Genes_seq) Karte Die Genes_seq (genes on sequence) Karte zeigt die Gene, die auf genomischen Contigs beschrieben sind. Die Annotationen sind in viele Datendomänen verlinkt, was sie zu einer der wichtigsten Karten im Map Viewer macht. Ein Maus-Klick auf • das Gensymbol (z.B. HBB) führt zum Entrez-Gene Eintrag des Gens
7. Genom-Informationen und Genkarten
123
Abbildung 7.6: Das HBB-Gen auf der Genes_seq Karte (Erläuterungen im Text).
Weitere Optionen ‚OMIM‘ Link zum OMIM-Datenbankeintrag des Gens. ‚pr‘ Link zum GenPept Proteindatenbankeintrag des kodierenden Proteins. ‚sv‘ Link zum Sequence Viewer (kleinster Zoom-Level des Map Viewers). ‚ev‘ Link zur Übersicht der Beweise, die NCBI für diese Kartierung benutzt. ‚dl‘ Link zu den Einstellungen und Optionen zum Download der Sequenz. ‚hm‘ Link öffnet den HBB HomoloGene Eintrag. ‚mm‘ Link öffnet Model Maker zur Ansicht und Manipulation der Evidenzen. ‚sts‘ Link zur Datenbank der „Sequence Tagged Sites“ – Marker im Genom. ‚CCDS‘ Link zur Datenbank der Consensus CDS (Consensus Coding Sequences Protein Sets).
Sequence Viewer In den Sequence-Viewer, der höchsten Auflösung der Anzeige im Map Viewer, gelangt man über den Link „Show Sequence“ (linker Mausklick auf der Genkarte) oder über den „sv“-Link der „Genes_seq“-Karte (siehe Abb. 7.6 und 7.7). Im Sequence Viewer werden die Nukleotidsequenzen mit Genort, kodierenden Regionen und genetischen Variationen für die ausgewählte Sequenz gezeigt. Die Sequenz ist nach dem Contig (Nr.) benannt, welches im Humangenomprojekt für diese Sequenz identifiziert wurde. Über eine Zoom-Box kann der gezeigte/gewünschte Bereich vergrößert (niedrigere Auflösung) bzw. verkleinert (höhere Auflösung) werden (siehe Abb. 7.7).
124
7. Genom-Informationen und Genkarten
Abbildung 7.7: Show Sequence oder der „sv“-Link führen beide zum Sequence-Viewer.
Abbildung 7.8: Die Anzeige des „Sequence Viewer“. Die Einzelheiten werden bei der (farbigen) Online-Betrachtung deutlich.
Eine Übersichtsgrafik zeigt die volle Länge des Contigs Rot: die Region, von der auch die Sequenz gezeigt wird. Grau: weitere Gene in der Region (Exons der mRNA in blau, kodierende Region in rosa) Weitere Anzeigen, z.B. STSs in schwarz. Unter der Übersichtsgrafik und einer Region zur Veränderung der Sequenzdarstellung (blau/lila hinterlegtes Feld) ist die Sequenz der gewünschten Region angegeben. Unter der gezeigten Sequenz befinden sich farbige Linien:
7. Genom-Informationen und Genkarten
125
Abbildung 7.9: Das HBB-Gen im Sequence Viewer. In der Genregion liegen viele STS, die die Grafik unübersichtlich erscheinen lassen.
Blau: Region der mRNA Sequenz des Gens. Die Gen-Identität ist rechts der Sequenz gezeigt (dünn für Introns, dick für Exons). Rosa: Region der kodierenden Sequenzen (CDS) auf der mRNA/Gen (dünn für Introns, dick für Exons). Grau: Regiony des Gens (sowohl kodierend als auch nicht-kodierende Regionen) Braun (unterhalb der Sequenz): Genetische Variationen (meistens SNPs) Blau/lila-hinterlegtes Feld: ! Gen-Such-Funktion zur Suche nach einem Gen und andere Einstellungen. Bei der Suche nach einem Gen-Symbol muss dieses korrekt eingegeben werden. ! Anzeige der CDS with gene and mRNA (Aminosäuresequenz ja/nein) ! Anzeigeoptionen für andere Eigenschaften (tRNA, Promotor etc.) ! Hide sequence – nur die Übersichtsgrafik bleibt. Manipulationen im „Sequence Viewer“ ! Die angezeigte Sequenzlänge (bp) pro Linie kann verändert werden: 40, 50, 60, 70, 80, 90, 100, 110 und 120 ! Das angezeigte Sequenzfragment kann verändert werden: 2000, 3000, 4000 und 5000. ! Blaue Pfeile am Beginn und am Ende der Sequenz: Möglichkeit zum Vor- bzw. Weiterblättern.
126
7. Genom-Informationen und Genkarten
! Zusätzliche Informationen und weitere Einstellungen auf der oberen Hälfte der Seite: 1. Zeige den Minus-Strang (Minus-Strand) – gezeigt wird immer die kodierende Region (plus) des Gens in Plus-Richtung. Der Link ändert die Anzeige in Ansicht zum revers-komplementären Strang. Plus und Minus sind hier genabhängig! 2. Protein Coding Genes – Link zu einer Liste aller proteinkodierenden Gene innerhalb der Region des Contigs. Von hier führen weitere Links zum GenBank Report (flat file format) und zur DNA- und Proteinsequenz im FASTAFormat. 3. Hide Toolbar – Bei dieser Einstellung wird die Entrez-Toolbar (Suchfeld, „save“- und „add to clipboard“-Links) ausgeblendet. Evidence Viewer – von den Gensequenzkarten über „ev“-Link Der Evidence Viewer zeigt die Daten, die für die Erstellung des allgemeinen Genmodells verwendet wurden. Er dient zur Beurteilung der Richtigkeit einer Genstruktur. Ein Beweis für die Transkription eines Gen-Abschnittes liefert ein EST. ESTSequenz-Analysen eigenen sich zur Bestimmung der Exon/Intron Struktur des Gens sowie zur Charakterisierung von Spleissvarianten. Die Auswertung zur Bestimmung eines Genmodells erfolgt über das Alignment von mRNAs (Modelle und experimentelle Daten), genomische Sequenzen, sowie ESTs (siehe Abb. 10).
STSs, UniSTS und e-PCR Sequence-Tagged Sites (STSs) STSs sind kurze Sequenzen von ca. 200–500 bp Länge. Sie sind im Genom nur einmal vorhanden und genau lokalisiert (einschließlich der Richtung der bp Abfolge). Damit lassen sie Rückschlüsse auf die genaue Position der Sequenz auf einer physikalischen Karte des Genoms zu. STSs definieren sich über ein Primerpaar, das eine einmalige DNA-Sequenz im Chromosom oder Genom (virtuell oder im Experiment) amplifiziert. Auch ESTs können als STSs gelten, sofern sie nur einmal im Genom vorhanden sind. dbSTS ist die Datenbank der STSs und in GenBank eingebunden (gbdiv_sts). UniSTS Die Datenbank UniSTS enthält nicht-redundante Daten für STSs, einschließlich Informationen von Markern und Maps aus einer Vielzahl von öffentlich zur Verfügung stehenden Informationsquellen, wie z.B. dbSTS, GDB (Genome Database), die Genethon genetic map, Marshfield genetic map, und die Whitehead RH map.
7. Genom-Informationen und Genkarten
127
Abbildung 7.10: Die Anzeige im „Evidence Viewer“. Abkürzungen: C = contig, M = model mRNA, R = RefSeq mRNA, G = GenBank mRNA. Je dunkler der EST-Block, desto mehr ESTs sind im Beweis enthalten.
128
7. Genom-Informationen und Genkarten
Zu jedem Marker gibt es folgende Informationen: • Primer-Sequenz • Produktlänge • Mapping Information • Referenzhinweise zu LocusLink, dbSNP, RHdb, GDB, MGD und dem Map Viewer • Eine Liste von GenBank und RefSeq Einträgen, die diese Primer-Sequenzen aufweisen (über e-PCR detektiert) e-PCR e-PCR ist eine Software zur Recherche in UniSTS nach bekannten STSs in einer beliebigen Sequenz, um die Sequenz zu lokalisieren. E-PCR findet STSs, indem es nach den Primer-Paaren der Marker in der richtigen Orientierung und für den richtigen Abstand in der Sequenz sucht.
Abbildung 7.11: Electronic-PCR für die Suche nach bzw. mit STS-Markern.
Eukaryotische Genome miteinander vergleichen Mensch- und Maus-Karten nebeneinander Die Startseite, um zwei Genome miteinander zu vergleichen, ist jeweils die Map Viewer Webseite des einen Organismus. Am einfachsten ist es, wenn schon eine Chromosomenkarte auf dem Bildschirm angezeigt wird. Über „Map and Options“ kann dann eine Karte eines anderen Organismus hinzugefügt werden. HomoloGene Über HomoloGene können homologe Gene aus vollständig sequenzierten Genomen verschiedener Organismen identifiziert werden. HomoloGene findet die Homologen durch reziproke BLASTP Analysen. HomoloGene Einträge enthalten Informationen sowohl zu homologen Sequenzen als auch zum Phänotyp aus den Original-Quellen OMIM, Mouse Genome Informatics, Zebrafish Information Network, Saccharomyces Genome Database, Clusters of Orthologous Groups und FlyBase.
7. Genom-Informationen und Genkarten
129
Weitere Genom-Browser Ensembl (EMBL-EBI/Sanger Inst.) Der Ensembl Genomdatenbank Browser (http://www.ensembl.org/) ist eine gemeinschaftliche Einrichtung des europäischen Bioinformatik-Instituts und des SangerInstituts. Er ist das europäische Gegenstück zum NCBI Map Viewer und verwendet die gleichen Sequenz- und Sequenz-Assembly-Informationen. Diese werden jedoch in einem anderen Format präsentiert. Sowohl die Webseite als auch die von ihr zur Verfügung gestellte Software sind frei zugänglich. Neben den Genominformationen vom Menschen stehen auch die Daten von Huhn, Schimpanse, Maus, Ratte, Zebrafisch und Fruchtfliege zur Verfügung. UCSC Genome Bioinformatics Die WebSeite http://genome.ucsc.edu/index.html (siehe Abb. 7.12, nächste Seite).
Übungen (1) Suchen Sie mit dem NCBI Map Viewer nach Genen, die für zystische Fibrose (cystic fibrosis) verantwortlich sind. Wie viele Genorte werden angegeben? • Sind diese Genorte in Gen-Clustern zusammengefasst oder über das Genom verteilt? • Welches Gen liegt auf Chromosom 7? • Suchen Sie STS-Marker im Gen, um die genetische Disposition von Individuen untersuchen zu können. a. Wie lautet die STS-ID in UniSTS-Datenbank? b. Welche PCR-Primer eignen sich, um die STS zu amplifizieren? c. Wie lang wäre das PCR-Fragment, das amplifiziert werden würde? (2) Nennen Sie mindestens vier Gene eines „best RefSeq“ Gen-Modells im Bereich 11q13.1. Kann man die Gene auch in Tabellenformat ansehen?
130
7. Genom-Informationen und Genkarten
Abbildung 7.12: Der Einstieg und die Kartendarstellung für den Genom-Browser an der UC Santa Cruz.
(3) Suchen Sie das Gen ACTN3. Benutzen Sie den „Sequence View“, um den Transkriptionsstartpunkt zu lokalisieren. Wo ist das erste Exon? Was sind die ersten 5 Aminosäuren? Wie lang ist das erste Intron? (4) Speichern Sie die Sequenz zwischen den Markern RH120891 und SHGC86179 in einer Datei auf Ihrem Computer. (5) Sie untersuchen Glyceraldehyd-3-Phosphat-Dehydrogenase und haben zuverlässige Informationen aus der Datenbank RefSeq und Entrez-Gene zusammengetragen (RefSeq Accession-Nummer: NM_002046). Die Sequenz befindet sich auf Chromosom 12. Über eine BLAST-Analyse gegen das menschliche
7. Genom-Informationen und Genkarten
131
Genom finden Sie viele sehr ähnliche Sequenzen, die über das ganze Genom verteilt sind. Gehen Sie von den BLAST-Ergebnissen über den Link „Genome View“ zum Map Viewer, um die Ergebnisse dort zu betrachten. Um was für Sequenzen handelt es sich bei diesen Treffern?
8 Gen-Variationen/DNA-Polymorphismen recherchieren Gen-Mutationen DNA-Sequenzunterschiede machen jeden von uns zum Individuum Genetische Variationen können klein oder auch groß sein. Manche haben keinen Effekt auf den Phänotyp, andere führen zu gesundheitlichen Problemen unterschiedlichster Ausprägung. “Single Nucleotide Polymorphisms” (SNPs) sind die bekanntesten (bestuntersuchten) genetischen Variationen. SNPs gibt es im ganzen Genom, sowohl in kodierenden als auch in nicht-kodierenden Regionen, in denen sie für vererbte Merkmale in der Genregulation und Genexpression verantwortlich gemacht werden. Dadurch kommt es zu Unterschieden zwischen Individuen für die Empfänglichkeit ansteckender Krankheiten, für die Effektivität medikamentöser Behandlungen oder für die Wirkung anderer toxischer Substanzen und die Belastbarkeit durch Stressoren aus der Umwelt oder dem persönlichen Umfeld. Diese nicht krankheitsverusachenden SNPs können auch als Marker dienen, um die assoziierten, von ihnen beeinflussten, Gene zu identifizieren. Eine wichtige Angabe für die Beschreibung von Polymorphismen in einer Population ist die Angabe der Heterozygotie (engl. heterozygosity). Heterozygotie ist die Wahrscheinlichkeit, dass ein diploides Individuum zwei unterschiedliche Allele an einer bestimmten Stelle im Genom besitzt. Diese Einzelperson ist heterozygot. Individuen, die zwei identische Allele im Genom haben, sind homozygot. Die Heterozygotie wird in der Datenbank dbSNP für jedes SNP Cluster unter der Rubrik „Population Diversity“ angegeben. Eine Einteilung von genetischen Variationen ist in der folgenden Übersicht kurz dargestellt: Austausch von Nukleotidbasen Bei einem Austausch von Nukleotidbasen wird zum einen zwischen Transition und Transversion, zum anderen zwischen einem synonymen und einem nicht-syn133
onymen Basenaustausch unterschieden. Eine Transition ist der Austausch einer Purinbase gegen eine andere Purinbase (A, G) bzw. einer Pyrimidinbase gegen eine Pyrimidinbase (C, T). Transitionen sind für 25 % aller SNPs im menschlichen Genom verantwortlich. Eine Transversion ist der Austausch einer Purinbase (A, G) gegen eine andere Pyrimidinbase (C, T) oder umgekehrt. Bei einem synonymen Basenaustausch führt der Austausch einer Base nicht zu einer Veränderung in der kodierenden Aminosäure. Kodiert das aus der Mutation resultierende Basentriplett jedoch für eine andere Aminosäure als vorher, handelt es sich um einen nicht-synonymen Basenaustausch. Insertionen und Deletionen (indels) von Nukleotiden Indels sind oft verantwortlich für die Ausprägung einer genetischen Krankheit, da es zu einer Änderung im Leserahmen (ORF) kommt und dadurch das kodierende Protein verändert wird. Tandem Repeat Polymorphisms „Tandem repeats“ oder die „variable number of tandem repeats“ (VNTR) gehören zu den häufigen Polymorphismen. Sie bestehen aus einem sich wiederholenden Sequenzmotiv (tandem repeat), welches in den Individuen einer Population in unterschiedlicher Kopienzahl vorliegen kann. VNTRs werden aufgrund der Länge der Wiederholungssequenz in zwei Untergruppen aufgeteilt. Bei den Microsatelliten oder „short tandem repeat“ (STR) handelt es sich um Sequenzmotive mit einer Länge von 1 bis 6 Nukleotiden, wie z.B. bei der Wiederholungssequenz des Dinukleotids CA (= CACACACA). Diese Repeats sind zumeist kürzer als 100 bp. Bei den Minisatelliten beträgt eine Einheit der Wiederholungssequenz 14 bis 100 Nukleotide. Beispiel Die längste Wiederholungssequenz im menschlichen Genom wurde bisher bei Personen mit der Erbkrankheit Spinocerebellare Ataxie Typ10 (SCA10; OMIM:+603516) gefunden. So tritt das Pentanukleotid ATTCT in einer Population gesunder Menschen im Intron 9 des SCA10-Gens mit einer Wiederholungsfrequenz von 10–22 auf, bei SCA10-Patienten jedoch mit einer Frequenz von 800–4500 Pentanukleotid-Einheiten. Dabei wird das krankheitsverursachende Allel bis zu 22,5 kb länger. Chromosomale Veränderungen Neben den Veränderungen auf der Sequenzebene des Genoms können auch Veränderungen auf chromosomaler Ebene für die Ausprägung veränderter Genotypen
und Phänotypen verantwortlich sein. Bei einer Translokation wird ein großer Abschnitt eines Chromosoms mit einem Abschnitt aus einem anderen Chromosom ausgetauscht, wohingegen bei einer Inversion ein genomischer Abschnitt sich in der entgegengesetzten (inversen) Richtung integriert.
Nomenklatur zur Beschreibung von Mutationen Viele Bestrebungen in den Lebenswissenschaften haben zum Ziel, die Fülle an Daten nicht nur zu strukturieren, sondern auch wiederauffindbar zu machen, zu indexieren. Eine große Hilfe für eine Recherche sind einheitliche Formate, in denen die Daten beschrieben sind. Für die Beschreibung von Mutationen hat Stylianos E. Antonarakis zwischen den Jahren 1989 und 2001 eine Nomenklatur vorgeschlagen, die weltweit akzeptiert wurde und sich daher für die Recherche nach Mutationen eignet. Da diese Regeln noch sehr neu sind, wurden und werden noch nicht alle Mutationen nach den Regeln dieser Nomenklatur beschrieben. Manche Abkürzungen haben jedoch schon lange Allgemeingültigkeit wie z.B. del = Deletion und ins = Insertion. Die hier angegebenen Beispiele sollen das Konzept dieser Nomenklatur verdeutlichen: Der Austausch von Aminosäuren Für die Beschreibung eines Aminosäureaustausches wird die Veränderung in der Ein-Buchstaben- oder Drei-Buchstaben Kodierung von AS angegeben. Die Aminosäureposition steht dabei mittig zwischen der Aminosäure des Wildtyps und der Veränderung, wie z.B. bei R117H oder Arg117His (Austausch von Arginin an der Aminosäureposition 117 durch Histidin) bzw. G542X oder Gly542Stop (Gly542Ter; Veränderung von Glycin an der Aminosäureposition 542). Die Veränderung führte zu einer Termination der Translation durch Entstehung eines Stopp-Codons (X = Stop = Ter). Bei F508del ist Phenylalanin an der Aminosäureposition 508 deletiert (ein Basentriplett fehlt). Der Austausch von Nukleotidbasen Bei einem Austausch von Nukleotidbasen wird die Position der Nukleotidbase zuerst angegeben, wie z.B. bei 1162G>A (Basen-Austausch von Guanin an Position 1162 gegen Adenin) oder 409-410insC (Insertion von C zwischen den Nukleotiden 409 und 410). Bei 6232-6236del oder 6232-6236delATAAG gibt es eine Deletion von fünf Nukleotiden, der Startpunkt ist bei der Nukleotidposition 6232. Veränderungen innerhalb von Introns werden mit der Intronnummer oder einer Basennummerierung der cDNA (Nummerierung der Exonsequenzen) angegeben, wie z.B. bei 621+1G>T oder IVS4+1G>T. Hier wurde G gegen T an der ersten Base vom Intron 4 (IVS4) ausgetauscht. Exon 4 endet hier mit der Base 621; das G folgt danach mit +1. Genomische bzw. cDNA kann mit den Kleinbuchstaben g. und c. angegeben werden.
Online Mendelian Inheritance in Man (Entrez-OMIM) OMIM ist eine bibliografische Volltext-Datenbank (Fulltext Knowledgebase) menschlicher Gene und Erbkrankheiten. Eine Aktualisierung und Bearbeitung erfolgt von Dr. Victor McKusick (Initiator, Johns Hopkins University) und Mitarbeitern. Der Katalog Mendelian Inheritance in Man wurde erstmals 1960 publiziert und 1995 über das NCBI online zugänglich gemacht. Die Einträge enthalten Informationen sehr unterschiedlicher Art, wie z.B. eine Beschreibung des Gens und/ oder der genetischen Krankheit, biochemische und molekularbiologische Daten, zytogenetische Information und Information zur Kartierung, Informationen zu Populationsgenetik und allelischer Varianz, Diagnose und Therapie der genetischen Krankheit, Tiermodelle der Krankheit. Die Datenbank-Kategorie “Allelic Variants” enthält ausgesuchte Mutationen. Hierbei stehen die krankheitsbezogenen Mutationen im Vordergrund und nur wenig neutrale Polymorphismen sind aufgeführt. Die Zuordnung der Mutation erfolgt mit Hilfe einer 10-stelligen OMIM-Nummer (z.B. 141900.0003). Die erste 6-stellige OMIM-Nummer ist die Zugriffsnummer der Datenbank, die 4-stellige Nummer nach dem Punkt ist die Zugriffsnummer für eine spezifische Mutation. Jede OMIM-Nummer hat ein kleines vorangestelltes Zeichen. Dieses Zeichen steht für die Art der beschriebenen Mutation. So handelt es sich bei Einträgen mit einem * um Gene mit bekannter Sequenz, bei einem + um Gene mit bekannter Sequenz und bekanntem Phänotyp, bei # um phänotypische Beschreibungen mit einem Zusammenhang zu molekularen Erkenntnissen (z.B. gewonnen über Familienanamnesen), bei % um beschriebene Phänotypen, die einem Erbgang nach Mendel folgen, bei keinem vorangestellten Zeichen um phänotypische Beschreibungen, bei denen eine Vererbung nach den Mendelschen Gesetzen vermutet wird, aber nicht bewiesen ist. Die Recherche in Entrez-OMIM Die Limit-Optionen unter Entrez-OMIM sind in Abbildung 8.1 dargestellt. Eine Suchanfrage nach einer Mutation kann über mehrere Wege angesteuert werden. Zum einen kann in OMIM nach einem Gen oder einer genetischen Krankheit gesucht werden. Die Informationen zu allelischen Variationen wären in so einem Eintrag enthalten, soweit genetische Veränderungen bekannt sind. Zum anderen kann unter der Verwendung von “Limits” die Suche auf Einträge mit einer beschriebenen Mutation (“Only Records with: Allelic Variants“) oder auf Einträge im Datenbankfeld “Allelic Variants” eingeschränkt werden. Mit dieser Sucheinstellung werden nur Treffer angezeigt, die Einträge in dem Datenbankfeld „Allelic Variants“ aufweisen, bzw. bei denen mit der Suchanfrage Ergebnisse in dem Feld „Allelic Variants“ gefunden wurden.
Abbildung 8.1. OMIM ist eine Entrez-Datenbank und gewährt eine Suche nach Entrez-Kriterien.
Übungen für die Recherche in OMIM (1) Gesucht werden Informationen für das Gen ATP7A. • Welche Krankheit wird durch Mutationen in diesem Gen hervorgerufen? Lösungsansatz: Für die Beantwortung der Frage genügt eine einfache Suche in EntrezOMIM nach atp7a (12 Treffer, Stand: Jan. 2007). Der erste Treffer ist relevant. Eine Mutation in diesem Gen kann zu den Krankheiten „Menkes Disease“ oder „Cutis Laxa“ (Occipital horn syndrome) führen. • Wie viele Mutationen sind in OMIM beschrieben? Lösungsansatz: OMIM ist eine bibliografische Datenbank. Die Einträge haben ein Inhaltsverzeichnis im blau unterlegten Bereich auf der linken Seite. Wenn es sich um einen Eintrag mit * handelt, gibt es in diesem Bereich einen Link zu „View List“. Dieser Link führt zu einer Liste der Mutationen (Allelic Variants), in der die Mutationen in Kurzform beschrieben sind.
Abbildung 8.2: Die Liste der Mutationen im ATP7A-Gen. Erläuterungen im Text.
Wie oben erwähnt, handelt es sich bei der Auflistung in OMIM um ausgewählte Mutationen. Alle beschriebenen Mutationen in diesem Gen können in der Datenbank dbSNPs recherchiert werden. (2) Gesucht werden folgende Genvariationen in OMIM: • PAX3: eine Deletion in Exon 4 des Gens PAX3 • Eine Inversion im Gen F8C • Eine Insertion von LINE Sequenzen im Gen F8C Lösungsansatz: • PAX3-Suchanfrage: pax3 AND (DEL[var] AND EX4[var]) • Inversion im Gen F8C. Suchanfrage: f8c AND (inv[var]) • Insertion von LINE Sequenzen im Gen F8C. Suchanfrage: F8C AND (line[var] AND ins[var])
dbSNP, die Datenbank für “Single Nucleotide Polymorphisms” Die Datenbank dbSNP wurde im September 1998 eingeführt und enthält z.Z. mehr als 12,7 Mill. SNP Cluster für das menschliche Genom (Stand: Jan 2007). Diese SNPs können sowohl SNPs mit klinischer Relevanz als auch neutrale SNPs sein. Die Datenbank ist nicht spezies-spezifisch, der Fokus liegt jedoch auf den Genomen der allgemeinen Modellorganismen. Die dbSNP beinhaltet nicht nur SNPs, sondern auch
STRs (short tandem repeats) und kurze DIPs (Deletions-Insertions-Polymorphismen). In der Datenbank sind die Daten in zwei Kategorien eingeteilt. Zum einen handelt es sich um „submitted data“ (eingereichte Daten), zum anderen um „computed data“ (berechnete Daten). Die eingereichten Daten sind die ursprünglichen Daten der Wissenschaftler. Die Accession-Nummern dieser Daten fangen mit ss an (Submitted SNPs, z.B. ss 5586300). Aus diesen Daten werden die Referenz-SNP-Cluster erstellt, die einer regelmäßigen Aktualisierung unterliegen. Nichtredundante SNPs erhalten ebenfalls eine einmalige RefSNP-Accession-Nummer. Die Accession-Nummer für Reference-SNP-Cluster beginnt mit „rs“ (z.B. rs2266788). Wenn die Datenbank aufgrund vieler neuer Daten vollständig überarbeitet wird, dann wird eine neue Version, ein „build“, veröffentlicht. Die aktuelle Version ist z. Z. BUILD 126, d.h. die Datenbank wurde schon 126-mal vollständig überarbeitet (Stand: Jan 2007). Die Datenbank dbSNP ist eine nicht-redundante Sammlung an SNPs, redundante Einträge werden dem zugehörigen RefSNP Cluster zugeordnet. Darüber hinaus werden die Daten validiert. Die Methoden für eine Bewertung der SNPs (echt/unecht) erfolgen entweder über die Häufigkeit (Validated by multiple, independent submissions to the refSNP cluster; Validated by frequency or genotype data: minor alleles observed in at least two chromosomes; All alleles have been observed in at least two chromosomes apiece) oder über die Aussagen der Wissenschaftler und andere Projekten der Genotypisierung (Validated by submitter confirmation bzw. Genotyped by HapMap project). Die Recherche in dbSNP Die Suche in der Datenbank kann über verschiedene Wege erfolgen. Zum einen gibt es auf der SNP-Homepage (http://www.ncbi.nlm.nih.gov/projects/SNP/) die Möglichkeit, über die Accession-Nummern, über die Autoren oder nach SNPs zwischen zwei Markern zu suchen, zum anderen unterliegt dbSNP den Suchfunktionen von Entrez. In Entrez-SNP stehen dem Anwender unter „Limits“ viele Möglichkeiten für eine fokussierte Suchanfrage zur Verfügung. Zur Auswahl stehen Sucheinschränkungen über die SPN-Klasse (Function class – coding non-synonymous, intron, etc. sowie SNP class – in del, microsat., etc.), über die Chromosomen-Nummer (W und Z für “non-mammals”), über den Organismus, über Angaben zum Allel (Observed Alleles), über die Angabe zur Häufigkeit (Map Weight – wie oft im Genom), über die Angaben zur Validierung des SNPs (Type of validation und Success Rate (Wahrscheinlichkeit für die „Echtheit“ eines SNPs), zur Heterozygotie (% Heterozygosity) sowie über Angaben zur Methode, mit der der SNP gefunden wurde (Method class). Alternativ zu einer Anwendung von Limits können komplexe Suchanfragen über Suchfeldqualifizierungen aufgebaut werden. Die Suchfeld-Kürzel sind im Detail auf der Homepage von Entrez-SNP beschrieben (http://www.ncbi.nlm.nih.gov/entrez/ query.fcgi?db=Snp) (siehe Abb. 8.3). Weitere Möglichkeiten für eine Recherche in der dbSNP bestehen über eine Sequenzähnlichkeitssuche, BLAST SNP (siehe BLAST-Homepage unter „special“) sowie über den MapViewer. Die aus dbSNP erstellte Chromosomenkarte heißt „Variation map“ und kann unter der „Maps & Options“-Funktion des MapViewers aufgerufen werden.
Abbildung 8.4 (linke Seite und oben): Die Datenbank dbSNP steht sowohl für Text-Suchanfragen (über Entrez) als auch für Sequenzähnlichkeitssuchen und Genom-Browsing zur Verfügung. In der Abbildung ist die Suchoberfläche für eine BLAST-Suche gegen dbSNP gezeigt.
Die Ergebnisanzeige in dbSNP Die Informationen für ein SNP-Cluster sind in die allgemeinen Angaben zum Cluster wie z.B. Organismus, Molekülart und Autorenangaben (Submitter records for this RefSNP Cluster) und in die Kategorien für die detaillierten Sequenzinformationen wie z.B. „FASTA Sequence“, „ Gene View“, „Map View“, „Population Diversity“ und „Validation Summary“ unterteilt. Die flankierende Sequenz des Basenaustausches ist jeweils die längste Sequenz, die für den SNP an dieser Stelle beschrieben wurde. Der Basenaustausch ist mit der flankierenden Sequenz in der IUPAC-Kodierung dargestellt (z.B. ACTAGTATTT Y TATGAAA, siehe Kap. 3). Beispiele für Polymorphismen sind z.B. A/– (A oder Deletion der Base an dieser Stelle), –/(Alu) (mögliche Insertion eines Repeat-Elementes; das Repeat-Element ist mit Namen genannt), (AT) 8/9/10/11/12/13 (mögliches Vorkommen einer Dinukleotidsequenz mit 6 Allelen; das Motiv ist nicht in allen Individuen konserviert) oder (heterozygous) (die Methode konnte nur das Vorkommen einer Heterozygotie zeigen).
Abbildung 8.5: Die Ergebnisanzeige für die Suchanfrage CFTR AND human[orgn] AND „snp omim“[Filter] AND („in del“[SNP Class] OR „snp“[SNP Class]). Die Suche ergab zwei Treffer in der Datenbank. Die Erklärung zur Grafik (Graphic Summary) kann unter dem Menüpunkt „Legende“ durch einen Maus-Klick aufgerufen werden. Die gesuchten SNPs sollten für das menschliche Gen CFTR beschrieben sein, einen Eintrag in OMIM haben und entweder eine Insertion oder Deletion oder einen echten Single nucleotide polymorphism aufweisen.
Die Ergebnisse können in unterschiedlichen Formaten angezeigt werden. Die Display-Optionen sind in Abbildung 8.6 dargestellt. Die Standardeinstellung ist die Anzeige der Übersichtsgrafik (Graphic Summary). Über dieses Pull-down-Menü können auch „Hardlinks“ zu anderen Entrez-Datendomänen aufgerufen werden. Ebenso wie in anderen Entrez-Domänen können die Treffer zusätzlich noch nach verschiedenen Gesichtspunkten sortiert werden (siehe Abb. 8.6).
Abbildung 8.6: Die „Display“- und Sortierungs-Funktionen in dbSNP. Erläuterungen im Text.
Methoden zur Identifizierung und Validierung von Polymorphismen Die Methoden zur Identifizierung und Charakterisierung von SNPs sind vielfältig. In der Datenbank dbSNP kann die Recherche über eine Methode der Wahl fokussiert werden (siehe Abb. 8.7). Einige Methoden wie die denaturierende (D)HPLC können nur das Vorhandensein einer Veränderung erkennen, nicht die genaue Sequenzveränderung für die Identifizierung von Polymorphismen. Die resultierenden Daten werden dann mit einem empirischen Maß an Heterozygotie beschrieben (geschätzte Heterozygotie).
Abbildung 8.7: Suchmaske zur Recherche von SNPs über dieselbe Methode, die zur Auffindung des Polymorphismus angewandt wurde (siehe Entrez-SNP – „Limits“).
Webadressen NCBI-Datenbanken für DNA-Polymorphismen • Entrez-OMIM (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM) • SNP-Homepage (http://www.ncbi.nlm.nih.gov/projects/SNP/) • Entrez-SNP (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Snp) • Entrez-PopSet – die Datenbank der Populations-Studien (http://www.ncbi.nlm. nih.gov/entrez/query.fcgi?db=PopSet) Für weitere Datenbanken s. „Nucleic Acids Research – Database Issue“ (s. Kap. 4) Nomenklatur für Mutationen • den Dunnen JT, Antonarakis SE. Nomenclature for the description of human sequence variations. Hum Genet. 2001 Jul;109(1):121-4. (PMID: 11479744) • den Dunnen JT; description of sequence variants – HGVS mutation nomenclature (http://www.hgvs.org/mutnomen/)
Übungen (1) Suchen Sie nach Referenz-SNPs für menschliche Polymorphismen von Mikrosatelliten-DNA (kurzen Wiederholungssequenzen). Wie können Sie schnell sehen, welche Submitted-SNPs (ss#) im Cluster vorkommen? • Welche SNPs haben ein Allel für A oder C (M) bzw. A, C oder T (H)? (2) Wie viele SNPs befinden sich auf dem X-Chromosom zwischen den STS-Markern DXS1501 und WI-21664? Sortieren Sie die SNPs nach der Reihenfolge ihres Vorkommens. (3) Mutationen im BRCA1-Gen werden für die Erkrankung an Brustkrebs in jungen Jahren verantwortlich gemacht. Suchen Sie nach allen nicht synonymen SNPs für BRCA1. Wie viele SNP-Cluster können Sie finden? Zeigen Sie die Einträge auch auf einer Chromosomenkarte.
Anhang 1 Tabellen Tabelle 1. Limits Available by Database (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=helpentrez.table.EntrezHelp.T6) Databases Limits Search Fields Exclude ESTs Exclude STSs Exclude GSSs Exclude Working Draft Exclude Patents Molecule Type Gene Location Segmented Sequences Database Source Modification Date
Nucleotide Yes
Core Nucleotide Yes
Yes
EST GSS Yes
Yes
Yes
Yes
Yes
Pop Set Yes
No
No
No
No
No
No
No
Yes
Yes
No
No
No
No
No
No
Yes
No
No
No
No
No
No
No
Yes
Yes
No
No
No
No
No
No
Yes
Yes
No
No
Yes
No
No
No
Yes
Yes
Yes
Yes
No
No
No
No
Yes
Yes
No
No
Yes
No
No
No
Yes
Yes
no
no
Yes
No
No
No
Yes
Yes
Yes
Yes
Yes
No
No
No
Yes
Yes
Yes
Yes
Yes
No
No
No
145
Protein Genome
Structure
146
Anhang
Tabelle 2. Search Fields Available by Database (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=helpentrez.table.EntrezHelp.T7)
Search Field Descriptions and Qualifiers Accession All Fields Author Name EC/RN Number Feature Key Filter Gene Name Issue Journal Name Keyword Modification Date Molecular Weight Organism Page Number Primary Accession Properties Protein Name Publication Date SeqID String Sequence Length Substance Name Text Word Title Word Uid Volume
Databases Protein Genome Structure PopSet Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No Yes No Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes Yes Yes Yes No No No Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes No Yes Yes Yes No Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes No No Yes No Yes No Yes Yes Yes Yes Yes Yes No No No No No No Yes Yes Yes Yes
147
Tabellen
Tabelle 3. Search Field Descriptions and Qualifiers Corenucleotide Database (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=helpentrez.table.EntrezHelp.T8) Index Search Field Definition Accession Contains the unique accession number of the sequence or record, assigned to the nucleotide, protein, structure, genome record, or PopSet by a sequence database builder. The Structure database accession index contains the PDB IDs but not the MMDB IDs. Example : AF123456[accn] All Fields Contains all terms from all searchable database fields in the database. Author Contains all authors from all references in the database records. The format is last name space first initial(s), without punctuation (e.g., marley jf). EC/RN Number Number assigned by the Enzyme Commission or Chemical Abstract Service (CAS) to designate a particular enzyme or chemical, respectively. Feature Key Contains the biological features assigned or annotated to the nucleotide sequences and defined in the DDBJ/EMBL/GenBank Feature Table (http://www. ncbi.nlm.nih.gov/projects/collab/FT/index.html). Not available for the Protein or Structure databases. Filter Contains predetermined or filtered subsets of the various databases. These subsets or filters are created by grouping records that are commonly linked to other Entrez databases or within the same database. For example, the PopSet database Filter index includes PopSet all, PopSet medline, PopSet nucleotide, and PopSet protein. The PopSet medline filter includes all PopSet records with links to PubMed; the PopSet nucleotide filter includes all PopSet records with links to the nucleotide database; and, the PopSet protein filter includes all PopSet records with links to the protein database. The PopSet all filter includes all PopSet records. Gene Name Contains the standard and common names of genes found in the database records. This field is not available in Structure database. Issue Contains the issue number of the journal in which the data were published.
Qualifier [ACCN] or [ACCESSION]
[ALL] or [ALL FIELDS] [AUTH] or [AUTHOR] [ECNO]
[FKEY]
[FILT] or [SB]
[GENE]
[ISS] or [ISSUE]
148
Anhang
Tabelle 3 (fortgesetzt). Search Field Descriptions and Qualifiers Corenucleotide Database Index Search Field Definition Keyword Contains special index terms from the controlled vocabularies associated with the GenBank, EMBL, DDBJ, SWISS-Prot, PIR, PRF, or PDB databases. Browse the Keyword indexes of the individual databases to become familiar with these vocabularies. A Keyword index is not available in the Structure database. Journal Name Contains the name of the journal in which the data were published. Journal names are indexed in the database in abbreviated form (e.g., J Biol Chem). Journals are also indexed by their by ISSNs. Browse the index if you do not know the ISSN or are not sure how a particular journal name is abbreviated. Modification Date Contains the date that the most recent modification to that record is indexed in Entrez, in the format YYYY/MM/DD (e.g., 1999/08/05). A year alone (e.g., 1999) will retrieve all records modified for that year; a year and month (e.g., 1999/03) retrieves all records modified for that month that are indexed in Entrez. Organism Contains the scientific and common names for the organisms associated with protein and nucleotide sequences. Page Number Contains the number of the first journal page of the article in which the data were published. Primary Accession Contains the primary accession number of the sequence or record, assigned to the nucleotide, protein, structure, genome record, or PopSet by a sequence database builder. A Primary Accession index is not available in the Structure database. Properties Contains properties of the nucleotide or protein sequence. For example, the Nucleotide database‘s Properties index includes molecule types, publication status, molecule locations, and GenBank divisions. A Properties index is not available in the Structure database. Protein Name Contains the standard names of proteins found in database records. Common names may not be indexed in this field so it is best to also consider All Fields or Text Words. A Protein Name index is not available in the Structure database.
Qualifier [KYWD] or [KEYWORD]
[JOUR] or [JOURNAL]
[MDAT]
[ORGN] or [ORGANISM] [PAGE] [PACC]
[PROP]
[PROT]
149
Tabellen
Tabelle 3 (fortgesetzt). Search Field Descriptions and Qualifiers Corenucleotide Database Index Search Field Definition Publication Date Contains the date that records are released into Entrez, in the format YYYY/MM/DD (e.g., 1999/08/05). It is the date the entry first appeared in GenBank explicitly indexed in Entrez. A year alone, (e.g., 1999) will retrieve all records for that year; a year and month (e.g., 1999/03) will retrieve all records released into GenBank for that month. SeqID String Contains the special string identifier, similar to a FASTA identifier, for a given sequence. A SeqID String index is not available in the Structure database. Sequence Length Contains the total length of the sequence. Sequence Length indexes are not available in the Structure or PopSet databases. Substance Name Contains the names of any chemicals associated with this record from the CAS registry and the MEDLINE Name of Substance field. Substance Name indexes are not available in the Genome or PopSet databases. Text Word Contains all of the „free text“ associated with a record. Title Includes only those words found in the definition line of a record. The definition line summarizes the biology of the sequence and is carefully constructed by database staff. A standard definition line will include the organism, product name, gene symbol, molecule type and whether it is a partial or complete cds. Title Word indexes are not available in the Structure or PopSet databases. Volume Contains the volume number of the journal in which the data were published.
Qualifier [PDAT]
[SQID]
[SLEN]
[SUBS]
[WORD] [TITL]
[VOL]
150
Anhang
Tabelle 4. Search Field Descriptions and Qualifiers Protein Database (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=helpentrez.table.EntrezHelp.T9) Index Search Field Accession
All Fields Author
EC/RN Number
Filter
Gene Name
Issue Keyword
Definition Contains the unique accession number of the sequence or record, assigned to the nucleotide, protein, structure, genome record, or PopSet by a sequence database builder. The Structure database accession index contains the PDB IDs but not the MMDB IDs. Contains all terms from all searchable database fields in the database. Contains all authors from all references in the database records. The format is last name space first initial(s), without punctuation (e.g., marley jf). Number assigned by the Enzyme Commission or Chemical Abstract Service (CAS) to designate a particular enzyme or chemical, respectively. Contains predetermined or filtered subsets of the various databases. These subsets or filters are created by grouping records that are commonly linked to other Entrez databases or within the same database. For example, the PopSet database Filter index includes PopSet all, PopSet medline, PopSet nucleotide, and PopSet protein. The PopSet medline filter includes all PopSet records with links to PubMed; the PopSet nucleotide filter includes all PopSet records with links to the nucleotide database; and, the PopSet protein filter includes all PopSet records with links to the protein database. The PopSet all filter includes all PopSet records. Contains the standard and common names of genes found in the database records. This field is not available in Structure database. Contains the issue number of the journal in which the data were published. Contains special index terms from the controlled vocabularies associated with the GenBank, EMBL, DDBJ, SWISS-Prot, PIR, PRF, or PDB databases. Browse the Keyword indexes of the individual databases to become familiar with these vocabularies. A Keyword index is not available in the Structure database.
Qualifier [ACCESSION] or [ACCN]
[ALL] or [ALL FIELDS] [AUTH] or [AUTHOR] [ECNO]
[FILT] or [SB] or [FILTER]
[GENE]
[ISS] or [ISSUE] [KYWD] or [KEYWORD]
151
Tabellen
Tabelle 4 (fortgesetzt). Search Field Descriptions and Qualifiers Protein Database Index Search Field Journal
Modification Date
Molecular Weight
Organism Page Number Primary Accession
Properties
Protein Name
Definition Contains the name of the journal in which the data were published. Journal names are indexed in the database in abbreviated form (e.g., J Biol Chem). Journals are also indexed by their by ISSNs. Browse the index if you do not know the ISSN or are not sure how a particular journal name is abbreviated. Contains the date that the most recent modification to that record is indexed in Entrez, in the format YYYY/ MM/DD (e.g., 1999/08/05). A year alone, (e.g., 1999) will retrieve all records modified for that year; a year and month (e.g., 1999/03) retrieves all records modified for that month that are indexed in Entrez. Molecular weight of a protein, in Daltons (Da), calculated by the method described in the Searching by Molecular Weight section of the Entrez help document. Note that molecular weight must be entered as a fixed 6 digit field, filled with leading zeros (not letter O), e.g., 002002 [MOLWT] Contains the scientific and common names for the organisms associated with protein and nucleotide sequences. Contains the number of the first journal page of the article in which the data were published. Contains the primary accession number of the sequence or record, assigned to the nucleotide, protein, structure, genome record, or PopSet by a sequence database builder. A Primary Accession index is not available in the Structure database. Contains properties of the nucleotide or protein sequence. For example, the Nucleotide database‘s Properties index includes molecule types, publication status, molecule locations, and GenBank divisions. A Properties index is not available in the Structure database. Contains the standard names of proteins found in database records. Common names may not be indexed in this field so it is best to also consider All Fields or Text Words. A Protein Name index is not available in the Structure database.
Qualifier [JOUR] or [JOURNAL]
[MDAT]
[MOLWT]
[ORGN] or [ORGANISM] [PAGE] [PACC]
[PROP] or [PROPERTIES]
[PROT] or [PROTEIN NAME]
152
Anhang
Tabelle 4 (fortgesetzt). Search Field Descriptions and Qualifiers Protein Database Index Search Field Publication Date
SeqID String
Sequence Length
Substance Name
Text Word Title
Volume
Definition Contains the date that records are released into Entrez, in the format YYYY/MM/DD (e.g., 1999/08/05). It is the date the entry first appeared in GenBank explicitly indexed in Entrez. A year alone, (e.g., 1999) will retrieve all records for that year; a year and month (e.g., 1999/03) will retrieve all records released into GenBank for that month. Contains the special string identifier, similar to a FASTA identifier, for a given sequence. A SeqID String index is not available in the Structure database. Contains the total length of the sequence. Sequence Length indexes are not available in the Structure or PopSet databases. Contains the names of any chemicals associated with this record from the CAS registry and the MEDLINE Name of Substance field. Substance Name indexes are not available in the Genome or PopSet databases. Contains all of the „free text“ associated with a record.
Qualifier [PDAT] or [PUBLICATION DATE]
[SQID] or [SEQUID STRING] [SLEN] or [SEQUENCE LENGTH] [SUBS] or [Substance Name] [WORD] or [Text Word] [VOL] or [VOLUME]
Includes only those words found in the definition line of a record. The definition line summarizes the biology of the sequence and is carefully constructed by database staff. A standard definition line will include the organism, product name, gene symbol, molecule type and whether it is a partial or complete cds. Title Word indexes are not available in the Structure or PopSet databases. Contains the volume number of the journal in which the [VOL] or [VOLUME] data were published.
Anhang 2 Lösungsansätze und Anmerkungen zu den Übungen Die im Buch aufgeführten Übungen behandeln Fragen, mit denen Sie in Ihrem Laboralltag in ähnlicher Form konfrontiert werden könnten. Ich hoffe, dass Sie mit den hier beschriebenen Lösungsansätzen in der Lage sein werden, auch ähnliche Probleme zu lösen. In diesem Anhang werden nicht alle im Buch aufgeführten Übungsaufgaben erläutert. Insbesondere die Übungen für die Internetrecherchen werden beim Leser wahrscheinlich zu anderen Ergebnissen führen, als sie im Buch beschrieben wurden. Dies läßt sich nicht vermeiden, da die ständige Aktualisierung der Internetseiten sich dem Informationszuwachs anpassen muss. Bei vielen Übungsaufgaben möchte ich mich auf nur einen der möglichen Lösungsansätze beschränken. Andere Übungsaufgaben sollen zum Nachdenken anregen und sind erfahrungsgemäß mit den theoretischen Inhalten der Buchkapitel zu beantworten. Mit wieder anderen Übungsaufgaben möchte ich auf molekularbiologische Besonderheiten hinweisen, die Sie dann jeweils unter den „Anmerkungen“ finden. Insgesamt ist dies also ein buntes Gemisch an Fragen, die Ihnen Erfahrung und Erfolg bei Ihren Recherchen und im Laboralltag vermitteln sollen.
Zu Kapitel 2 (1) Suchen Sie über den NCBI Taxonomy Browser die heutigen Bakterienstämme (Eubakterien) und Archaea-Stämme. Benutzen Sie dazu den „Display-Level“ von 2 bzw. 1. Anmerkung Bakterien werden derzeit in zwei Gruppen eingeteilt, die Eubakterien und die Archaebakterien. Archaebakterien leben unter extremen Bedingungen, wie z.B. Halobakterien in Salzstöcken oder thermophile Bakterien in heißen Quellen bei Temperaturen von 50–85 °C. Sie unterscheiden sich von den Eubakterien unter anderem im Aufbau der Zellmembran, ihrer DNA, der Anzahl der RNAPolymerasen. Die Klassifizierung der Eubakterien erfolgte lange nach Morphologie, Vorkommen und Ernährung. So werden die Eubakterien in etwas älteren 153
154
Anhang
Lehrbüchern in fünf monophyletische Großgruppen, (Proteobakterien, Chlamydien, Spirochäten, gram-positive Bakterien und Cyanobakterien) eingeteilt.
Über den Taxonomie-Browser können Sie erkennen, dass sehr viel mehr Gruppen als früher unter den Bakterien aufgeführt sind. Dies beruht teilweise darauf, dass viele prokaryotische Genome bereits vollständig sequenziert wurden und jetzt eine genauere Einteilung und Abstufung vorgenommen werden konnte. (2) Suchen Sie ein Verzeichnis oder Lexikon mit Tiernamen in deutscher und lateinischer Sprache im Internet. • Wie ist der wissenschaftliche Name für Meerschweinchen? • Gibt es Meerschweinchen-Sequenzen in der Taxonomy Datenbank? Anmerkung Ein Online-Lexikon ist z.B. http://www.das-tierlexikon.de. Das Meerschweinchen heißt Cavia aperea porcellus, und „Ja“, es gibt ca. 748.000 Nukleotidsequenzen. (3) Sie möchten alle Proteineinträge für HIV finden. Von wie viel verschiedenen HI-Viren gibt es Sequenzen in der Datenbank? • Was ist der Unterschied zwischen der allgemeinen Kategorie „Human immunodeficiency virus“ und den einzelnen Typen von HI-Viren? • Suchen Sie alle Proteinsequenzen des „human immunodeficiency virus 2“. (siehe Entrez-Verknüpfungen in der Datenbank Taxonomy).
Lösungsansätze und Anmerkungen zu den Übungen
155
Lösungsansatz Suchen Sie nach hiv in der Taxonomie-Datenbank (Search for „hiv“). Sie können zwischen • Human immunodeficiency virus 1 [acronym: HIV] • Human immunodeficiency virus 2 [acronym: HIV] • Human immunodeficiency virus [acronym: HIV] • Human immunodeficiency virus 3 [acronym: HIV] • Simian-Human immunodeficiency virus [acronym: HIV] wählen. Wenn Sie den Eintrag für HIV (ohne Zahl) anklicken, erhalten Sie ca. 2000 Nukleotidsequenzen. Betrachten Sie aber den Eintrag für HIV 1, erhalten Sie ca. 177.000 Einträge (Stand: Jan. 2007). Anmerkung Sie erhalten 2000 Nukleotidsequenzen für HIV. Diese Zahl sollte Sie stutzig machen! Allein für HIV1 gibt es ca. 177.000 Einträge für Nukleotidsequenzen. In dem allgemeinen Eintrag (HIV ohne Zahl) ist zu lesen: „Entries at this node come from sequence and structure records that are identified only with the name ,Human immunodeficiency virus‘. All of them are probably ,Human immunodeficiency virus type 1‘“. Die Erklärung ist, dass alle Sequenzen aus GenBank mit dem Taxonomie-Browser verknüpft werden. GenBank ist eine Archiv-Datenbank, und alles, was nicht genau beschrieben ist, ist auch keiner genauen Bezeichnung zugeordnet. „HIV“ ist nicht der Oberbegriff für sämtliche HIV-Einträge, sondern spiegelt alle Indexierungen aus GenBank wider. (4) Finden Sie alle Nukleotidsequenzen vom Mammut. Wie viele Einträge für Nukleotidsequenzen gibt es am NCBI? • Um welche Sequenzen handelt es sich? Lösungsansatz Suchen Sie nach „Mammuthus“ oder gehen Sie zu den Taxonomy-Seiten für ausgestorbene Organismen (extinct organisms). Hier ist das Mammut aufgeführt. Folgen Sie der Verknüpfung zu Entrez-Nucleotide. Anmerkung Bei den Sequenzen handelt es sich hauptsächlich um mitochondriale DNA. Mitochondrien-DNA ist recht stabil und lässt sich noch am besten aus sehr altem organischem Material isolieren und sequenzieren. (5) Würden Sie Studien über Erbkrankheiten beim Menschen in der Tierspezies Galagos durchführen? Lösungsansatz Recherchieren Sie im Taxonomy-Browser nach Galagos, um sich ein Bild von der Abstammung zu machen. Mehr Informationen zur Tierart gibt es auch im Internet.
156
Anhang
Anmerkung Für derartige Studien wäre es gut, an einem Modellorganismus zu arbeiten, um vergleichbare Ergebnisse und schnelle Erfolge zu erzielen. Galagos erfüllen nicht die Bedingungen für Modellorganismen. (6) Substantial data are available for two species of filarial nematodes that are human parasites. Use the Taxonomy Browser to examine the number of nucleotide sequences for the superfamily Filaroidea and determine which species these are. How many nucleotide and protein sequences are there for each of these two species? Display nucleotide records for each of these. What kinds of sequences are most of these? (Quelle: http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html) Lösungsansatz Filaroidea hat einen Rechtschreibfehler. Suchen Sie daher im Taxonomy Browser über „phonetic name“ (Pull-down-Menü für die Suchbox). Sie erhalten die Auswahl zwischen Filarioidea und Onchocercidae [synonym: Filariidae]. Wählen Sie Filarioidea. Zwei Einträge (Brugia malayi und Wuchereria bancrofti) sind mit „lymphatic filariasis“ beschrieben, eine Infektion der lymphatischen Organe. Anmerkung Wenn Sie diese Beschreibungen nicht sehen würden, müssten Sie nach anderen Indizien für die Auswahl der Organismen suchen. Lassen Sie sich zu den Organismen alle Nukleotid- oder Proteinsequenzen anzeigen. Die pathogenen Organismen haben die meisten bekannten Sequenzen. Das ist oft der Fall, da die Forschung in erster Linie auf pathogene Organismen fokussiert ist, da sie für uns Menschen von starkem Interesse sind. In den Datenbankeinträgen von Brugia malayi und Wuchereria bancrofti gibt es einen weiteren Hinweis auf die Pathogenität der Organismen. Hier führt eine Verknüpfung zu den relevanten Webseiten des „National Center for Infectious Diseases“.
Zu Kapitel 3 (1) Welchen genetischen Code würden Sie für die Translation von Moneuplotes crassus-Sequenzen anwenden? Was sind die Besonderheiten in diesem genetischen Code? Lösungsansatz Suchen Sie im Taxonomy-Browser nach dem Organismus. In dem Datenbankeintrag ist der genetische Code (Translation table 10) angegeben, verknüpft mit Erklärungen über die Besonderheiten in dieser Kodierung.
Lösungsansätze und Anmerkungen zu den Übungen
157
Anmerkung Nicht alle Translationen in Eukaryoten folgen der Standardkodierung. Stöbern Sie einmal in den genetischen Kodierungen (http://www.ncbi.nlm.nih. gov/Taxonomy/Utils/wprintgc.cgi?mode=c), um sich mit den Besonderheiten in der ein oder anderen Translations-Tabelle vertraut zu machen und sie zu verstehen. (2) Charakterisieren Sie die Proteinsequenz SWISS_PROT Accn.no P35523 mit ProtParam, Compute pI/Mw und PeptideMass. • Was sind die Parameter der potentiellen extrazellulären Domäne des Proteins (aa 858-988)? • Welche Peptide entstehen bei einem tryptischen Verdau des Proteins? Lösungsansatz Die Programme finden Sie auf http://www.expasy.org/, dem ExPASy Proteomics server, hier rechts unter „Tools and software packages“ unter den Seiten der „Proteomics and Sequence Analysis Tools“. Unter dem ersten Unterpunkt: „Identification and characterization“ kann man die einzelnen Charakteristika nach Eingabe der Accession-Nummer mit nur einem Maus-Klick erhalten. (3) Welche Enzyme benötigen Selen als Co-Faktor? Lösungsansatz Bei der Datenbank ENZYME (ExPASy; http://www.expasy.org/enzyme/) gibt es unter „Access to ENZYME“ die Suchfunktion „Search by cofactor“. Suchen (und klicken) Sie dort das Element „Selenium“. Sie finden 4 Enzyme (z.B. Glutathione peroxidase), die Selen als Cofaktor benötigen.
Zu Kapitel 4 (1) Welche Gene liegen auf dem Mitochondrium-Genom der Maus (NC_ 006914)? • Wie können sie schnell das Gen „cytochrome c oxidase“ finden? • Erläutern Sie die Indexierung des GenBank Flat Files. Was für eine Art Referenzsequenz ist hier hinterlegt und in welchem Status der Überarbeitung ist es? Lösungsansatz Suchen Sie in Entrez-Nucleotide (NCBI Homepage) mit der angegebenen Accession-Nummer. Klicken Sie im Ergebnis (nur 1 Hit, da RefSeq-Acc. Nr. eingegeben wurde) auf die Accession-Nummer. Die Sequenz wird Ihnen im GenBank Flat File Format angezeigt. Es handelt sich um ein sehr langes Dokument (DNA-Sequenz von 16300 bp). Im CDS-Bereich von 5328..6872 bp findet man dann das Product=“cytochrome c oxidase subunit I“.
158
Anhang
Für eine schnellere Suche nach cytochrome c oxidase in dem Dokument eignet sich daher die allgemeine Suchfunktion für lange Texte, die durch die Tastenkombination ctrl + f aufgerufen werden kann. Suchen Sie nach dem Enzym und tragen Sie den Namen ins Suchfeld ein. Im nächsten Schritt suchen Sie über die gleiche Funktion nach dem Wort product (mehrmals Weitersuchen anklicken). Unter dieser Indexierung sind die Genprodukt-Namen des Genoms aufgeführt. Sie sehen, dass auf dem Genom u. a. viele Enzyme der Atmungskette sowie viele tRNAs kodieren.
Zu Kapitel 5 (1) Gehen Sie zu den verschiedenen Datendomänen am NCBI und machen Sie sich mit den „Limits“-Funktionen insbesondere von Entrez-Nucleotide, Entrez-SNPs und auch der Literaturdatenbanken Entrez-PubMed und Entrez-OMIM vertraut. Auch bei PubMed wird Entrez zur Suchanfrage genutzt! Die Handhabung der Suchmaschine sollte Ihnen soweit vertraut werden, dass Sie alle Recherchen am NCBI zumindest über die „Limits“-Einstellungen fokussieren können. PubMed hat darüber hinaus noch viele weitere Besonderheiten aufzuweisen, wie z.B. eine Suche über ein kontrolliertes Vokabular, den MeSH-Terms (Medical Subject Headings). Lösungsansatz Folgen Sie den Anweisungen des Workflows in Kap. 5 (ONLINE-Demo zu Entrez). (2) Suchen Sie eine repräsentative Nukleotidsequenz von „presenilin 1“ des Menschen. Sie wissen nicht, ob die Suchanfrage mit oder ohne Leerzeichen bzw. mit Bindestrich geschrieben wird und was besser ist. Wie gehen Sie vor? Was können Sie tun, um die Suchanfrage zu fokussieren? Lösungsansatz Presenilin 1 ist ein gut charakterisiertes Gen. Gehen Sie zu Entrez CoreNucleotide. Zwei Recherchen, einmal nach presenilin 1 (632 Treffer) und einmal nach presenilin1 (5 Treffer) zeigen den Unterschied für den Gebrauch von einer Suche mit bzw. ohne Leerzeichen. In den angegebenen Referenzsequenzen wird die gebräuchliche Schreibweise deutlich. Hier erscheint das Suchwort zum Teil auch im Titel. Ein Bindestrich ist für Entrez-Datenbanken nicht gebräuchlich. Anmerkung Um eine Recherche im Vorfeld zu testen, können die Suchworte im Preview/ Index aufgestöbert werden. Eine geringe und dennoch signifikante Treffermenge erhalten Sie, wenn Sie das Suchwort auf das Suchfeld Titel (d.h. Definition line) einschränken. Vergleichen Sie hierzu auch eine Suche für presenilin 1 in [All Fields] (632) und presenilin 1 im Titelfeld [titl] (86) über die Preview/ Index Funktion.
Lösungsansätze und Anmerkungen zu den Übungen
159
Search for: presenilin 1 [titl] AND human [orgn], 1 RefSeq. Ergebnis: NM_000021 ist die Ref.seq. vom Homo sapiens presenilin 1 (Alzheimer disease 3) (PSEN1), mRNA (3) Suchen Sie nach „glyceraldehyde-3-phosphate dehydrogenase“-Sequenzen unter Berücksichtigung von Rechtschreibfehlern in den GenBank-Einträgen. Lösungsansatz
Die Abbildungen zeigen den aufgeschlagenen Index für „All Fields“ mit den Einträgen für glyceraldehyde-3-phosphate dehydrogenase. Die Phrasen zeigen, dass es in GenBank viele Einträge mit Rechtschreibfehlern gibt. Wollte man eine vollständige Recherche nach diesen Sequenzen durchführen, so muss man alle Schreibweisen auswählen und im Suchfeld mit OR verknüpfen. (4) Suchen Sie nach Kinasesequenzen mit einer Promotorregion der Maus. Lösungsansatz Eine Suchanfrage nach diesen Sequenzen lautet: promoter[Feature key] AND mouse[organism] AND kinase (42 Treffer in EntrezNucleotide, darunter 5 RefSeq; Stand: Jan. 2007) (5) Suchen Sie in Entrez-Nucleotide alle „reviewed RefSeq human mRNAs“. Lösungsansatz Eine Suchanfrage nach diesen Sequenzen lautet: „srcdb refseq reviewed“[Properties] AND human[orgn] (Ergebnis:: 11352; Stand: Jan. 2007)
160
Anhang
(6) Welche Gene wurden für Brustkrebs bei jungen Frauen (Early Onset Breast Cancer) identifiziert? Gehen Sie über Entrez CoreNucleotide. Lösungsansatz Versuchen Sie eine Suche mit dem genauen Wortlaut “early onset breast cancer”. Kontrollieren Sie Ihr Ergebnis mit der Details-Funktion. Ohne PhrasenAnführungszeichen ist die Query Translation folgende: Early[All Fields] AND Onset[All Fields] AND „Breast Cancer“[Journal]. Hierfür werden keine Treffer gefunden. Was würden Sie ändern? Editieren Sie die Suche unter “Details” und klicken Sie auf Search. Ihre Suchanfrage sollte jetzt lauten: „early onset“[All Fields] AND „Breast Cancer“[All Fields] (die 90 Treffer sind ein überschaubares Ergebnis). (7) Welche Gene kodieren für Proteine zum Kupferionentransport (copper ion transport)? Lösungsansatz „copper ion transport“ deutet auf eine Gen-Ontologie zur Beschreibung einer molekularen Funktion hin. Versuchen Sie eine Recherche bei geneontology.org. Als Ergebnis kommen Sie über AmiGO zu einer Liste von Genen, die mit der Funktion Copper Ion Transport SPCC1672.04c mitochondrial copper ion transport protein (Klick darauf) beschrieben werden. (8) Vergleichen Sie für die Suchanfrage Homo sapiens [orgn] die Ergebnisse in Entrez-Nucleotide und Entrez-Genome. Wie viele Treffer gibt es in der jeweiligen Domäne? Warum? Anmerkung In Entrez-Genome sind die vollständig sequenzierten Chromosomen aufgeführt. Es gibt 51 Einträge für das menschliche Genom. Dies sind die 24 Chromosomen (22 + x + y) und das Mitochondrium-Genom des Referenz-Assemblys (NCBI), sowie die des alternativen Genom-Assemblys von Celera-Genomics und ein weiterer Eintrag für das Chromosom7. In Entrez-Nucleotide finden Sie alle eingetragenen menschlichen Sequenzen. (9) Sie wollen im Genom von Escherichia coli das Riboflavin-B-Gen (ribb) lokalisieren. Wie gehen Sie vor? Lösungsansatz Mit der Suchanfrage Escherichia coli[orgn] in Entrez-Genome erhalten Sie viele Plasmidsequenzen, die Sie eliminieren sollten. Wie können Sie die Suche einengen? Versuchen Sie die Suchanfrage: Escherichia coli[orgn] NOT plasmid[titl]. Wie viele Treffer erhalten Sie? Gehen Sie zur Accession-Nummer NC_000913 für E. coli K12. • Interpretieren Sie das grafisch dargestellte Genom.
Lösungsansätze und Anmerkungen zu den Übungen
161
• Das Genom ist zirkulär dargestellt. Die nach außen zeigenden Striche (Speichen) repräsentieren die auf dem Plus-Strang kodierenden Gene, die nach links zeigenden Speichen die auf dem Minus-Strang kodierenden Gene. Die Farben folgen der Farbgebung der COGs Datenbank (s. COGs functional categories: http://www.ncbi.nlm.nih.gov/genomes/static/c.gif). Ein Ausschnitt des Genoms wird links von der Grafik dargestellt. • Suchen Sie das Gen ribB. Das Gen finden Sie entweder in der Proteinliste unter Protein coding (in der Tabelle, 2. Spalte) oder es wird Ihnen nach einer Suche unter der Funktion Search gene, GeneID or locus_tag: ribb in der Grafik angezeigt. Von beiden Einträgen gelangen Sie zu mehr Informationen für ribb. • Welche Analyse-Möglichkeiten haben Sie ausgehend von Entrez-Genome? Gemeint sind die vielen Analyse-Möglichkeiten, die in der Tabelle unter den Spalten Genome Info, Features, BLAST homologs, Links und Review Info aufgeführt sind. Die jeweiligen Verknüpfungen zeigen die mit der Suchanfrage zu diesem Genom vorprogrammierten Anwendungen bzw. deren Ergebnisse. (10) Der folgende Artikel beschreibt die Klonierung und Charakterisierung von Heparinsulfat-2-O-Sulfatase aus Flavobacterium heparinum. Obwohl die Datenbanken PubMed und Entrez-Nucleotide miteinander verknüpft sind (Hardlinks), und aufgrund des Titels auf jeden Fall Sequenzen in Entrez-Nucleotide zu finden sein müssten, können Sie keine Verbindung zwischen dem Artikel und Entrez-Nucleotide finden. Welche Sequenzen sind mit hoher Wahrscheinlichkeit in diesem Artikel beschrieben? Suchen Sie die Sequenzen in EntrezNucleotide. • Myette JR, Shriver Z, Claycamp C, McLean MW, Venkataraman G, Sasisekharan R The heparin/heparan sulfate 2-O-sulfatase from Flavobacterium heparinum. Molecular cloning, recombinant expression, and biochemical characterization. J Biol Chem. 2003 Apr 4;278(14):12157-66. Epub 2003 Jan 7. Lösungsansatz Suchen Sie nach den Autoren des Artikels in Entrez-Nucleotide. Limitieren Sie die Suche auf den Organismus und geben Sie „sulfatase“ als zusätzliches Suchwort ein. Die Suchanfrage lautet Sasisekharan R AND Flavobacterium heparinum [orgn] AND sulfatase. Bei den 6 angezeigten Sequenzen handelt es sich um patentierte Sequenzen. Beachten Sie: Wenn man alle Autoren im Suchfeld eingeben würde, würde man keinen Treffer erhalten! Die Suche über den Letzt- bzw. Erstautor ist erfolgversprechend, theoretisch müßte man nach jedem einzelnen Autor die Suche vornehmen, wenn mit allen Autoren kein Ergebnis gefunden wird.
162
Anhang
Anmerkung Der Name des Bakteriums ist Pedobacter heparinus. Suchen Sie nach Flavobacterium heparinum im Taxonomy-Browser und bestätigen Sie die Synonyme für den Organismus.
Zu Kapitel 6 (1) Sie haben einen PCR-Primer mit der Sequenz 5’-CAGGCATCCAGCGGT CAAGTCGAG-3’. Führen Sie eine BLASTN-Suche durch. Um welche Sequenz(en) handelt es sich? • Ist der Primer spezifisch? • Können damit auch ähnliche Sequenzen aus anderen Organismen amplifiziert werden? Lösungsansatz Für diese BLASTN-Suche sind die Standardeinstellungen unzureichend (NCBI BLAST anklicken, Primerseq. in Searchfield eingeben, now BLAST!-Button anklicken, warten, bis sich die nächste Seite öffnet, dann auf den Format!-Button klicken; hier gäbe es keine Hits, weil die Wortlänge zu hoch und die E-Werte zu niedrig sind). Für eine Primer-Analyse müssen die Parameter auf kurze Sequenzen angepasst werden. Am besten nehmen Sie das BLAST-Programm „Search for short, nearly exact matches“ (Sensitive search suitable for queries shorter than 25 bp). Dann wechseln Sie die Datenbank „Human genomic plus transcript“ in die „nr“ Datenbank, da Sie auch an den Treffern für andere, nicht menschliche Organismen interessiert sind. Gehe zu: Choose database: hier: Others (nr etc.) markieren. Die Treffer zeigen nur eine Sequenzähnlichkeit für Aquaporin 1 (Maus), die sich über die volle Primer-Länge (Identities 24/24=100%) erstreckt. Der Primer ist sehr spezifisch. Alle Sequenzen, die keine vollständige Sequenzidentität bis zum 3’ Ende zeigen, können mit diesem Primer nicht amplifiziert werden. (2) As the database grows, so does the number of chance occurrences of amino acid motifs that spell out words or people‘s names in single-letter amino acid codes. One such name motif is ELVIS. Find the number of occurrences of ELVIS in the protein nr. To get any hits at all, you will have to adjust several of the advanced BLAST parameters including the Expect value, Word size, and Score Matrix. (http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html) Anmerkung „NCBI Protein Blastp: ELVIS“ im Searchfeld eingeben, da hier keine Treffer gefunden werden, danach mit „Search for short, nearly exact matches“ versuchen. Auch hier findet man keine Hits, wenn man nicht im Options-Feld den E-value (Expect auf 25000) heraufsetzt. Die Ergebnisse dieser Frage verdeutlichen den Zusammenhang von Score und E-Value. Mit einer kurzen Sequenz können keine hohen Scores erzielt werden.
Lösungsansätze und Anmerkungen zu den Übungen
163
Demnach kann auch ein E-Wert nicht annähernd Null werden. Hinzu kommt, dass die Datenbank immens groß ist und die Größe der Datenbank ein Multiplikator in der Berechnungsformel für den E-Wert ist. Versuchen Sie eine Suche über BLASTP für kurze Sequenzen. Der E-Wert muss selbst auf dieser Seite heraufgesetzt werden (z.B. auf 25 000), um mit einer Suche überhaupt Treffer zu erzielen. (3) Wählen Sie eine der angegebenen Accession-Nummern für DNA-Sequenzen zur Beantwortung der unten aufgeführten Fragen (Accn.: AF008124 oder AF014960 oder U92650 oder Y11250). • Wie finden Sie die korrespondierende Proteinsequenz? • Wie können Sie sich nur die Arabidopsis Sequenzen der BLink Ergebnisse anzeigen lassen? • Wie viele ähnliche Sequenzen gibt es beim Menschen? • Haben die Proteine charakteristische Domänen? • Gibt es eine 3-D-Struktur von den Proteinen? • Wie können Sie die Sequenzen im FASTA-Format speichern? Lösungsansatz Zur Beantwortung der Frage brauchen Sie BLink, den BLAST-Link. Sie suchen eine der angegebenen Accession-Nummern (Entrez-Nucleotide) und gehen von dort über die „Hardlinks“ (auf Links ganz rechts klicken) im Pull-down-Menü auf Protein und bekommen über Entrez-Protein die Protein-Accession-Nummer angezeigt. Den BLAST-Link BLink (ganz rechts) gibt es nur für Entrez-Protein. Alle weiteren Fragen können mit BLink beantwortet werden. Die unter „3D structures“ aufgeführten Sequenzen haben eine charakterisierte 3-D-Struktur in der NCBI-Datenbank MMDB (Molecular Modeling Database) und können in der Betrachtungssoftware für 3-D-Strukturen, Cn3D, angesehen werden. Die Software muss vorher auf dem Rechner installiert werden. Ein freier Download befindet sich auf den Seiten von Entrez-Structure (http://www.ncbi.nlm.nih. gov/Structure/; gehe zu Cn3D). Für das Speichern der Sequenzen im FASTAFormat müssen Sie über den Link „GI-List“ zu Entrez-Protein. Von hier können die Formate unter dem Menü „Display“ z.B. in das FASTA-Format verändert werden. (4) Sie möchten die Evolution eines Hitzeschockproteins (Chaperone protein dnaK (Heat shock protein 70) aus Streptomyceten studieren (Accession-Nummer: Q826F6). Dafür wäre der beste BLAST-Treffer in Eukaryoten interessant für Sie. Wie finden Sie ihn? Lösungsansatz Gehen Sie von der Accession-Nummer in Entrez-Protein zu BLink. Klicken Sie auf „Best hits“. Hier werden alle Organismen aufgeführt, von denen es Ergebnisse für die BLAST-Suche gibt. Die jeweils besten Treffer sind dargestellt. Zusätzlich können von diesen besten Treffern alle weiteren des jeweiligen Organismus erreicht werden. Suchen Sie nach dem ersten eukaryotischen Orga-
164
Anhang
nismus in der Liste unter „Best hits“ (durch Klick auf „12 Other Eucaryota“, dann steht Chlamydomonas reinhardtii an erster Stelle). Es handelt sich um ein Protein in Chlamydomonas reinhardtii. (5) Ihr Protein (epidermal growth factor receptor – Accession-Nummer 1007208A) hat eine Tyrosine-Kinase-Domäne. Hat das Protein noch andere Domänen? • Sind diese anderen Domänen in weiteren Proteinen bekannt? Lösungsansatz Von dieser Accession-Nummer in Entrez-Protein gehen Sie zu BLink. Von dort klicken Sie auf die Verknüpfung zur „Conserved Domain Database“ (CDDSearch). Hier zeigt sich, dass das Protein mehrere Domänen hat. Informationen zu den Domänen gibt es dann mit einem Maus-Klick auf die jeweilige Domäne. Für eine ausgewählte Domäne erhält man auf der Folgeseite weitere Informationen über: Links, Statistics, Structure und Hierarchy (steht linksseitig). Unter Links findet man einen Unterpunkt „Protein“, hierunter steht „architectures“. Beim Klick darauf kommt man zu CDART, dem „Conserved Domain Architecture Retrieval Tool“. CDART sucht die Proteine, die diese und weitere/andere Domänen enthalten. (6) Bei einer BLAST-Suche für Ihre Nukleotidsequenz (entnommen von der Internetseite: www.biotools.info/compo1.html , Sequenz A) gibt es ähnliche Sequenzen für zwei unabhängige Regionen. Welche der beiden Regionen ist für die Genfunktion bedeutungsvoller? • Kopieren Sie die Sequenz von der Webseite in die Standard BLASTN-Suchoberfläche und starten Sie das Programm. Was zeigt das Ergebnis? • Nehmen Sie die gleiche Sequenz zur Durchführung von VecScreen. Lösungsansatz VecScreen ist auf der NCBI Homepage unter „Hot Spots“ (Auflistung rechts) sowie auf der BLAST-Programm Seite unter „Special“ (unten links: Screen for vector contamination) aufgeführt. Gibt man in das Search-Feld von VecScreen die Sequenz A (composition 1) ein, so findet das Programm eine 160 bp lange Verunreinigung am 3’-Ende, die vom VektorpBluescript II KS(+) vector DNA stammt. (7) Suchen Sie über Entrez-Protein (NCBI) nach dem Eintrag für das CFTR-Protein (cystic fibrosis) aus der Datenbank SWISS-PROT. Welches ist die häufigste Mutation unter der weißen Bevölkerung und was bewirkt sie beim Menschen? • Welche Rolle spielen ähnliche Proteine in dem Organismus Fundulus heteroclitus? • Um welchen Organismus handelt es sich? • CFTR besitzt konservierte Domänen, die zu Bakterienproteinen homolog sind. Diese erscheinen nicht unter BLink (warum nicht?). • Wie können Sie die Bakterien-Sequenzen recherchieren? Wie viele sind es?
Lösungsansätze und Anmerkungen zu den Übungen
165
Lösungsansatz Suchen Sie in Entrez-Protein nach dem CFTR-Protein und limitieren Sie die Suche auf die Datenbank „Swiss-Prot“ (unter „Limits“; rechts: „only from“ (Pull-down-Menü: SwissProt.)) Die gesuchte Accession-Nummer ist P13569 (erster Hit). Klicken Sie auf die Nummer. Suchen Sie mit „Find“ (ctrl F) nach „most common mutation“. Hier finden Sie die häufigste Mutation in der weißen Bevölkerung. • Zur weiteren Recherche benutzen Sie „BLink“ um ähnliche Proteine zu finden. Suchen Sie mit der Funktion „ Best Hits“ nach Fundulus heteroclitus (dann auf AAC41271 klicken und über Link im Pull-down-Menü „Taxonomy“ auswählen). Der Organismus ist mit der Taxonomie-Datenbank verknüpft. Hier bekommen Sie Auskunft zur Spezies. Es ist der „(killifish), species, bony fishes“. Gehen Sie zu den PubMed-Einträgen dieses Dokumentes (rechts über Links im Pull-down-Menü „PubMed via GenBank“ auswählen, 50 Items, Stand: Jan. 2007), um herauszufinden, welche Rolle das Protein in diesen Tieren übernimmt. • Gehen Sie zu den „Related sequences“ des SWISS_PROT-Eintrags (Entrez Protein: P13569 eintragen, Limits: SwissProt; rechts über Links im Pulldown-Menü „related Sequences“ auswählen). Hier finden Sie auch ähnliche bakterielle Sequenzen (100644 Hits!). Sie erschienen nicht unter BLink, da nur maximal 200 Treffer in BLink aufgeführt sind und die Ähnlichkeiten nicht so groß sind, um unter den ersten 200 Treffern über BLAST gefunden zu werden.
Zu Kapitel 7 (1) Suchen Sie mit Hilfe des NCBI MapViewers nach Genen, die für die Erbkrankheit zystische Fibrose (cystic fibrosis) verantwortlich sind. Wie viele Genorte werden angegeben? • Sind diese Genorte in Gen-Clustern zusammengefasst oder über das Genom verteilt? • Welches Gen liegt auf Chromosom 7? • Suchen Sie STS-Marker im Gen, um die genetische Disposition von Individuen untersuchen zu können. a. Wie lautet die STS-ID in UniSTS-Datenbank? b. Welche PCR-Primer eignen sich, um die STSs zu amplifizieren? c. Wie lang wäre das PCR-Fragment, das amplifiziert werden würde? Lösungsansatz Wenn Sie im MapViewer vom menschlichen Genom nach cystic fibrosis suchen (NCBI Homepage; rechts: HotSpots: Map Viewer: Vertebrates: Mammals: Blast Homo sapiens (human) Build 36) im Search-Feld „cystic fibrosis“ eintragen (177 Hits), dann rechts „Quick Filter: Gene“ anklicken, so erhalten Sie 6 Hits an drei Genorten, auf Chr 1, 7 und 19 (Stand Jan. 2007). Danach klicken Sie auf CFTR (gene-RefSeq auf Chr 7), dann öffnet sich der Map Viewer mit
166
Anhang
seinen Map elements. Für die Suche nach genetischen Markern legen Sie sich die STS-Karte als Mastermap (öffnen von Maps Options, links STS-Karte add, als letzte Karte verschieben, dann Mastercard) neben die Genes_seq Karte und recherchieren Sie die STS-Informationen. Gehen Sie z.B. im Map Viewer unter „Marker“ auf ECD 12874, dann öffnet sich UniSTS:293906 mit Angabe der Sequenzen eines Primerpaars für diesen Marker. Das PCR-Produkt wäre 533 bp lang. Primer-Paare werden direkt in der Datenbank der STS-Marker, UniSTS, aufgeführt. (2) Nennen Sie mindestens vier Gene eines „best RefSeq“ Gen-Modells im Bereich 11q13.1. Kann man die Gene auch in Tabellenformat ansehen? Lösungsansatz Sie gehen vom MapViewer zum Genome-View des menschlichen Genoms (Build 36). Hier klicken Sie auf Chromosom 11. Auf der linken Seite können Sie die gewünschte Region (von 11q13.1 bis 11q13.1) eingeben. Im Fenster wird diese Region eingestellt (angezeigte Region entspricht: 63,100-67,100K bp). Zur Beantwortung der Frage muss die Genes_seq-Karte die Masterkarte sein, d. h. ganz rechts auf dem Bildschirm angezeigt werden. Das Tabellenformat erhalten Sie über eine Verknüpfung bei den Beschreibungen der Karten, die unten im Fenster erscheinen. Ergebnis: 4 Beispiele von bestRef Seq Genen auf 11q13.1: BCL2-antagonist of cell death CDC42 binding protein kinase gamma (DMPK-like) glycoprotein hormone alpha 2 AYP1 protein (3) Suchen Sie das Gen ACTN3. Benutzen Sie den „Sequence View“ um den Transkriptionsstartpunkt zu lokalisieren. Wo ist das erste Exon? Welche sind die ersten 5 Aminosäuren? Wie lang ist das erste Intron? Lösungsansatz Zur Beantwortung der Frage suchen Sie das Gen ACTN3 im MapViewer und gehen über den sv-Link zum Sequence-Viewer. Für diese Verknüpfung muss die Genes_seq-Karte die Masterkarte sein. Map Viewer, Build 36, hier Eingabe im Search-Feld: ACTN3; Ergebnis: 22 Hits auf 2 Chromosomen (1 und 11), RefSeq des Gens liegt auf Chr. 11 (Quick Filter: Gene); auf die rosa markierte Zeile unter Links zum „sv“ (Sequence view) gehen. Erste Exon beginnt an der 11620186. Base. Die ersten 5 AS sind: MMMVM. (4) Speichern Sie die Sequenz zwischen den Markern RH120891 und SHGC86179 in einer Datei auf Ihrem Computer.
Lösungsansätze und Anmerkungen zu den Übungen
167
Lösungsansatz Suchen Sie im MapViewer auf den Seiten des menschlichen Genoms die Marker mit der Suchanfrage RH120891 OR SHGC-86179. Die beiden Treffer (4 Hits auf Chr 18, 2 Hits unter dem Assembly: reference) werden im GenomeView angezeigt. Hier klicken Sie auf all matches für das Assembly „reference“. Die Marker liegen ungefähr bei den Basen 29 920 000 und 31 750 000 auf Chromosom 18. Klicken Sie zwischen den Markern auf die ChromosomenKarte, um den Ausschnitt genauer zu untersuchen (Zoom in 4x). Klicken Sie jetzt auf die Marker, um genauere Informationen zu erhalten. Sie gelangen so in die Datenbank UniSTS. Der Marker RH120891 fängt mit bp 29 922 056 an, der Marker SHGC-86179 hört mit dem bp 31 746 057 auf (s. jeweils unter „Mapping Information“ RH120891 Sequence Map: Chr 18; nicht vom CeleraAssembly). Sie wollen also die Sequenz von bp 29 922 056 bis bp 31 746 057 speichern. Dafür klicken Sie auf den Link „Download/View Sequence/Evidence“ (oben rechts im Bild). Es öffnet sich ein Fenster, in dem Sie die gewünschte Region eingeben. Die Sequenz selbst wird von einer Contig-Sequenz mit der Accession-Nummer NT_010966.13 bezogen, die der Nummerierung des Contigs und nicht der Nummerierung des Chromosoms entspricht. Klicken Sie auf „Save to disk“, um die Sequenz zu speichern (siehe Abb.).
(5) Sie untersuchen Glyceraldehyd-3-Phosphat-Dehydrogenase (GAPDH) und haben zuverlässige Informationen aus der Datenbank RefSeq und Entrez-Gene zusammengetragen (RefSeq Accession-Nummer: NM_002046). Die Sequenz befindet sich auf Chromosom 12. Über eine BLAST-Analyse gegen das menschliche Genom finden Sie viele sehr ähnliche Sequenzen, die über das ganze Genom verteilt sind. Gehen Sie von den BLAST-Ergebnissen über den Link „Genome View“ zum MapViewer, um die Ergebnisse dort zu betrachten. Um welche Sequenzen handelt es sich bei diesen Treffern? Lösungsansatz Beginnen Sie mit einer BLAST-Suche gegen das menschliche Genom und gehen Sie von den Ergebnissen über den „Genome View“ zum MapViewer.
168
Anhang
Klicken Sie auf ein beliebiges Chromosom. Die Sequenzähnlichkeiten werden Ihnen angegeben. Sie liegen alle bei ca. 85% Ähnlichkeit plus/minus 10%. Solche Ähnlichkeiten findet man für Pseudogene. Da es sich bei GAPDH um ein sogenanntes Haushaltsgen handelt (housekeeping gene) und Pseudogene für viele Haushaltsgene zu finden sind, liegt die Vermutung nahe, dass Sie mit dieser Suche diese Pseudogene gefunden haben. Versuchen Sie über die angegebenen Verknüpfungen zu den Informationen der Pseudogene in Entrez-Gene zu gelangen. Auch Pseudogene sind in Entrez-Gene aufgeführt.
Zu Kapitel 8 (1) Suchen Sie nach Referenz-SNPs für menschliche Polymorphismen von Mikrosatelliten-DNA (kurze Wiederholungssequenzen). Wie können Sie schnell sehen, welche Submitted-SNPs (ss#) im Cluster vorkommen? • Welche SNPs haben ein Allel für A oder C (M) bzw. A, C oder T (H)? Lösungsansatz Benutzen Sie Entrez-SNP und die „Limits“-Funktion, um die Suche auf die Polymorphismen für Mikrosatelliten-DNA und auf den menschlichen Organismus einzugrenzen. Sie benötigen kein Suchwort im Suchfeld, um die Suche zu starten. Die Trefferliste wird in der Darstellung „Graphic Summary“ angezeigt. Wechseln Sie zur Beantwortung der Fragen unter der Display-Funktion zu den Einstellungen „RS Cluster Report“ bzw. „FASTA“. (2) Wie viele SNPs befinden sich auf dem X-Chromosom zwischen den STS-Markern DXS1501 und WI-21664? Sortieren Sie die SNPs nach der Reihenfolge ihres Vorkommens. Lösungsansatz Suchen Sie auf der NCBI Homepage unter Hot Spots: dbSNP. Auf der SNPSeite findet man fast ganz unten „Between Markers“ nach den SNPs zwischen den angegebenen Markern. Die SNPs werden in Entrez-SNP gezeigt (2890 Hits). Wechseln Sie zur Beantwortung der Frage die Sortierung („Sort by“) zu der Option „Chromosome Base Position“, um die SNPs in der Reihenfolge ihres Vorkommens angezeigt zu bekommen. (3) Mutationen im BRCA1-Gen werden für die Erkrankung an Brustkrebs in jungen Jahren verantwortlich gemacht. Suchen Sie nach allen nicht-synonymen SNPs für BRCA1. Wie viele SNP-Cluster können Sie finden? Zeigen Sie die Einträge auch auf einer Chromosomenkarte. Lösungsansatz Benutzen Sie Entrez-OMIM und die „Limits“-Funktion. Die Suchanfrage lautet: BRCA1 Limits: coding nonsynon, homo sapiens. Von jedem Treffer führt eine Verknüpfung zum MapViewer.
Glossar für Bioinformatik Accession number Alphanumerische Zugriffsnummer. Einmalig vergebenes Identifizierungsmerkmal für einen Datenbankeintrag, z.B. für eine Sequenz. Adenin
Eine Purinbase in den Nukleotiden von DNA oder RNA.
Algorithmus Ein Verfahren für die Lösung eines mathematischen Problems in einer begrenzten Anzahl von sich wiederholenden Schritten. Es gibt eine Vielzahl an Algorithmen und Bewertungs-Parametern, um Protein- oder DNA Sequenzähnlichkeiten zu recherchieren. Im Allgemeinen hängt die Wahl für den „besten“ Algorithmus von dem zu lösenden Problem ab. Algorithmen, die einen lokalen Vergleich errechnen, finden die Bereiche mit der stärksten Ähnlichkeit unter zwei Sequenzen und ignorieren die Unterschiede außerhalb der ähnlichsten Region. Sie sind am besten geeignet für die Recherche in Protein- und DNADatenbanken. Globale Vergleichs-Algorithmen sollten bevorzugt werden, wenn SequenzHomologien untersucht werden und ein phylogenetischer Baum berechnet werden soll. Alignment Sequenzausrichtung (-anordnung) von zwei oder mehreren Sequenzen (paarweises bzw. multiples Alignment). Ähnliche bzw. identische Nukleotide oder Aminosäuren sind so ausgerichtet, dass sie direkt untereinander geschrieben werden. Allel Verschiedene Zustandsformen eines Gens, die am gleichen Genort eines Chromosoms vorliegen. Sie sind für eine unterschiedliche polymorphe Ausprägung eines genetischen Merkmals verantwortlich. Jede Person besitzt an einem polymorphen Genort zwei Allele (auf jedem Chromosom eins), die identisch (homozygot) oder verschieden (heterozygot) sein können. Alternatives Spleißen Mechanismus in höheren Organismen zum Hervorbringen von unterschiedlichen mRNAs aus einer Vorläufer-(Prä-)RNA. Aufgrund der Nutzung unterschiedlicher Spleißstellen kommt es zu verschieden zusammengesetzten mRNAs, die für verschiedene Proteine kodieren. Eine mögliche mRNA wird als „Spleißvariante“ oder Spleißform bezeichnet. Alu-Sequenzen (Alu repeats) DNA-Abschnitte von ca. 300 bp Länge, die nur im menschlichen Genom vorkommen und sich oft wiederholen (500.000 x und öfter). Sie sind somit hochrepetitiv und machen etwa 3-6 % der Gesamt-DNA aus. Alu-Sequenzen gehören zur Klasse der SINE-Elemente (Short INterspersed Elements). Sie haben eine mittig gelegene Schnittstelle für das Restriktionsenzym Alu I. Aminosäure Kleinste Einheit der Proteine. Für die Synthese einer Aminosäuresequenz reagiert die am alpha-C-Atom gelegene Carboxylgruppe der einen AS mit der ebenfalls am 169
170
Glossar für Bioinformatik
alpha-C-Atom befindlichen Aminogruppe der zweiten AS unter Abspaltung von Wasser (Kondensation) zur Ausbildung einer Peptidbindung. Die entstandene Proteinsequenz hat somit ein N-terminales Ende (Anfang einer Proteinsequenz) und ein C-terminales Ende (Ende einer Proteinsequenz). Aminosäuren können aufgrund ihrer Eigenschaften in unipolare, polare und geladene Aminosäuren eingeteilt werden. Analogie Übereinstimmende Strukturen oder Merkmale zur Ausübung der gleichen Funktion in unterschiedlichen Organismen, die jedoch keinen Verwandtschaftsgrad auf molekularer Ebene aufweisen. So haben z.B. die Flügel von Vögeln und Insekten die gleiche Funktion (das Tier kann fliegen), die Struktur geht jedoch nicht auf einen Vorläuferflügel zurück. Beide Strukturen haben sich unabhängig voneinander entwickelt. Auch Proteine, die die gleiche Funktion ausüben, müssen nicht die gleiche Struktur oder eine Sequenzverwandtschaft aufweisen. Die Identifizierung von analogen Strukturen im Vergleich zu homologen Strukturen ist eine der wichtigen Aufgaben der Bioinformatik. Annotation Beschreibung einer Sequenz (DNA od. Protein) durch Verweise, Referenzen, Kommentare, experimentelle Daten, kontrolliertes Vokabular u. ä., um der Sequenz eine Bedeutung zu geben. In den Datenbanken wie z.B. Entrez-Gene und UniProt werden die Annotationen, d.h. die Informationen zu einem Gen oder Protein zusammengetragen. Anticodon Basentriplett im RNA-bindenden Bereich von tRNA-Molekülen, welches an die komplementäre Sequenz (Codon) auf einem mRNA-Molekül bindet. ARPANET Erstes Datennetz, welches durch die ARPA (Advanced Research Projects Agency, USA) gefördert wurde. Das verwendete Protokoll NCP (Network Control Protocol) war das erste Host-to-Host Protokoll. Ursprünglich (1970) waren vier dezentrale Rechner über das ARPANET verbunden. Applet Kleines Computerprogramm, meist in der Programmiersprache „JAVA“ geschrieben, welches nur lokal von dem Computer abgespielt wird, von dem es heruntergeladen wurde. ASCII American Standard Code for Information Interchange. Kodierung von Information durch 128 akzentfreie Zeichen (a-z, A-Z, 0-9 u. Sonder- und Steuerzeichen). Alternativ werden ASCII-Dateien auch als Plain-Text oder Flat-File bezeichnet. ASN.1 Format Abstract Syntax Notation One. Sprache zur Definition von Standards ohne Berücksichtigung der Implementierung (hardwareunabhängig sowie unabhängig von Programmiersprachen und Kodierungen). Assay Methode, um biologische Aktivität zu messen. Dabei kann es sich um Enzymaktivität, Bindungsaffinität oder Protein-Halbwertszeiten handeln. Die zu messenden Parameter müssen über Farbe, Fluoreszenz oder Radioaktivität sichtbar gemacht werden und mit der biologischen Aktivität korrelieren. Assembly (Sequenz-Assembly) Bildung einer langen Einheit (z.B. einer DNA-Sequenz) durch die Aneinanderreihung von überlappenden Einheiten (Sequenzen). Assemblies werden benötigt, um die Sequenzen aus „Shotgun“-Sequenzierungsprojekten zusammenzusetzen. Ein Beispiel einer Datenbank aus zusammengesetzten EST-Sequenzen (Expressed Sequence Tags) ist UniGene. UniGene Cluster eignen sich zur Analyse von Spleißvarianten (s. alternatives Spleißen) und zur Auffindung neuer Gene.
Glossar für Bioinformatik
171
Autosomen Chromosomenpaare, die in beiden Geschlechtern einer Art gleich sind (im Gegensatz zu den Geschlechtschromosomen x und y, den Heterosomen). Back-up Die Kopie von Daten auf andere (externe) Speichersysteme, um im Fall eines Computer-Absturzes schnell auf die letzten Arbeiten zugreifen zu können (Sicherungskopie). BAC Bacterial Artifical Chromosome. Künstliches Bakterienchromoson und Klonierungsvektor mit einer DNA-Aufnahmekapazität von ca. 300 kb. BankIt Tool zur Übermittlung von einer oder wenigen Sequenzen an das NCBI über das Internet (s. Sequin). Basen Kleinste Einheit der DNA und RNA. Die Abfolge (Sequenz) der Nukleotidbasen beinhaltet die genetische Information. Basenpaar Die in der DNA sich gegenüberliegenden Nukleotidstränge werden aufgrund der Baseneigenschaften zusammengehalten. Die Purinbase Adenin paart in der DNA mit der Pyrimidinbase Thymin, in der RNA mit Uracil; die Purinbase Guanin paart mit der Pyrimidinbase Cytosin. Jeweils 2 (A-T) bzw. 3 (G-C) Wasserstoffbrückenbindungen halten das Basenpaar zusammen. Binärdatei dateien.
Datei, die keinen lesbaren Text enthält, z.B. Programme, Bild- und Ton-
Biochip – siehe DNA-Microarray Bioinformatik (engl. bioinformatics oder computational biology) Das Feld der Bioinformatik umfasst sowohl die Entwicklung als auch die Anwendung logischer sowie mathematischer Konzepte (Datenbanken, Algorithmen und Programme) für die Bearbeitung und die Analyse von großen Mengen an biologischen Daten über den Computer. Biologie Lehre vom Lebendigen. Die Inhalte in der Biologie gliedern sich in die Protistenkunde, die Botanik (Pflanzenkunde), die Zoologie (Tierkunde) und die Anthropologie (Menschenkunde). Ziel ist es, die Lebewesen in Beziehung zu sich und ihrer Umwelt zu setzen. Dabei bedient man sich der Einzelwissenschaften wie z. B. der Anatomie, der Biochemie, der Entwicklungsbiologie, der Molekulargenetik, der Morphologie, der Ökologie und der Systematik. Biotechnologie Die Nutzung biochemischer und molekularbiologischer Techniken in der angewandten Forschung, der Produktentwicklung und der Produktion. BIT Score Normalisierte Bewertung eines Ergebnisses aus einer Sequenzähnlichkeitssuche (siehe BLAST). BLAST Basic Local Alignment Search Tool. Programm, dem ein modifizierter Smith/ Waterman-Algorithmus für eine Sequenzähnlichkeitssuche in Sequenzdatenbanken zugrunde liegt. Die Methode ist ziemlich sensitiv und sehr schnell. NCBI-BLAST ist ein Suchprogramm für eine Sequenz gegen alle zur Verfügung stehenden Sequenzdatenbanken in allen Suchkombinationen (BLASTN, BLASTP, BLASTX, TBLASTN, TBLASTX).
172
Glossar für Bioinformatik
BLink BLAST-Link. Erweiterung/Verknüpfung von Einträgen der Protein-Datendomäne am NCBI zu einer vorgefertigten BLAST-Suche. Die maximal 200 Ergebnisse in der BLinkListe sind über Standardsuchparameter gefundene Treffer aus der nr(non-redundant)Datenbank. BLOSUM BLOCKS Substitution Matrix. Die der Matrix zugrunde liegenden Daten entstammen der Datenbank BLOCKS, einem Datensatz mit lückenlosen Sequenzausrichtungen von Proteinfamilien. Die Matrizen sind entwickelt worden, um konservierte Proteindomänen zu finden. Auswahl an BLOSUM-Matrizen am NCBI: BLOSUM62, BLOSUM45 und BLOSUM80. Blunt end DNA-Ende ohne überhängende Nukleotidbasen, das aus einem Restriktionsverdau mit bestimmten Restriktionsenzymen hervorgeht (im Gegensatz zu „sticky end“). Boole’scher Operator/Boole’sche Logik AND (UND), OR (ODER), NOT (NICHT), NEAR (in der Nähe von) sind Bool‘sche Operatoren. Sie dienen der Verknüpfung von Suchwörtern in einer Suchanfrage (im Internet oder in einer Datenbank). Die Boole’sche Suche bedient sich einer Kommandosprache mit einer möglichen Suchfeldqualifizierung. Die Suchanfrage muss logisch gestaltet sein. Die Interpretation der Suchanfrage erfolgt von links nach rechts und kann durch die Benutzung von Klammern verdeutlicht werden, z.B. (Hämophilie OR Bluterkrankheit) AND Königsfamilie bzw. Königsfamilie AND (Hämophilie OR Bluterkrankheit). Die Suchsyntax für eine qualifizierte Suchanfrage lautet: Suchwort [Suchfeld] Boole’scher Operator Suchwort [Suchfeld] Boole’scher Operator Suchwort [Suchfeld] Boole’scher Operator u.s.w. Boot
Neustart des Computers nach einem Absturz (Crash).
Browser Computerprogramm zur Benutzung des WWWs (z.B. Internet Explorer, Mozilla Firefox, Opera, Netscape etc.). Bug Fehler in einem Computerprogramm, welches zu Fehlverhalten der Anwendung oder zum Absturz des Computers führt. Cap-Struktur Bezeichnung für den über eine 5‘-5‘-Triphosphat-Bindung an das 5‘-Ende von eukaryotischen mRNAs angehängten 7-Methylguanosin-Rest. Die Cap-Struktur ist charakteristisch für die durch RNA-Polymerase II transkribierten Gene (Klasse II-Gene). Die auch als Capping bezeichnete Modifikation der mRNAs erfolgt an der so genannten Cap-Site am 5‘-Ende der RNA. CAS Chemical Abstract Service. Abteilung der American Chemical Society, vergibt die CAS-Registrierungsnummern für Chemische Verbindungen. CCDS Consensus CoDing Sequence Database. Inhalt dieser NCBI-Datenbank sind humane proteinkodierende Regionen, die bisher einheitlich beschrieben wurden und deren Annotationen in hoher Qualität gewährleistet sind. Langfristig sollten die Daten mit dem humanen Referenzgenom übereinstimmen. CDART Conserved Domain Architecture Retrieval Tool. Über CDART können Proteine mit ähnlichen funktionellen Domänen, wie sie in der Suchsequenz enthalten sind, gefunden
Glossar für Bioinformatik
173
werden. Die Domänenstrukturen der gefundenen Proteinfamilien werden grafisch dargestellt. CDD Conserved Domain Database. Datenbank am NCBI, in der konservierte Proteindomänen hinterlegt sind, die durch eine PSSM beschrieben sind. Die Datenbank kann über RPS-BLAST recherchiert werden. cDNA (complementary DNA) DNA, die mit Hilfe des viralen Enzyms Reverse-Transkriptase von einer mRNA als Matrize hergestellt wird. Eine cDNA hat, wie die RNA, keine Introns. cDNA-Array
siehe DNA-Mikroarray.
cDNA-Bank
Genbank, bei der die Vektoren/Plasmide cDNA enthalten.
CDS Coding Sequence. DNA-Sequenz, die nach der Transkription in die Proteinsequenz translatiert wird. CERN European Organization for Nuclear Research (frz.: Organisation Européenne pour la Recherche Nucléaire vormals Conseil Européen pour la Recherche Nucléaire). CGAP Cancer Genome Annotation Project. Initiative des National Cancer Institute (NCI). Hier stehen viele Ressourcen für die Analyse von Genexpressionsdaten, RNAi und Mutationsanalysen in Bezug auf Krebs zur Verfügung. Chromat Populäres Datenausgabeformat nach einer automatischen DNA-Sequenzierung. Chromat-Dateien beinhalten die Informationen über die Stärke der Fluoreszens aus einer Sequenzierungsreaktion und erlauben eine Kontrolle über Messfehler an jeder Position in der Sequenz. CIB Center for Information Biology. Japanisches Bioinformatikinstitut, an dem u.a. die Nukleotiddatenbank DDBJ aufgelegt wird. Client Computerprogramme, die mit einem Server in Verbindung treten, wie z.B. WebBrowser, die auf Web-Server zugreifen. Clone siehe Klon/klonieren Cluster Gruppe von ähnlichen oder einander zugeordneten Objekten. Die Übereinstimmung der Objekte kann sich auf eine Ähnlichkeit in der Sequenz (Sequenzübereinstimmungen und Sequenzüberlappungen), aber auch auf ähnliche Expressionsmuster etc. beziehen. Im Prozess des Clustering werden die Objekte (Lebewesen, Sequenzen etc.) gruppiert und klassifiziert. Die Gruppen ähnlicher Objekte bezeichnet man als Cluster. In der Bioinformatik bedient man sich des Clustering, um neue Eigenschaften aus der Gruppe abzuleiten oder um zu abstrahieren. Clusterings von Genexpressionsdaten z.B. lassen Aussagen über co-regulierte Gene zu. Codon Grundeinheit des genetischen Codes. Eine aus drei Nukleotiden bestehende RNA-Sequenz (Basentriplett), die eine bestimmte Aminosäure oder ein Terminationssignal
174
Glossar für Bioinformatik
codiert. Für eine bestimmte Aminosäure können bis zu vier verschiedene Codons zur Verfügung stehen. Man spricht dabei vom degenerierten genetischen Code. Codon Usage Spezifische Verwendung der verschiedenen Codons für eine Aminosäure bei der Übersetzung der RNA-Sequenz in die Proteinsequenz. COG(s) Clusters of Orthologous Groups Database (NCBI). Datenbank zur Klassifizierung orthologer Proteine. Conformation Konformation. Die genaue dreidimensionale Anordnung von Atomen und Atombindungen in einem Molekül. Über die Konformation wird die Geometrie und somit die molekulare Funktion des Moleküls beschrieben. Consensus sequence Konsensus-Sequenz. Eine einzige Sequenz, die aus einer Sequenzausrichtung (Alignment) von mehreren Sequenzen die „beste“ repräsentiert. Oft werden in der Konsensus-Sequenz nur die identischen Aminosäuren (Nukleotide) angegeben. Allerdings gibt es für die Ermittlung von Konsensus-Sequenzen verschiedene Verfahren, um auch die Aminosäuren (Nukleotide) in den nichtidentischen Sequenzbereichen zu bestimmen (z.B. „Best-Fit“-Verfahren). Contig Zusammenhängendes (contiguous) genomisches Segment, das aus der Zusammenstellung von kleineren überlappenden Sequenzabschnitten zusammengesetzt wurde (meist durch bioinformatische Anwendungen). Convergence Der Endpunkt einer Analyse von Daten, die mit Hilfe von Algorithmen erfolgte (z.B. PSI-BLAST – Position Specific Interated BLAST). CpG-Inseln/CpG islands Dinukleotide 5’-CpG-3’, die in lokaler Anhäufungen in eukaryotischen DNAs vorkommen. Mit einem Auftreten von ca. 30000 dieser CpG-Inseln im haploiden Genom des Menschen sind diese Cluster relativ selten (statistisch ca. alle 100 kb). Sie dienen als Markierungspunkte innerhalb sehr langer DNA-Bereiche. Biologisch relevant ist der Cytosin-Rest innerhalb des Dinukleotids, da es oft als Substrat für zellspezifische DNA-Methylasen dient. CPU
Central Processing Unit. Hauptrecheneinheit (Prozessor) des Computers.
Cytosin
Eine Pyrimidinbase in den Nukleotiden von DNA und RNA.
Data Cleaning Datenbereinigung. Vorgang, bei dem experimentell erstellte Daten über Algorithmen von falschen Daten, einschließlich „Hintergrundgeräuschen“ und anderen Artefakten, gereinigt werden. Dieser Prozess wird durchgeführt, um Daten von hoher Qualität zu erstellen und zu speichern, um sie für weitere Analysen zu benutzen. Dies ist insbesondere für Daten aus Hochdurchsatzsequenzierungsverfahren notwendig, bei denen es in hohem Maße zur Kompression der Sequenzen und damit zu fehlerhaften Sequenzen kommt. Data Mining Recherche und Verknüpfung von Suchergebnissen in großen Datenbanken, um eine Hypothese zu unterstützen („top-down“ data mining); oder die Recherche und die Informationsbeschaffung aus Datenbanken, um neue Arbeitshypothesen aus gefundenen statistischen Korrelationen zu erstellen („bottom-up“ data mining).
Glossar für Bioinformatik
175
Data Processing Systematische Prozessierung/Bearbeitung von Daten (Strukturieren, Sortieren, Zusammenfügen, Bearbeiten). Data Warehouses Große Sammlung von heterogenen (biologischen) Daten, die an einem Ort gespeichert sind und die über verschiedene Abfrageoberflächen und Manipulationsmethoden zugänglich sind. Datenbank (Abkürzung: db, wie z.B. in dbEST) Database. Elektronisches Speichersystem von Daten, in denen die Daten nach einem einheitlichen System logisch abgelegt und über Suchanfragen an die Datenbank wieder abrufbar sind. Man unterscheidet hierarchische, relationale, multidimensionale und objektorientierte Datenbanken. In den Lebenswissenschaften ist die relationale Datenbank die am meisten verwendete, da sie die größte Flexibilität zur Speicherung und Verknüpfung der Daten bietet. Datenbanken werden über ein Datenbankverwaltungssystem (DBMS) verwaltet. Der Zugang zu einer Datenbank kann, muss aber nicht über das Internet erfolgen. Deep Web Hidden Web oder Invisible Web. Teil des Internets, der bei einer Internetrecherche nicht über normale Suchmaschinen erfasst wird. Im Deep Web gibt es Inhalte, die nicht zugänglich sind (z.B. kennwortgeschützte Inhalte, komprimierte Daten, dynamisch erstellte Webseiten) und Inhalte, die nicht von Suchmaschinen indexiert werden. DDBJ DNA Data Bank of Japan. Teil der „International Nucleotide Sequence Database“, wie auch die Datenbanken EMBL Nucleotide Sequence Database und GenBank. Dendrogram Ein grafisches Verfahren für die Darstellung der Ergebnisse in einer hierarchischen Gruppierung. Die Ergebnisse stammen aus Clusterungs-Analysen. Ein Dendrogramm wird ausschließlich als binärer Baum mit einer eindeutigen Wurzel definiert, bei dem alle Datenelemente als Baum-Endpunkte (Blätter) aufgeführt werden. Alle Blätter werden auf dem gleichen Niveau der Zeichnung gezeigt. Die Anordnung der Blätter ist willkürlich, ebenso ihre horizontale Position. Die Höhen der internen Knotenpunkte können willkürlich sein oder können mit den metrischen Informationen zusammenhängen, die verwendet werden, um die Cluster zu bilden. Dimer Zusammengesetztes Molekül, das aus der Bindung zweier Moleküle untereinander hervorgeht. Die Moleküle können gleich (Homodimer) oder unterschiedlich sein (Heterodimer). Disulfid-Bindung Kovalente Bindung zwischen zwei Schwefelatomen von zwei verschiedenen Cysteinen in einem Protein. Über diese Bindung wird die Proteinfaltung, aber auch die Protein-Komplexbildung aufrechterhalten. DNA/DNS Desoxyribonukleinsäure. Genetischer Informationsspeicher der Zellen. DNA setzt sich aus den stickstoffhaltigen Basen Adenin, Guanin, Cytosin und Thymin zusammen, die über eine N-glycosidische Bindung an die Desoxyribose-Phosphate gebunden sind. Zwei komplementäre DNA-Stränge, in denen alle Gs mit Cs und alle As mit Ts über Wasserstoffbrückenbindungen paaren, bilden ein doppelsträngiges, spiralförmiges Molekül (DNA-Doppelhelix). DNA-Fingerprinting Molekularbiologische Technik, um menschliche Individuen zu identifizieren. Die Charakterisierung eines Individuums erfolgt über eine Restriktionsverdau-Ana-
176
Glossar für Bioinformatik
lyse von Tandem-Repeats (Wiederholungssequenzen), die im Genom überall verstreut sind, aber in jedem Individuum an unterschiedlichen Orten vorkommen. Die Restriktionsmuster der Individuen sind daher einem bestimmten Individuum eindeutig zuzuordnen. DNA-Microarray Auch als Biochip, Genchip oder nur als Microarray bezeichnet. Die Array-Technologie erlaubt die parallele Analyse von mehreren tausend Einzelnachweisen in einer geringen Menge an biologischem Probenmaterial. Es handelt sich um eine Nukleinsäurehybridisierung in miniaturisierter Form. Als Trägermaterial der Oligonukleotide oder cDNAs dient ein Glasobjektträger oder eine silikonbeschichtete Oberfläche. Anwendung findet sie im Bereich der Analyse von Genexpessionsmustern, DNA-Polymorphismen, der Diagnostik von Krankheiten und der Genotypisierung. DNA-Polymerase Enzym, das die Synthese von DNA durch das Kopieren eines DNAStranges katalysiert. DNA-Sequenz Abfolge/Reihenfolge der Basenpaare in einem DNA-Fragment, Gen oder Chromosom. Docking Computersimulation zur Einpassung eines Liganden in eine Proteindomäne (Bindungsstelle). Domain (protein) Domäne. Eine Region in einer Proteinsequenz von besonderer biologischer Bedeutung. Oft auch Bezeichnung für einen Proteinbereich mit einer eigenen Faltung (3D-Struktur). Domänen können verschieden kombiniert werden und sind für die Gesamtfunktion eines Proteins verantwortlich. Konservierte Domänen charakterisieren eine Proteinfamilie oder eine Proteinfunktion. Domain (comp.) Domäne. Logischer Teilbereich eines Computer-Netzwerkes. 1. Full qualified domain name z.B. ncbi.nlm.nih.gov; 2. Top-level domain, z.B. .gov, .com, .de Dominant Phenotypische Ausprägung eines Gens, von dem nur ein Allel in einer Zellpopulation anwesend sein muss, um in Erscheinung zu treten. Download Kopieren/Herunterladen einer Datei von einem externen Server auf einen lokalen Computer. Protokolle können sein: FTP, HTTP. DSL Digital Subscriber Line. Digitale Technologie zur Übertragung von Daten (oft über Kupferleitung, ca. 100 x schneller als ISDN). Dynamisches Verfahren Aufteilung eines Problems in Teilprobleme. Die Lösungen der ersten Teilprobleme werden im nächsten Schritt zur Lösung des folgenden Teilproblems verwendet. Die Lösungen werden in einer Tabelle gespeichert und daraus weitere Lösungen abgeleitet (z.B. Smith-Waterman Algorithmus). Ein solches Verfahren ist sehr genau, aber evt. auch sehr langsam. EBI European Bioinformatics Institute. Die europäische Einrichtung für bioinformatische Forschung und Entwicklung ist in Hinxton bei Cambridge (GB) angesiedelt. EC-Number Enzyme Classification Nummer. Identifizierungsnummer für Enzymklassen nach der Enzym-Nomenklatur des NC-IUBMB (Nomenclature Committee of the International Union of Biochemistry and Molecular Biology).
Glossar für Bioinformatik
177
Electronic Northern (Blot)/virtual Northern (Blot) „Northern Blot“ unter Anwendung von Daten einer Datenbank. Mit Hilfe von Datenbanken können die relativen Genexpressionslevel aus verschiedenen Geweben und Zellen miteinander verglichen werden, z.B. können Unterschiede im Genexpressionsniveau von karzinogenem gegenüber gesundem Gewebe ermittelt werden (Subtrahieren der Daten in den Datenbanken), ohne dass ein Northern Blot experimentell durchgeführt werden muss. Die Webseite des CGAP bietet hierfür eine sehr anwenderfreundliche Eingabemaske. Electrophorese (Gel-Elektrophorese) Trennverfahren für Moleküle, um sie entsprechend ihrer Größe durch das Anlegen eines elektrischen Feldes zu separieren. EMBL European Molecular Biology Laboratory. Gegründet 1974 mit Hauptsitz in Heidelberg. Von 16 Staaten (inkl. Israel) gefördert. Verwalter der EMBL Nucleotide Sequence Database. Enhancer DNA-Sequenz, die die Transkriptionsrate eines Gens erhöht. Ein Enhancer kann weit oberhalb oder unterhalb der Promotor-Sequenz, die er stimuliert, lokalisiert sein. Ensembl Kooperation zwischen dem EMBL-EBI und dem Wellcome Trust Sanger Institute (WTSI) zur Entwicklung eines Software-Systems für die automatische Annotation ausgewählter eukaryotischer Genome. ENTREZ Datenbankübergreifende Suchmaschine für die Datenbanken des NCBI wie z.B. PubMed, GenBank u.a. Zugänglich von der NCBI-Webseite (http://www.ncbi.nlm.nih. gov) über den Link All Databases. Enzym Protein, das in der Lage ist, die Aktivierungsenergie für eine chemische Reaktion herabzusetzen und diese zu beschleunigen. Enzyme gehen unverändert aus der Reaktion hervor. Epigenomik Forschungsgebiet über komplexe Expressions-Netzwerke mit Fokus auf räumliche (innerhalb eines Körpers) oder zeitliche (zu unterschiedlichen Entwicklungsstadien) Mechanismen der Genexpression. Untersucht wird u.a. der Einfluss der Chromatinstruktur auf die Genexpression. EST Expressed Sequence Tag. Eine kurze, 400-700 bp lange Sequenz eines exprimierten Gens. ESTs sind z.B. in der Datenbank dbEST (NCBI) hinterlegt. Sie werden generiert, indem cDNAs einer cDNA-Bank einmal ansequenziert werden. Oft gibt diese kurze Sequenz schon Auskunft über das Gen, obwohl sie oft fehlerhaft ist. Eukaryote auch als Eucyte bezeichnet (aus dem griechischen eu für „echt“ und karyon für „Kern“). Zelltyp, bei dem Zellkern und Organellen von spezifischen Membranen umschlossen sind. E-Wert Expect-Value. Statistisches Maß für die Signifikanz eines Treffers bei einer Datenbanksuche. Je kleiner der Wert, desto höher ist die Wahrscheinlichkeit, dass dieser Treffer nicht zufällig auftrat. Exon Region genomischer DNA, die für ein Peptid oder eine Proteindomäne kodiert. Ein eukaryotisches Gen besteht aus mehreren Exons, die durch nicht-kodierende Introns vonein-
178
Glossar für Bioinformatik
ander getrennt sind, welche im Prozess der RNA-Reifung zusammengefügt werden und so für eine lange Proteinsequenz kodieren. ExPaSY Expert Protein Analysis System. WWW-Server des Swiss Institute of Bioinformatics (SIB) mit Zugriffsmöglichkeit auf Proteindatenbanken (u.a. UniProt, PROSITE, ENZYME) und Proteinanalyseprogrammen zur Analyse und Charakterisierung von Proteinsequenzen. Expression (Gen oder Protein) Vorhandensein von einem oder mehreren Genprodukten in einer bestimmten Zelle oder in einem Gewebe zu einem bestimmten Zeitpunkt. Expressionsstudien werden gewöhnlich an mRNA oder am Protein durchgeführt. Expression Profiling Genexpressionsstudien für ein oder mehrere Gene eines bestimmten Zelltyps oder Gewebes mit Hilfe von Hochdurchsatzmethoden wie z.B. DNA-MicroarrayAnalysen oder SAGE (Serial Analysis of Gene Expression). Expressions-Vektor Klonierungsvektor, der für die Proteinexpression von cDNA in einem gewünschten Zelltyp oder in vitro hergestellt wurde. FASTA Heuristischer Algorithmus zur Sequenzähnlichkeitssuche in Datenbanken. Bei dieser Methode werden Nachschlagetabellen erstellt, die zum Vergleich von Sequenzsegmenten herangezogen werden. Die Wortlänge für die Tabelle bestimmt die Empfindlichkeit und die Schnelligkeit des Verfahrens. Die Methode ist sehr sensitiv und schnell. FASTA-Format Sequenzformat, welches häufig als Eingabeformat für Sequenzanalyseprogramme verwendet wird. In einer „Überschriftszeile“ (Kopfzeile) können nach einem „>“-Zeichen weitere 80 Zeichen zur Beschreibung der Sequenz folgen. In der nächsten Zeile wird die Sequenz ohne weitere Zeilenumbrüche angefügt. Filtering Herausnahme (Filtern) von Sequenzbereichen aus einer Datenbankrecherche durch Maskierung dieser Bereiche (z.B. bei BLAST-Analysen). Firewall Schutzkonfiguration für den Computer, um Angriffe aus dem Internet zu unterbinden. Eine Firewall kann unterschiedlich streng konfiguriert sein. Fingerprint (engl.) Fingerabdruck. Eine Anzahl an konservierten Proteinmotiven, die eine Proteinfamilie charakterisieren. Sie sind in den anderen Familienmitgliedern entweder in der gleichen oder in veränderter Reihenfolge vorhanden. Mitglieder einer Proteinfamilie enthalten alle Elemente des Fingerabdruckes, Mitglieder von Proteinunterfamilien nur Teile des „Fingerprints“. FLAT-File Viele biologische Datenbanken sind in so genannten Flat-Files hinterlegt. In diesen Dateien haben die Daten keinen strukturellen Bezug zueinander (z.B. GenBank FlatFile-Format zur Hinterlegung einer Sequenz in GenBank). Frameshift Verschiebung des Leserahmens. Eine Verschiebung des Leserahmens ergibt sich aus der Deletion oder Insertion von einer oder zwei Basen in der DNA-Sequenz. Hierdurch kodieren die Codons für andere Aminosäuren als ursprünglich vorgesehen. Es kommt zu einer Veränderung in der Proteinsequenz.
Glossar für Bioinformatik
179
FTP File Transfer Protocol. Protokoll zur Datenübertragung zwischen verschiedenen Computern. Gap Lücke in einer Sequenzausrichtung von zwei oder mehreren Sequenzen, um eine biologisch sinnvolle Sequenzausrichtung zu erzielen. Gap penalties/Gap costs Zur Berechnung eines Alignment-Scores müssen die Lücken in einer Sequenzausrichtung bewertet werden. Die dafür verwandten Strafpunkte können sich sowohl auf die Existenz einer Lücke (Gap-opening-penalty) als auch auf die Länge einer Lücke (Gap-extension-penalty) beziehen. Strafpunkte für Lücken sind immer negativ und verringern den Score der Sequenzausrichtung. Gen Segment auf einem Chromosom. Zu einem Gen gehören sowohl die proteinkodierenden Regionen als auch alle regulatorischen Sequenzen, die die Genexpression kontrollieren (Promoter, Enhancer etc.). GenBank Datenbank der National Institutes of Health (NIH) für alle öffentlich zur Verfügung stehenden Nukelotid-Sequenzen. Die Daten werden täglich mit den Kollaborationspartnern am EMBL (EMBL Nucleotide Sequence Database) und CIB (DDBJ) ausgetauscht. Genbibliothek Genbank oder cDNA Bank. Sammlung von DNA-Fragmenten aus einem Organismus oder einer Zellpopulation, die in einem Klonierungsvektor vorliegen. Gen Index Eine Liste von Zahlen, Beschreibungen und Sequenzen für alle identifizierten Gene eines spezifischen Genoms. Diese Zusammenstellung von Genen für einen Organismus sind nicht-redundant und beinhalten oft Sequenzcluster (z.B. überlappende ESTs, ORFs, SNPs, und Beschreibungen anderer Eigenschaften). Gen-Chips siehe DNA-Microarray. Genetischer Code Regel zur Übersetzung der DNA-Sequenz in eine Proteinsequenz. Drei Nukleotidbasen (Basentriplett) kodieren hierbei für eine Aminosäure und Stopcodons. In manchen Fällen gibt es mehrere Tripletts für eine Aminosäure (degenerierter Code). Der genetische Code variiert in Mitochondrien, manchen Einzellern und Prokaryoten. Genetischer Marker Eindeutige Sequenz oder phenotypischer Effekt mit Korrelation zu einem gesuchten Merkmal. Über einen genetischen Marker kann eine Zelle, ein Chromosom oder ein bestimmtes Gen eindeutig identifiziert werden. Genexpression Die Übersetzung der genetischen Information in RNA und Protein. Auch Gene, die auf RNA-Ebene wirken, werden exprimiert (s. auch Expression). Genfamilie Eine Gruppe homologer DNA-Sequenzen, die oft für die gleiche Genfunktion verantwortlich sind. Genom Vollständige Erbinformation in einem Organismus. Das Genom ist auf einen organismusspezifischen Satz von Chromosomen verteilt. Genomics Forschungsgebiet mit dem Ziel, alle Informationen eines Genoms zu entschlüsseln.
180
Glossar für Bioinformatik
Genotyp Die gesamte Erbinformation eines Individuums. Oft bezieht sich die Beschreibung zum Genotyp nur auf einen Genort und die dort gefundenen Allele. GEO Gene Expression Omnibus. Datenbank des NCBI mit Genexpressionsdaten aus Microarray und SAGE-Experimenten. Globales Alignment Sequenzausrichtung zweier oder mehrerer Sequenzen, die sich über die gesamten zu vergleichenden Sequenzlängen erstreckt. Glycosylierung Eine Modifizierung von Proteinen oder anderen organischen Molekülen, bei der Zuckerreste angehängt werden. GO GeneOntology. Siehe Ontologie Gonnet Modifizierte PAM-Matrix. Standardmatrix für ClustalW (Gonnet250), ein Programm, um multiple Sequenzalignments zu erstellen. GSS Genome Survey Sequences. Die Herstellung der GSS-Sequenzen erfolgt über die einmalige Sequenzierung von Klonen einer genomischen DNA-Bibliothek. Guanin (G)
Eine Purinbase in den Nukleotiden von DNA oder RNA.
GUI Graphical User Interface. Grafische Darstellung auf einem Computerbildschirm, die zur Bedienung des Computers dient (z.B. Windows). Haploid Zelle oder Organismus mit nur einem Satz an Chromosomen (im Gegensatz zu einem doppelten Satz an Chromosomen (diploid) oder mehreren Chromosomensätzen (polyploid)). Heterodimer Protein, bestehend aus 2 verschiedenen Ketten (chains) oder Untereinheiten (siehe Dimer). Heteroduplex Hybride Nukleinsäurestruktur, die sich aus zwei DNA-Molekülen oder aus einem RNA- und einem DNA-Molekül ergibt, wenn die beiden Stränge genügend Komplementarität aufweisen, um Wasserstoffbrückenbindungen auszubilden. Heterozygotie/Heterozygosity Wahrscheinlichkeit, dass ein diploides Individuum zwei unterschiedliche Allele an einem Genlocus hat. Dieses Individuum ist heterozygot (im Gegensatz zu homozygot; s. Allel). Heuristisches Verfahren Entdeckungsverfahren. Methode der Bioinformatik, um sich einer Lösung zu nähern, indem eine Theorie getestet und das Verfahren aufgrund der Lösungen angepasst wird. Diese Methoden sind schnell, finden jedoch nicht alle möglichen Lösungen. HGNC
Human Gene Nomenclature Committee.
HMM Hidden Markov Model (nach Andrei Andrejewitsch Markov). Ein stochastisches Modell, das sich durch zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow-Kette, die durch Zustände und Übergangswahrscheinlichkeiten
Glossar für Bioinformatik
181
gekennzeichnet ist. Die Zustände der Kette sind von außen jedoch nicht direkt sichtbar (sie sind verborgen). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsabhängigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht häufig darin, aus der Sequenz der Ausgabesymbole auf die Sequenz der verborgenen Zustände zu schließen (Wikipedia). High-throughput-Verfahren Hochdurchsatzverfahren. Methode, bei der große Mengen an Untersuchungsmaterialien gleichzeitig analysiert werden. Im Allgemeinen generieren diese Methoden große Mengen an Daten, die in Datenbanken eingespeist werden und einer weiteren Auswertung bedürfen. HomoloGene Datenbank am NCBI zur Recherche nach orthologen Genen und Proteinen in verschiedenen Spezies. Erstellt wird die Datenbank u.a. über BLAST-Analysen. Angenommene orthologe Gene und Proteine leiten sich dabei aus jeweils reziproken besten BLASTTreffern ab. Homologe Sequenzen/Proteine Zwei biologische Arten/Sequenzen/Merkmale sind homolog, wenn sie einen gemeinsamen Ursprung aufweisen. Bei Sequenzähnlichkeitssuchen wird eine Homologie unter ähnlichen Sequenzen angenommen, deren gemeinsame Abstammung jedoch über die Sequenzähnlichkeit allein nicht bewiesen ist. Housekeeping genes Haushaltsgene. Gene, die theoretisch immer (konstitutiv) exprimiert sind, da sie für die Zellfunktionen essentiell sind. HSP High-scoring Segment Pair. Die gefundenen Teilstücke in ähnlichen Sequenzen, die eine höhere (oder gleiche) Bewertung gegenüber einem gesetzten Grenzwert erzielen. Diese Teilstücke werden bei heuristischen Algorithmen wie z.B. BLAST weiter verlängert, um längere ähnliche Sequenzen in der Datenbank zu identifizieren. HTGS High Throughput Genomic Sequences. Sequenzen, die bei großen Genom-Sequenzierungsprojekten generiert werden. Sie werden in unterschiedlichen Stufen der Fertigstellung veröffentlicht: Unfertig (unfinished) in Phase 0,1 oder 2; fertige genomische Sequenz in Phase 3. HTML Hypertext Markup Language. Kodierungsprache für die Information, die im WWW über eine Webbrowser dargestellt werden soll. HTTP/ HTTPS Hypertext Transport Protocol (Security). Kommunikationsprotokolle für das WWW zur Darstellung von HTML-Dokumenten über einen Webbrowser. Mit „Security“-Protokollen können Informationen verschlüsselt übertragen werden. HUGO
Human Genome Organisation.
Hybridisierung Methode, die auf der Interaktion zweier Nukleinsäure-Moleküle beruht (DNA-DNA bzw. RNA-DNA) und zum Nachweis der Komplementarität dieser Moleküle dient. Hybridisierung ist das Prinzip vieler molekularbiologischer Methoden wie z.B. Southern und Northern Blotting (s.a. DNA-Microarray). Hyperlink Verknüpfung zu Dokumenten im WWW, die durch einen Mausklick ausgeführt wird. Die Dokumente können in HTML, PDF oder anderen Formaten hinterlegt sein.
182
Hypertext
Glossar für Bioinformatik
Ein Text, der Verknüpfungen (Hyperlinks) zu weiteren Dokumenten enthält.
Identity Identität. 100%ige Übereinstimmung zwischen zwei oder mehreren Sequenzen (Nukleotid- oder Proteinsequenzen). Die Identität der Sequenzen in einem Alignment ist in Prozent der ausgerichteten Sequenzlänge angegeben. IMAGE Integrated Molecular Analysis of Genomes and their Expression. Zusammenschluss (Konsortium) von akademischen Arbeitsgruppen, die anderen Arbeitsgruppen biologisches Material wie z.B. cDNA Banken für wissenschaftliche Zwecke zur Verfügung stellen. Indexierung Erschließung und Beschreibung von Inhalten in einer Datenbank. Über die Kategorisierung von Informationen können die Datenbankinhalte durch eine Datenbankrecherche schnell und effizient abgerufen werden. Informatik Die Informatik beschäftigt sich mit Prozessen der Informationsverarbeitung, bei denen der Computer als Hilfsmittel dient. Experimentell oder empirisch erhobene Daten sollen durch Automatisierung geordnet und bearbeitet werden. in silico (Experiment) In Silizium (engl. Silicon; Bezeichnung in Anlehnung an Silizium in PC-Chips). Ein am Computer simuliertes biologisches Experiment. in situ (Hybridisierung) Eine Modifikation einer DNA/RNA-Hybridisierung. Die nachzuweisende, denaturierte DNA liegt in einer Zelle vor und wird mit (oft fluoreszenzmarkierter) DNA/RNA einer anderen Quelle hybridisiert. in vitro (Experiment) (lat.) Im (Reagenz-)Glas. Ein Experiment, welches außerhalb eines lebenden Organismus durchgeführt wird. in vivo (Experiment) (lat.) Im Lebewesen/Körper. Ein Experiment, welches in einem lebenden Organismus durchgeführt wird. Internet Zusammenschluss von individuellen regionalen Netzwerken. Diese Netzwerke befinden sich bei Universitäten, Firmen oder Online-Diensten und sind auf unterschiedliche Weise miteinander verbunden (z.B. über Standleitungen, Kabel oder Satellit). Man unterscheidet WAN (Wide Area Network), GAN (Global Area Network), MAN (Metropolitan Area Network), LAN (Local Area Network). Daraus ergeben sich folgende Definitionen: Internet: WAN ohne Einschränkung Extranet: WAN für einen eingeschränkten Benutzerkreis Intranet: LAN für einen eingeschränkten Benutzerkreis Die am häufigsten benutzten Dienste des Internet sind das www (World Wide Web; Einsatz von http-Protokollen u.a.), e-mail und FTP (File Transfer Protocol). Internet Service Provider/Host Anbieter für Einzelpersonen oder Betriebe zur Anbindung von Rechnern an das Internet. Intranet siehe Internet Intron Nicht-kodierender Bereich eines eukaryotischen Gens. Dieser Bereich wird transkribiert und bei der RNA-Prozessierung herausgeschnitten (Splicing).
183
Glossar für Bioinformatik
IP Internet Protocol. Grundlegendes Protokoll zur Datenübertragung über das Internet. Lenkt die Daten über verschiedene Schaltstellen und Router zum gewünschten Ziel. Ergänzt die Aufgaben des TCP. Die beiden Protokolle werden oft gemeinsam erwähnt. ISDN
Integrated Services Digital Network.
Isoschizomere Zwei (oder mehr) Restriktionsenzyme, die dieselben Erkennungssequenzen benutzen (z.B. Sma I und Xma I) Iteration Reihe von Schritten in einem Algorithmus, bei der die Verarbeitung von Daten solange wiederholt wird, bis das Resultat eine bestimmte Schwelle übersteigt. Eine praktische Anwendung ist PSI-BLAST (Position-Specific-Interated BLAST). Die Sequenzähnlichkeitssuche wird mit einer sich immer neu bildenden Matrix solange wiederholt, bis keine neuen Treffer in der Datenbank gefunden werden (d.h. Konvergenz erreicht wurde). IUBMB International Union of Biochemistry and Molecular Biology. Organ für die Erstellung von Regeln und Empfehlungen in der Nomenklatur für Stoffe und Anwendungen in der Biochemie und Molekularbiologie. IUPAC International Union of Pure and Applied Chemistry. Organ für die Erstellung von Regeln und Empfehlungen zur Nomenklatur für Stoffe und Anwendungen in der Chemie. JAVA Hardware-unabhängige Programmiersprache. JAVA-Applets laufen, sobald der Computer mit einem Plug-in (JRE-Java run-time environment) ausgestattet ist. Junk DNA Bezeichnung für genomische DNA, der keine Funktion zugeordnet werden kann. Wahrscheinlich haben viele genomische DNAs jedoch regulatorische und andere Funktionen, die noch nicht identifiziert wurden. Klon/Klonierung Ein Klon ist eine Population genetisch identischer Zellen, Organismen oder DNA-Moleküle. Sie gehen auf einen gemeinsamen Ursprung zurück (z.B. ein Bakterienklon oder rekombinante Plasmide etc.). Unter Klonieren versteht man die Produktion von identischem genetischem Material wie z.B. die Vervielfältigung einer bestimmten Zelle, eines Organismus oder eines DNA-Moleküls. Kompilierung
Aufbau einer Datenbank aus mehreren Einzeldatenbanken.
Konsensussequenz DNA- oder Proteinsequenz, die die am häufigsten vorkommenden Bausteine (Nukleotide oder Aminosäuren) für alle Positionen in einer Sequenzausrichtung von mindestens drei Sequenzen widerspiegelt. Konservierte Region/Sequenz Sequenzabschnitt, der in der Evolution erhalten (konserviert) blieb. LAN
Local Area Network (siehe Internet).
Leserahmen/Leseraster Ergibt sich aus den kodierenden Aminosäuren und Stopkodons, die sich aus der Nukleotidsequenz ableiten. Leserahmen fangen an der ersten, zweiten oder dritten Base auf dem Plusstrang oder auf dem Minusstrang an, so dass sechs verschiedene Leserahmen abgeleitet werden können. Ein langer offener Leserahmen kann ein Indiz für
184
Glossar für Bioinformatik
ein kodierendes Protein sein. Hat die DNA im Vergleich zu einer anderen eine veränderte Sequenz (durch Mutation wie z.B. Insertion oder Deletion), kann sich das Leseraster so verschieben, dass die Sequenz für ein anderes Protein kodiert und das Protein evt. eine fehlerhafte Funktion hat. Library/Bibliothek Eine Sammlung von Komponenten (Peptide, cDNAs, Gene), die für eine Durchmusterung auf bestimmte Eigenschaften herangezogen wird. Linkage Ein Verbund an Genen (Genorten) auf einem Chromosom. Gene, die in einem solchen Verbund liegen, tendieren dazu, gemeinsam vererbt zu werden. Linkage map Eine genetische Karte eines Chromosoms, auf der der genetische Ort über eine Abstammungsanalyse identifiziert wurde. Local Alignment
Eine Sequenzausrichtung von begrenzten Sequenzabschnitten.
Locus Genort. Die spezifische Position eines Gens oder DNA-Abschnittes (z.B. eines Markers) auf dem Chromosom. An einem Genort kann eine Eigenschaft durch die verschiedenen Allele, die für diesen Genort austauschbar sind, repräsentiert sein. Low-Complexity-Region Mit der Bezeichnung „low complexity region“ sind oft lokale Sequenzbereiche gemeint, die eine Anwendung (z.B. eine Sequenzähnlichkeitssuche) ungünstig beeinflussen. Obwohl diese Regionen statistische Signifikanz aufweisen, zeigen sie bisher keine biologische Bedeutung. Match/Missmatch
siehe Unitary Matrix
Matrix Mathematisches Wertesystem zur Berechnung von Sequenzähnlichkeiten und Sequenzverwandtschaften. Bewertet werden die Wahrscheinlichkeiten der jeweiligen Aminosäureaustausche in einer Sequenzausrichtung. Die bekanntesten Matrizen sind die Dayhoff, BLOSUM, PAM und Gonnet Matrizen. Sie sind aus globalen (PAM, GONNET) oder lokalen (BLOSUM) Sequenzausrichtungen unterschiedlich nah verwandter Sequenzen bzw. Sequenzabschnitten erstellt worden. Messenger RNA (mRNA) RNA-Moleküle, die über den Mechanismus der Transkription entstehen und als Vorlage für die Proteinbiosynthese (Translation) dienen. Megablast BLAST-Programm, das entwickelt wurde, um lange unbekannte Nukleotidsequenzen mit einer Datenbank abzugleichen. MeSH Medical Subject Headings. Kontrolliertes Vokabular für die Indexierung von Artikeln in MEDLINE/PubMed. MeSH-Terminologie bietet eine einheitliche Beschreibung für Themen und Konzepte, auch wenn die Autoren der Publikationen individuelles Vokabular benutzen. Eine Indexierung für MEDLINE dient somit der genauen und vollständigen Informationsbeschaffung. Metabolom Alle Proteine, die am Stoffwechsel einer Zellpopulation oder eines Organismus beteiligt sind. Microarray
siehe DNA-Microarray
Glossar für Bioinformatik
185
Microsatelliten DNA-Regionen mit kurzen sich wiederholenden Sequenzen von 2–3 bp Länge (z.B. 15× GCG). Die am häufigsten vorkommende Wiederholungssequenz ist CA und die komplementäre Sequenz GT. Der Nachweis dieser Segmente erfolgt über PCR. mmCIF Macromolecular Crystallographic Information File. Darstellungsformat für Informationen Makromolekularer Strukturen, von IUCr (International Union of Crystallography) anerkannt. Modeling In der Bioinformatik bezieht sich das „Modellieren“ auf die Interpretation oder Vorhersage einer 3-D-Struktur eines Moleküls. Mit einer visuellen Darstellung können die Moleküleigenschaften abgeleitet, berechnet und/oder manipuliert werden. Veränderungen durch innere und/oder äußere Einflüsse am Molekül können simuliert werden. Modell-Organismus Organismus mit vielen Vorteilen für die experimentelle biologische Forschung, wie z.B. eine schnelle Entwicklung mit kurzen Lebenszyklen, kleine Erwachsenengröße, unkomplizierte Haltung, breite Verwendbarkeit. Gut untersuchte Modell-Organismen sind Maus, Hefe, Ackerschmalwand, Fruchtfliege und Zebrafisch. Modem Modulator/Demodulator. Gerät zur Umwandlung von Signalen für die Datenübertragung. Molekularbiologie Wissenschaftszweig der Biologie, der sich mit der Erforschung des Lebens auf der Ebene der Moleküle, insbesondere von DNA, RNA und Proteinen beschäftigt. Im Mittelpunkt stehen die Beschreibung der Funktionen dieser Makromoleküle und deren Einfluss auf die Regulation biologischer Vorgänge. Motiv Konservierte Region in einer Sequenz, die oft mit der für das Molekül charakteristischen Funktion korreliert. Motive werden in Muster (Pattern) und Profile unterteilt. Es gibt viele Datenbanken für Proteinmotive (CDD, SMART, PFAM, PROSITE), die für eine Vorhersage von Motiven herangezogen werden können. Morgan (centiMorgan, cM) Einheit einer genetischen Karte. Zwei Loci sind 1 cM entfernt, wenn die Rekombinationswahrscheinlichkeit zwischen diesen Loci 1% pro Meiose beträgt, also im Durchschnitt ein Cross-over in 100 Meiosen auftritt. Je weiter zwei Genloci voneinander entfernt sind, desto höher ist die Wahrscheinlichkeit, dass sie rekombinieren. Umgekehrt ist die Wahrscheinlichkeit gering, dass zwei nahe beieinander liegende Genloci rekombinieren. Sie werden oft „gekoppelt“ vererbt (Kopplungsgruppe). Beim Menschen entspricht ein Abstand von einem centiMorgan (= 0,01 Morgan) in etwa 106 Basenpaaren. Multigenfamilie Eine Gruppe an homologen DNA-Sequenzen (Genen), die aufgrund von unabhängigen Mutationensereignissen zu paralogen Sequenzen wurden und über das ganze Genom verteilt sein können. Multiples (Sequenz) Alignment Sequenzausrichtung mit mindestens drei Sequenzen, um schnell die Sequenzähnlichkeiten unter ihnen erkennen zu können. Mutagen Substanz oder Einflussgröße (chemisch, biologisch, physikalisch etc.), die in einem Organismus die Mutationsrate erhöht.
186
Glossar für Bioinformatik
Mutation/Variation Veränderung in der DNA-Sequenz. Die Ursache einer Mutation ist unterschiedlich (z.B. spontan, ausgelöst durch Mutagene, vererbt). Ebenso können die Mutationen unterschiedlicher Ausprägung sein (z.B. Insertion/Deletion einzelner Nukleotide wie bei einer Punktmutation, bis hin zu Chromosomenaberrationen). NAR Nucleic Acids Research. Fachzeitschrift, in deren erster Ausgabe eines jeden Jahres sämtliche biowissenschaftliche Datenbanken besprochen werden. NCBI
National Center for Biotechnology Information.
Needleman/Wunsch-Algorithmus Dynamischer Algorithmus zur Ableitung eines globalen Alignments für zwei Sequenzen. Die Methode ist sehr rechner- und zeitintensiv und übergeht oft Proteindomänen und Motive. Neighbor (engl.) Nachbar. Bezeichnung für einen ähnlichen Treffer in der gleichen Datendomäne von Entrez-Datenbanken des NCBI. Der Algorithmus zur Auffindung dieser Treffer variiert. So handelt es sich bei den „related articles“ in PubMed um einen „Word Weight Algorithm“, in Entrez-Nucleotide und Entrez-Protein um den BLAST-Algorithmus, in Entrez-Structure um den VAST-Algorithmus. NIC Netzwerk Information Center. Diese Zentren helfen bei der Nutzung des Internets. In Deutschland ist die DeNIC (Deutsches Network Information Center/Domänen-Verwaltungsund Betriebsgesellschaft eG) für die Registrierung von Internetdomänen verantwortlich. NMR Nuclear Magnetic Resonanz (Spectroscopy)/Kernspinnresonanz-Spektroskopie. Methode zur Auflösung der dreidimensionalen Struktur eines (Protein-)Moleküls (in Lösung). Normalisierung Bei einer BLAST-Suche geben die reinen Score-Werte S keine Information über die Qualität des Ergebnisses, da keine Informationen über die Datenbank und den Suchalgorithmus (bzw. K und h einbezogen wurden. Bit-Scores S’ (normalisierte Scores) berechnen sich wie folgt: S’ = (hS – lnK) / ln2 – Aus den Bit-Scores S’ lassen sich E-Werte ableiten, die nur von den Sequenzlängen abhängen. E = mn2 –S’ – Für die Signifikanz-Beurteilung müssen dann nur noch die Sequenzlängen m und n bekannt sein. Nukleosid Organische Verbindung einer stickstoffhaltigen Base mit einem Zuckermolekül Desoxiribose (DNA) bzw. Ribose (RNA). Nukleotid Organische Verbindung einer stickstoffhaltige Base mit einem Zuckermolekül Desoxiribose (DNA) bzw. Ribose (RNA) und einem Phosphatrest. Oligonukleotid Kurzes DNA-Molekül aus ca. 10-60 Nukleotiden. Oligonukleotide finden Verwendung in PCR-Anwendungen als Primer, in Hybridisierungsexperimenten und in der Array-Technologie. OMIM Online Mendelian Inheritance in Man. Katalog/Datenbank für genetische Veränderungen und Krankheiten des Menschen.
Glossar für Bioinformatik
187
Ontologie Die Lehre der Ordnungs- und Wesensbestimmung. Die Gen-Ontologie ist der Versuch, ein kontrolliertes, die Genfunktion beschreibendes Vokabular zu entwickeln, welches für die Recherche nach Genen herangezogen werden kann. Die Begriffe/Gene sind hierarchisch in die drei Konzepte „biologischer Prozess“, „molekulare Funktion“ und „Ort der Funktion“ eingeordnet. Eine große Initiative geht von dem Human-Gene Nomenclature Committee aus (HGNC; http://www.ontology.org). Open reading frame (ORF)/Offener Leserahmen siehe Leserahmen. Ortholog Orthologe Sequenzen (Gene/Proteine) sind die Homologen Gene/Proteine in einem anderen Organismus oder in einer anderen Spezies. Sie üben dort dieselbe Funktion aus. Palindrom Eine DNA-Sequenz, die zu ihrer revers-komplementären Sequenz identisch ist wie z.B. 5‘ GAATTC 3‘ (komplementär zu 3‘ CTTAAG 5‘ auf dem reversen Strang). Kurze palindromische Sequenzen bilden oft die Erkennungssequenz von Restriktionsendonukleasen. PAM Percent Accepted Mutation. Substitutionsmatrix, die aus globalen Sequenzalignments von evolutionär nahe verwandten Sequenzen entstanden ist. Jede PAM hat eine Angabe über den Grad der Ähnlichkeit der Sequenzen, aus der sie entwickelt wurde und für die sie eingesetzt werden kann. PAM-Auswahl bei NCBI-BLAST-Suchen: PAM 30 und PAM 70. Paralog Paraloge Sequenzen (Gene/Proteine) sind homologe Gene/Proteine im selben Organismus. Diese Sequenzen haben einen gemeinsamen Ursprung, üben jedoch nicht mehr dieselbe, sondern nur ähnliche Funktionen in diesem Organismus aus. Pattern Kleine Region mit hoher Sequenzähnlichkeit („core“ pattern). Es handelt sich um biologisch relevante Sequenzmotive wie z.B. katalytische Zentren von Enzymen, Bindungsstellen, Cysteinreste für Disulfidbrücken. Pattern werden oft im PROSITE-Format beschrieben (s.http://au.expasy.org/tools/scanprosite/scanprosite-doc.html#patsyntax). Pathway Stoffwechselweg bzw. molekulares Netzwerk der Zelle und/oder im Organismus. Die Aufklärung von Stoffwechselwegen erfolgt über Studien von Proteininteraktionen, Reaktionsmechanismen und anderen Parametern. Ziel ist es, die Stoffwechselwege, ihre Verknüpfungen und funktionellen Netzwerke zu verstehen. Parameter Benutzerselektierte Werte, die die Grenzen eines Algorithmus oder eines Programms bestimmen. Für den Erfolg eines Suchalgorithmus sind sowohl Eingabeparameter, als auch Gewichtungsparameter (Strafen) für Fehlanpassungen und Lücken wichtige Einstellungen. PCR Polymerase-Chain-Reaction (Polymerase-Ketten-Reaktion). Mit dieser Methode können definierte DNA-Fragmente in vitro vervielfältigt (amplifiziert) werden. Gebräuchlich ist eine DNA-Polymerase, die bei einer Temperatur von 72°C arbeitet (Taq-Polymerase). Die Vervielfältigung erfolgt durch die Wiederholung der folgenden 3 Schritte (= 1 Zyklus): 1. Denaturierung der DNA und der Oligonukleotide (Primer) bei 90–95°C. 2. Anlagerung (Annealing) der Oligonukleotide bei der gewünschten Anlagerungstemperatur (ca. 56– 65°C) und 3. Synthese der neuen DNA-Stränge bei 72°C (Elongation). PCR-Techniken:
188
Glossar für Bioinformatik
Real-Time-PCR (Echtzeit-PCR), RT-PCR (Reverse Transcriptase-PCR), Nested PCR, TaqMan PCR u.a. PDB Protein Data Bank. Datenbank zur Speicherung von Daten aus experimentell abgeleiteten 3-D-Strukturen von Proteinen und anderen Makromolekülen. Peptide Kettenförmige Verbindung von Aminosäuren. Peptide bestehen aus weniger als 100 Aminosäuren, Proteine aus mehr als 100 Aminosäuren. Peptide bond (Peptidbindung) Kovalente Bindung, die durch eine Kondensationreaktion zwischen den Aminogruppen und den Carboxylgruppen zweier Aminosäuren ausgebildet wird. Pharmacogenomics Forschungsgebiet, welches den Genotyp eines Individuums mit in die Medikamentengabe und Therapiemöglichkeiten von Patienten mit einbezieht. Phänotyp/Phenotype Erscheinungsbild eines Individuums, welches sowohl durch den Genotyp als auch durch äußere Einflüsse (z.B. Umwelteinflüsse) geprägt wird. PHI-BLAST Pattern-Hit-Initiated BLAST. Eine Sequenzähnlichkeitssuche mit Fokus auf ein Proteinmotiv, welches gesondert in einem motivbeschreibenden Format (PROSITE-Format) angegeben werden muss. Phylum (pl. phyla) Stamm. Kategorie der phylogenetischen Einteilung von Organismen. Die Mitglieder eines „Stammes“ weisen gleiche Merkmale in der Organismus-Struktur und Organisation auf, z.B. Chordata (besitzen alle eine Wirbelsäule). Phylogenie Lehre über die Stammesgeschichte der Lebewesen. Oft wird die Entwicklungsgeschichte der Lebewesen in einer Baumstruktur dargestellt (Phylogenetischer Baum). Gehen von einem Knotenpunkt (Ast) in einem Baum mehr als zwei nachfolgende Äste ab, ist die Entwicklung an dieser Stelle noch nicht vollständig aufgeklärt. Methoden zur Erstellung einer Phylogenie sind z.B. Maximum Likelihood, Neighbor-Joining, Parsimony und UPGMA. Phylogramm /Phyletisches Dendogramm Darstellung der verwandtschaftlichen Beziehungen in einem Baum. Das Phylogramm informiert über die geologische Zeit auf der Ordinate (y) und das Ausmaß der Verschiedenheit auf der Abszisse (x), gibt aber keine Auskunft über das Ausmaß in absoluten Werten. Physikalische Karte/Physical map Karte des Genoms oder einer genomischen Region, die aus DNA-Fragmenten zusammengesetzt wurde. Man unterscheidet zwei Arten von physikalischen Karten. Die eine ist aus Restriktionsanalysen genomischer DNA mit seltenen Restriktionsenzymen entstanden, die andere aus überlappenden, geklonten und sequenzierten DNA-Fragmenten (Klondiagramme). Diese „ordered cloned Maps“ haben eine hohe Auflösung. Zusätzlich können die verwendeten Klone (YACs, cosmids, BACs oder auch Plasmide) zu weiteren Studien herangezogen werden. Plasmid Ringförmige extrachromosomale DNA, die in der Zelle unabhängig von der Replikation der Chromosomen vervielfältigt werden kann. Bakterien können Plasmide untereinander austauschen und somit Gene wie z.B. Resistenzgene auf andere Bakterien
Glossar für Bioinformatik
189
übertragen. In der Biotechnologie benutzt man Plasmide als Vektoren, in denen Fremd-DNA kloniert werden kann. Plastid
Pflanzliche Organellen wie. z.B. Chloroplasten, Amyloplasten, Chromoplasten.
PMC PubMed Central. Digitale Archive am NCBI von Voll-Text-Literatur aus Journalen der Lebenswissenschaft. PMC ist über das Internet frei zugänglich. Poly(A)-Schwanz Eine Sequenz von Adenosinen, die einer eukaryotischen mRNA am 3’-Ende angehängt werden, um diese zu stabilisierten. Die Erkennungssequenz auf der mRNA wird als Polydenylierungsstelle (Polyadenylations-Site oder -Signal) bezeichnet. Eine praktische Anwendung findet der Poly(A)-Schwanz in mRNA-Isolierungsmethoden und der RT-PCR. Polymorphismus Vielgestaltigkeit. Eine genetische Veränderung in einer Population im Vergleich zu einer anderen Population. Post-translationale Modifizierung Veränderung an einem Protein nach der abgeschlossenen Translation. Die Modifikation kann für die Funktion des Proteins ausschlaggebend sein. Beispiele für die PTM sind Protein-Phosphorylierungen, Glykosylierungen u.ä. Primärdatenbank Archivdatenbank, in die alle Informationen ohne Filterung und Modifizierung aufgenommen wird, wie z.B. bei GenBank Primer Kurzes Oligonukleotid aus RNA-oder DNA-Nukleotiden von ca. 18–25 bp Länge, welches nach Bindung an einen komplementären DNA-Einzelstrang an seinem 3’-Ende den Ansatzpunkt für die Nukleinsäure-Synthese darstellt. Probe (engl.) Sonde. Markiertes Molekül zur Identifizierung und/oder Isolierung von DNA- oder Proteinmolekülen. Profile Globale Sequenzähnlichkeit zwischen Proteinsequenzen. Ein Profil wird mit einer positionsspezifischen Gewichtungsmatrix (PSSM) beschrieben, die aus multiplen Alignments verwandter Sequenzen abgeleitet wurde (siehe http://www.expasy.org/txt/profile.txt). Prokaryote Organismus ohne echten Zellkern. Die chromosomale DNA ist nicht von einer Membran umgeben. Promoter (site) Eine dem Transkriptionsstartpunkt vorgeschaltete DNA-Sequenz, die für die Regulation des Gens ausschlaggebend ist und als Erkennungs- und Bindungsstelle der RNA-Polymerasen dient. PROSITE Datenbank für Proteinfamilien und Proteindomänen. Bei den Datenbankeinträgen handelt es sich um Pattern oder Profile, die mehrere tausend Proteinfamilien und Domänen repräsentieren (siehe Pattern bzw. Profile). Proteinfamilien Eine Gruppe von homologen Proteinsequenzen, die eine oder mehrere gemeinsame Domänen aufweisen (s. auch Fingerprint). Proteome
Gesamtheit aller Proteine in einem Organismus oder Zelltyp.
190
Glossar für Bioinformatik
Proteomics Forschungsgebiet mit dem Ziel, alle Informationen der Proteome zu entschlüsseln. Methoden der Proteomics sind die 2D-Gelelektrophorese und die Massenspektroskopie. PSI-BLAST Position-Specific-Interated BLAST. BLAST-Programm zur Sequenzähnlichkeitssuche für entfernt verwandte Proteinsequenzen. Nach jeder Iteration (Wiederholung) verwendet das Programm eine der Ausgangssequenz angepasste Matrix, um die Suche im nächsten Schritt weiter auf die isolierten konservierten Bereiche zu fokussieren. PSSM Position specific Scoring Matrix. Eine Matrix, die speziell für die Treffer aus einer initialen BLAST-Suche (z.B. einer BLASTP Suche mit der Matrix BLOSUM62) erstellt wird. Hierdurch kann die Suche nach Mitgliedern einer Proteinfamilie sensibilisiert werden. Pseudogen Gen ohne Funktion. Pseudogene sind entweder aus Genduplikation oder aus Reinsertionsereignissen von cDNA/cRNA hervorgegangen und werden nicht mehr in Protein translatiert. Häufige Pseudogene sind Kopien der Haushaltsgene. Sie weisen oft eine Sequenzähnlichkeit von 80-90 % zum Ursprungsgen auf. PubMed Datenbank mit Zitaten und Zusammenfassungen von Artikeln der biomedizinischen Literatur. Purin Stickstoffhaltiges Molekül mit einer doppelten Ringstruktur, welches die chemische Grundstruktur der Basen Adenin und Guanin bildet. Pyrimidin Stickstoffhaltiges Molekül mit einer sechseckigen Ringstruktur, welches die chemische Grundstruktur der Basen Thymin, Cytosin und Uracil bildet. Query (Sequenz) (engl.) Suche, Abfrage. Eine DNA-, RNA- oder Proteinsequenz, die für die Suchanfrage in einer Sequenzdatenbank verwendet wird, um ähnliche, schon bekannte Sequenzen zu finden. Reading frame siehe ORF Rekombinante DNA (rDNA) DNA-Molekül, welches aus Sequenzen zusammengesetzt wurde, die normalerweise nicht miteinander verbunden sind (z.B. aus unterschiedlichen Organismen). Rekombination Austausch von Allelen, die über Crossing-over oder über andere Prozesse neu kombiniert werden. Relational Database Management Systems (RDBMS) Software zum Aufbau und zur Verwaltung einer Relationalen Datenbank, inklusive Funktionen zur Einflussnahme auf die Datenbankarchitektur, die Suchanfrage und Werkzeuge zum Up- und Download von Daten. Replikation Synthese eines identischen Makromoleküls (insbesondere der genomischen DNA) von einer Vorlage. Restriktionsenzym (Restriktionsendonuklease) Bakterielles Enzym, das an ein DNAMolekül bindet und innerhalb dieser Erkennungssequenzen (Typ II Endonukleasen) oder in dessen Nähe (Typ I und Typ III Endonukleasen) die DNA schneidet.
Glossar für Bioinformatik
191
Reverse Genetik In der reversen Genetik wird nicht von einem Phänomen ausgegangen und dann nach dem entsprechenden Gen geforscht, sondern es wird mittels gezielter Mutagenese ein Genabschnitt verändert. Daraufhin wird untersucht, wie sich dies auf die Funktion einer Zelle oder eines Organismus auswirkt. Aus den Veränderungen wird dann auf die Funktion des Gens geschlossen. Reverse Transcriptase RNA-abhängige DNA-Polymerase. Enzym zur Herstellung eines zu einer RNA komplementären DNA-Stranges (cDNA). Anwendung: RT-PCR. Die RT-Reaktion ist ein der PCR vorgelagerter Schritt, da für die Amplifikation stabilere cDNA anstelle von mRNA eingesetzt wird. Rezessiv Phänotypische Ausprägung eines Gens, von dem zwei gleiche Allele in einer Zellpopulation vorliegen müssen, um in Erscheinung zu treten. RID Request ID. Identifizierungsnummer für eine (BLAST-) Suche am NCBI, über die das Suchergebnis noch 24h vom NCBI-Server abgerufen werden kann. RNA Ribonukleinsäure/Ribonucleic acid. Eine der DNA verwandte Nukleinsäure mit den Basen Thymin, Uracil, Guanin und Adenin sowie dem Zuckermolekül Ribose (nicht Desoxy-Ribose wie in der DNA). Man unterscheidet verschiedene Typen RNA, die alle unterschiedliche Funktionen ausüben, wie z.B. mRNA (messenger RNA – Boten-RNA für die Übersetzung der kodierenden DNA-Information zur Proteinsequenz), tRNA (transfer RNA – für die Bereitstellung von Aminosäuren bei der Proteintranslation), rRNA (ribosomal RNA – RNA der Ribosomen), hnRNA (heterous nuclear RNA oder Primär-Transkript), snRNA (small nuclear RNA, Bestandteil der Spleißosomen), Ribozyme (katalytisch wirksame RNA) und andere. Röntgenstrahlkristallographie/Röntgenstrukturanalyse Methode zur Auflösung der dreidimensionalen Struktur eines (Protein-)Moleküls, für die eine Kristallisation des Moleküls erforderlich ist (s. NMR). RPS-BLAST Reverse Position-Specific BLAST. BLAST Programm für die Suche mit einer Sequenz in einer Datenbank mit PSSMs (Position-specific Scoring Matrices), durch die konservierte Bereiche von Proteinen beschrieben sind. Über dieses Programm können homologe konservierte Regionen in einem Protein schnell gefunden werden. SAGE Serial Analysis of Gene Expression. Methode zur Identifizierung von kurzen, meist 10 Nukleotide langen DNA-Fragmenten, die stellvertretend für mRNA-Moleküle (BotenRNA) oder genomische DNA-Abschnitte sind. Mit SAGE kann das Transkriptom einer Zelle, eines Gewebes oder eines Organs zu einem beliebigen Entwicklungs- oder Krankheitsstadium umfassend analysiert werden. SAGE ermöglicht die Analyse einer sehr großen Menge von Genen. Ferner kann die Anzahl der genspezifischen mRNA-Moleküle relativ gut bestimmt werden; SAGE ist also eine Quantifizierungsmethode. Gegenüber dem Microarray-Verfahren, welches als ‚closed system‘ nur bekannte und gespottete Gene detektieren kann, bietet SAGE als ‚open system‘ den Vorteil, dass auch noch unbekannte Gene, oder Gene, von denen nicht erwartet wurde, sie vorzufinden, detektiert und ausgewertet werden können (Quelle: Wikipedia; Nov. 2006). Scoring Matrix siehe Matrix
192
Glossar für Bioinformatik
Sekundäre Datenbank Datenbank mit überarbeiteten und aus primären Datenbanken abgeleiteten Informationen. Selectivity (engl.) Selektivität. Die Selektivität bioinformatischer Ähnlichkeitssuchalgorithmen leitet sich aus den Grenzwerten der Signifikanzberechnungen ab. In BLAST definiert der E-Wert den oberen Grenzwert aller Treffer, die wahrscheinlich nicht zufällig bei einer Suche mit den gegebenen Parametern auftreten. Sensitivity Empfindlichkeit. Für die Empfindlichkeit bioinformatischer ÄhnlichkeitsSuchalgorithmen sind zwei Überlegungen ausschlaggebend: 1. Wie gut eignet sich die Methode, wenn die gesuchten Sequenzen Mutationen und Sequenzierungsfehler enthalten? 2. Welchen Einfluss nimmt der Algorithmus auf die Wahrscheinlichkeit, dass ähnliche Sequenzen nicht gefunden werden? Der Benutzer kann oft die Geschwindigkeit der Sequenzähnlichkeitssuche herabsetzen, um eine höhere Empfindlichkeit für die Suche zu erzielen (Quelle: Wikipedia). Sequence Assembly Ein Sequenzzusammenschluss aus kurzen, sich überlappenden Sequenzen mit dem Ziel eine lange (Konsensus-)Sequenz zu bilden. Sequin Programm zur Übermittlung und Veröffentlichung von langen oder vielen Sequenzen und anderen Daten wie z.B. kompletten Genomen, Alignments oder phylogenetischen Studien an das NCBI. Server Ein Computer oder ein Computerprogramm, die Informationen über ein Netzwerk an einen angeschlossenen Computer (Client) weitergeben. Signifikanz In der Statistik heißen Unterschiede signifikant, wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind. Die Überprüfung statistischer Signifikanz geschieht unter Anwendung von Signifikanztesten, die eine Abschätzung der Irrtumswahrscheinlichkeit erlauben. Ein sog. Signifikanzniveau wird vorher festgelegt, z.B. _ oder p= 0,05 für 5% maximal zulässige Irrtumswahrscheinlichkeit. (Quelle: Wikipedia; Mai 2007) Singleton EST-Sequenz, die nicht mit anderen EST-Sequenzen überlappt und somit nicht Teil eines EST-Clusters ist. Smith/Waterman-Algorithmus Erweiterung des Needleman/Wunsch-Algorithmus. Lokaler Vergleich von Sequenzsegmenten unterschiedlicher Länge. Die Methode ist sehr sensitiv, aber rechner- und zeitintensiv. SNP Single Nucleotide Polymorphism. Genetische Variation, für die der Austausch von nur einem Nukleotid verantwortlich ist. Spleißen/ Spleißvarianten Entfernen von Introns aus dem Primärtranskript eines eukaryotischen Gens. Durch alternatives Spleißen kommt es zu unterschiedlich zusammengesetzten Transkripten, die in unterschiedliche Proteine (Spleißvarianten) translatiert werden. SRS Sequence Retrieval System. Datenbankverwaltungs- und Abfrage-Software der Firma LION, die auf vielen Bioinformatik-Servern installiert ist und eine datenbankübergreifende Suchabfrage erlaubt. Am EBI sind über 400 Datenbanken in das SRS eingebunden.
Glossar für Bioinformatik
193
STS Sequence Tagged Site. Kurze DNA-Sequenz (100-500 bp), die im Genom nur einmal vorkommt. Durch diese Eigenschaft eignet sie sich zur physikalischen Kartierung und gezielten Klonierung von genomischen Fragmenten. Substitutionsmatrix siehe Matrix. Suchfeldqualifizierung Angabe zum Suchwort über den Ort der Suche, z.B. Müller[Autor] oder Müller[AU] fokussiert die Suche nach dem Autor „Müller“ nur im Autorenfeld und nicht in allen indexierten Feldern einer Datenbank. Synonymous/Non-synonymous changes Synonymer/Nicht-synonymer Basenaustausch. Veränderung einer Base in einer DNA-Sequenz, die nicht zu einer Veränderung in der kodierenden Aminosäuresequenz führt, bzw. die zu einer Veränderung in der kodierenden Aminosäuresequenz führt. Synthenie Bezeichnung für die Übereinstimmung von langen Chromosomenabschnitten zwischen unterschiedlichen Arten. Dabei sind nicht nur die Gene, sondern auch ihre Reihenfolge und Orientierung konserviert. Systembiologie Innovatives interdisziplinäres Forschungsfeld mit dem Ziel, eine Zelle oder ein Organ in der Gesamtheit ihrer komplexen und dynamischen Abläufe (z. B. Umweltanpassung, Alterung oder Immunabwehr) quantitativ zu verstehen und abzubilden (z. B. Modellierung von Lebensprozessen). Taxonomie Teilbereich der Biologie/Systematik. Die Taxonomie beschäftigt sich mit der Einteilung der Organismen nach Kriterien der „abgestuften Ähnlichkeiten“. Aus den identifizierten gruppenspezifischen Merkmalen werden phylogenetische Verwandtschaftsbeziehungen zwischen den Gruppen abgeleitet und als Grundlage für eine Klassifikation der Organismen in einem hierarchischen System herangezogen. Die Taxa (Kategorien) im animalischen System lauten: Reich (kingdom), Stamm (phylum), Klasse (class), Ordnung (order), Familie (family), Sippe (tribe), Gattung (genus), Art (species). Hinzu kommen Über- und Unter-Taxa wie z.B. Unterart (subspecies). Art- und Unterartnamen werden in der binären (und tenären) Nomenklatur kursiv geschrieben. TCP Transmission Control Protocol. Kommunikationsprotokoll für die Datenübertragung über das Internet. Teilt die Daten in ungefähr gleich große Blöcke auf und übergibt sie IP zur Übertragung. Überprüft auch die Korrektheit der Übertragung über eine Prüfsumme. Wird oft mit IP gemeinsam erwähnt. TIGR The Institute of Genomic Research. Amerikanisches Zentrum für Genomforschung. Thymin
Eine Pyrimidinbase in den Nukleotiden von DNAs (aber nicht von RNAs).
Transkription
Synthese von mRNA (Transkript) durch das Enzym RNA-Polymerase.
Transkriptom sind.
Alle mRNA-Transkripte in einem Organismus, die gleichzeitig vorhanden
Transition Mutation durch Austausch einer Purinbase gegen eine andere Purinbase (A,G) bzw. einer Pyrimidinbase gegen eine Pyrimidinbase (C,T).
194
Glossar für Bioinformatik
Translation
Proteinbiosynthese an den Ribosomen. Die mRNA dient als Matrize.
Transversion Mutation durch Austausch einer Purinbase (A,G) gegen eine Pyrimidinbase (C,T) oder umgekehrt. Unitary Matrix Bewertungsschema für die Sequenzähnlichkeitssuche, bei der es nur zwei Bewertungen gibt. Eine positive Bewertung für eine Sequenzübereinstimmung (z.B. +1) und eine negative Bewertung bei fehlender Sequenzübereinstimmung (z.B. -5). UNIX Ursprünglich UNICS (UNIplexed Information and Computing Service). Mehrbenutzer-Betriebssystem, Anfang der 70er Jahre in den amerikanischen Bell-Laboratories entwickelt. UPGMA Unweighted Pair-Group Method with Arithmetric Mean. Methode, bei der die Astlängen an einem phylogenetischen Baum aus dem Mittelwert der Distanzen gebildet werden. Uracil
Pyrimidinbase in den Nukleotiden von RNA (aber nicht von DNA).
URL Uniform Resource Locator. Adresse für eine Internetseite unter Angabe des Protokolls (http), des Dienstes (www) und der Domäne (biotools.info). Oft kommt noch ein Dateiname hinzu, wie z.B. /index.html. UTR Untranslated Region. Bereiche eines Gens, die transkribiert, aber nicht translatiert werden. Sie liegen im „upstream“ (5‘) und im „downstream“ (3‘) Bereich der kodierenden Region. Variation siehe Mutation VAST Vector Alignment Search Tool. Algorithmus für den Vergleich der strukturellen Ähnlichkeit zwischen Proteinen (nicht für einen Vergleich von Sequenzähnlichkeiten). Vector Agenz, oft autonome DNA, wie z.B. Plasmide, zur Übertragung von genetischem Material von einem Wirt in einen anderen Organismus. Vektoren sind in der Biotechnologie z.B. BACs, YACs, Fosmide und Plasmide. Virtual Northern (Blot) siehe electronic Northern (Blot) VNTRs Variable numbers of tandem repeats. DNA-Sequenzblöcke von 2–60 bp, die sich bis zu über 20-mal wiederholen können. Diese Wiederholungseinheiten sind in jedem Individuum unterschiedlich lang und werden für genomische Kartierungen und zu FingerprintAnalysen herangezogen. WGS Whole Genome Shotgun (Sequencing). Wiederholungssequenzen/Repeats Man unterscheidet STR – Short Tandem Repeats (Mikrosatelliten mit einer Wiederholungseinheit von 1–6 bp; Minisatelliten mit einer Wiederholungseinheit von 10–100 bp) und LTR – Long Tandem Repeats (Mobile Elemente wie z.B. Transposons). Geläufig ist auch die Einteilung der Wiederholungssequenzen in SINE (short interspersed elements) wie z.B. Alu-Sequenzen, und LINE (long interspersed elements).
Glossar für Bioinformatik
195
Wiki Webseite, deren Inhalt öffentlich bzw. von einem begrenzten Benutzerkreis direkt bearbeitet werden kann. Wikipedia Internationales Projekt mit dem Ziel, eine freie Internet-Enzyklopädie zu erstellen (http://www.wikipedia.org). Wildcard (engl.) Platzhalter. Sonderzeichen (oft ein Sternchen (*)) für Datenbankrecherchen, um einen Wortstamm mit unbekannten Buchstaben zu verlängern und diese Wörter mit in die Datenbanksuche einzubeziehen wie z.B. biolog* für biologie, biologe, biologen, biologisch, usw. Wild type (engl.) Ursprungsform. Ursprüngliche, natürliche Form eines Allels. In einer Population ist es das am häufigsten vorkommende Allel und wird zur Grundlage und zum Vergleich für Untersuchungen abweichender (seltener oder mutierter) Allele herangezogen. Wortlänge/Word size Festgelegte Sequenzlänge für den Abgleich einer Sequenz mit den Sequenzen in einer Datenbank. Die Standardeinstellungen für NCBI-BLAST Suchen ist eine Wortlänge von 3 (BLASTP) bzw. 11 (BLASTN). Die Wortlänge sollte für eine Suche nach kurzen Sequenzen herabgesetzt werden. WTSI