MIT hat das Pichia-CLM-Modell entwickelt, um die "Sprache" der Hef-DNA zu lernen. Die Produktion von Fremdproteinen kann um bis zu einem Faktor von 3 erhöht werden.
Ein Forschungs-Team von der Massachusetts Institute of Technology (MIT) hat ein Deep-Learning-basiertes Sprachmodell namens Pichia-CLM vorgeschlagen, das für die Codon-Optimierung in der industriell relevanten Wirtszelle Komagataella phaffii (Pichia pastoris) eingesetzt wird, um die Produktion von rekombinanten Proteinen zu erhöhen. Die Forscher haben Pichia-CLM an sechs verschiedenen Proteinklassen unterschiedlicher Komplexität getestet und im Vergleich zu vier kommerziellen Codon-Optimierungstools stets höhere Expressionsraten beobachtet.
Im Bereich der Biopharmazie und der industriellen Biotechnologie ist die effiziente Expression von rekombinanten Proteinen immer noch der entscheidende Faktor für die Produktionskosten und die Prozessfähigkeit. Von monoklonalen Antikörpern und Impfantigenen bis hin zu industriellen Enzympräparaten kann eine geringe Steigerung der Expressionsrate erhebliche wirtschaftliche Vorteile bringen.
Unter den vielen Expressionssystemen hat Komagataella phaffii (Pichia pastoris) sich aufgrund seiner Fähigkeit zur Hochdichtefermentation, seines etablierten Sekretionssystems und seiner guten Proteinverarbeitungskapazität zu einem wichtigen Wirt für die industrielle Produktion entwickelt. Ein seit langem bestehendes Problem in der Branche ist jedoch, dass selbst bei identischen Aminosäuresequenzen die Veränderung der „synonymen Codons“ in der codierenden DNA zu einem deutlichen Unterschied in der Expressionsrate führen kann.
Dieses Phänomen beruht auf der Codon-Verwendungspräferenz (Codon Usage Bias, CUB) – in vielen Organismen werden bestimmte synonyme Codons bevorzugt. Die Wahl der synonymen Codons kann die Proteinproduktion beeinflussen, indem sie die Transkription, die mRNA-Stabilität, die Translation, die Proteinfaltung, die posttranslationale Modifikation (PTMs) und die Löslichkeit beeinflusst. Daher ist die „Codon-Optimierung“ ein entscheidender Schritt bei der Expression von Fremdproteinen.
Derzeit gibt es bereits mehrere Codon-Optimierungstools und -methoden, die auf der CUB des Wirtsorganismus basieren. Diese Methoden können jedoch möglicherweise nicht immer zu stabilen, hoch exprimierenden Konstrukten führen. In den letzten Jahren haben Forscher mit der Entwicklung von Künstlicher Intelligenz, insbesondere von Sequenzmodellierungstechniken, begonnen, Gensequenzen als eine Art „Sprache“ zu betrachten und versuchen, die impliziten Regeln mithilfe von Methoden der natürlichen Sprachverarbeitung zu lernen.
In diesem Zusammenhang hat das Forschungs-Team von der MIT ein Deep-Learning-basiertes Sprachmodell namens Pichia-CLM vorgeschlagen, das für die Codon-Optimierung in der industriell relevanten Wirtszelle Komagataella phaffii (Pichia pastoris) eingesetzt wird, um die Produktion von rekombinanten Proteinen zu erhöhen. Im Gegensatz zu traditionellen Methoden, die auf CUB-Indizes basieren (die normalerweise nur eine globale Bewertung liefern und den Sequenzkontext ignorieren), lernt Pichia-CLM die Abbildung von Aminosäuren auf Codons unvoreingenommen anhand der Wirtsgenomdaten. Die Forscher haben Pichia-CLM an sechs verschiedenen Proteinklassen unterschiedlicher Komplexität getestet und im Vergleich zu vier kommerziellen Codon-Optimierungstools stets höhere Expressionsraten beobachtet.
Die Ergebnisse dieser Studie wurden unter dem Titel „Pichia-CLM: A language model–based codon optimization pipeline for Komagataella phaffii“ in der Zeitschrift PNAS veröffentlicht.
Hervorhebungen der Studie:
* Pichia-CLM lernt unvoreingenommen die Abbildung von Aminosäuren auf Codons anhand der Wirtsgenomdaten. Es berücksichtigt nicht nur die Präferenzen des Wirts, sondern kann auch positionelle Abhängigkeiten und langreichweitige Kontextbeziehungen erfassen.
* Pichia-CLM wurde an sechs verschiedenen Proteinklassen unterschiedlicher Komplexität getestet, und es wurden stets höhere Expressionsraten beobachtet.
* Die vom Modell gelernten Aminosäure- und Codon-Einbettungen können anhand ihrer physikochemischen Eigenschaften gruppiert werden, was zeigt, dass das Sprachmodell physikalisch sinnvolle Regeln erfassen kann.
Link zur Studie: https://www.pnas.org/doi/10.1073/pnas.2522052123
Erstellung eines umfangreichen Sequenzdatensatzes mit Fokus auf Komagataella phaffii
Im Gegensatz zu traditionellen Methoden, die auf Erfahrungswerten basieren, zielt Pichia-CLM darauf ab, die Kodierungsregeln direkt aus dem Wirtsgenom zu lernen. Dazu hat das Forschungs-Team einen umfangreichen Sequenzdatensatz mit Fokus auf Komagataella phaffii erstellt.
Zur Trainierung von Pichia-CLM haben die Forscher Aminosäure- und Codierungssequenzdaten von zwei Komagataella phaffii-Varianten (CBS7435 und GS115) aus der NCBI-Datenbank gesammelt. Darüber hinaus haben sie die Daten aus früheren Genomsequenzierungs- und -annotierungsprojekten ihres Labors hinzugefügt, einschließlich GS115, K. phaffii (NRRL Y11430) und K. pastoris – insgesamt wurden etwa 27.000 Paare von Aminosäure- und Codierungssequenzdaten verwendet.
Bei der Datenverarbeitung haben die Forscher die Aminosäuren und Codons tokenisiert und Start- (<START>), Stopp- (<END>) und Füll- (<PAD>) Token eingeführt, damit das Modell Sequenzen unterschiedlicher Länge verarbeiten und Batch-Training unterstützen kann. Der Datensatz wurde in einen Trainings- und einen Testdatensatz aufgeteilt, wobei etwa 20 % der Daten zur Bewertung der Vorhersagefähigkeit des Modells auf unbekannten Daten verwendet wurden.
Es ist wichtig zu beachten, dass diese Art der Datenaufbereitung keine „Optimierungsziele“ manuell eingeführt hat, sondern vollständig auf natürlichen Genomdaten basiert. Dies bedeutet, dass das Modell die echten Expressionspräferenzen des Wirts lernt, anstatt auf künstlichen Näherungsregeln zu basieren, was die Grundlage für die spätere Leistungssteigerung bildet.
Pichia-CLM nutzt eine Encoder-Decoder-Architektur auf Basis von GRUs
Modellarchitektur
Pichia-CLM nutzt eine Encoder-Decoder-Architektur auf Basis von Gated Recurrent Units (GRUs), die eine verbesserte Art von rekurrenten neuronalen Netzwerken sind, die darauf abzielen, lang- und kurzreichweitige Abhängigkeiten in Sequenzdaten zu erfassen. Durch die Gating-Mechanismen, die den Informationsfluss regulieren, vermeiden GRUs das Problem des Gradientenverschwindens, das bei traditionellen RNNs häufig auftritt. Darüber hinaus können GRUs in ihrer Leistung mit Long Short-Term Memory-Netzwerken (LSTMs) konkurrieren, erfordern aber weniger Parameter und weniger Rechenressourcen, was sie in vielen Sequenzmodellierungsaufgaben effizienter macht.
Im Vergleich zu der anderen populären Architektur, dem Transformer, sind GRUs bei kleinen bis mittleren Datensätzen rechentechnisch effizienter und verbrauchen weniger Ressourcen. Studien haben gezeigt, dass bei einem Datensatz von etwa 27.000 Sequenzen der Einsatz eines Transformers unnötige Komplexität hinzufügt, während GRUs ein besseres Gleichgewicht zwischen Leistung und Effizienz erzielen können.
Das Modell nimmt die Aminosäuresequenz eines Proteins als Eingabe und generiert basierend auf den Mustern, die es aus den Aminosäure- und Codierungssequenzen des Wirts gelernt hat, die entsprechende DNA-Sequenz. Die Gesamtarchitektur ist in der folgenden Abbildung dargestellt:
Arbeitsablauf und Schema von Pichia-CLM
Modelltraining
Während des Trainings haben die Forscher einen Validierungsdatensatz (20 % des Trainingsdatensatzes) für das Early Stopping verwendet, um die Parameter zu optimieren. Gleichzeitig wurde die Hyperparameterauswahl mit dem Ziel der Minimierung des Validierungsverlusts (sparse categorical cross-entropy) durchgeführt. Die Hyperparameteroptimierung wurde mithilfe der Bayes'schen Optimierung, einer globalen Optimierungsstrategie, und eigens entwickelter Code implementiert.
Insbesondere wurden die folgenden Hyperparameter im Modell verwendet:
* Dimension der Aminosäure-Einbettung
* Dimension der Codon-Einbettung
* Anzahl der Einheiten in der Encoder-Schicht
* Größe der vollständig verbundenen Schicht für Codons im Decoder
* Größe der vollständig verbundenen Schicht für Aminosäuren im Decoder
Während der Trainingsphase wird dem Decoder die echte Codierungssequenz (d. h. die echten Codons) als Eingabe gegeben. Bei der Vorhersage verwendet das Modell die vorhergesagten Codons aus der vorherigen Position als Eingabe für die nächste Position, um eine vollständige autoregressive Vorhersage zu ermöglichen. Wenn ein Stopp-Codon erreicht wird, wird die Sequenzvorhersage beendet.
Nach der Auswahl der Architektur und der Validierung der Vorhersagefähigkeit auf dem Testdatensatz haben die Forscher das endgültige Modell mit dem gesamten Datensatz neu trainiert und weiterhin die Early-Stopping-Strategie angewandt, um Überanpassung zu vermeiden. Dieses endgültige Modell wird zur Entwurf der Codierungssequenzen von Fremdproteinen verwendet.
Pichia-CLM kann Konstrukte für die Produktion von hochproduktiven Proteinen generieren
Bei den experimentellen Validierungen hat das Forschungs-Team sechs Proteine unterschiedlicher Komplexität getestet, darunter:
* Humanes Wachstumshormon (hGH)
* Humanes Granulozyten-Kolonie-stimulierender Faktor (hGCSF)
* VHH-Nanobody 3B2 (34)
* Eingene Variante der SARS-CoV-2 RBD-Untereinheit (RBD) (35)
* Humanes Serumalbumin (HSA)
* IgG1-monoklonaler Antikörper Trastuzumab (Trast)
Leistung von Pichia-CLM bei der Verbesserung der Proteinsekretion in Komagataella phaffii
Zunächst haben die Forscher drei humane Proteine unterschiedlicher Größe und Komplexität (hGH, hGCSF und HSA) ausgewählt und die Proteinsekretionsraten (Titer) der von Pichia-CLM generierten Genkonstrukte mit denen der natürlichen Codierungssequenzen verglichen. Insgesamt wurde bei Proteinen wie hGH und hGCSF eine Steigerung der Produktion um etwa 25 % beobachtet, während bei HSA eine signifikante Steigerung um das etwa 3-fache festgestellt wurde.
Anschließend haben die Forscher Pichia-CLM mit vier kommerziellen Codon-Optimierungstools (Azenta, IDT, GenScript und Thermo Fisher) verglichen und die sechs oben genannten Proteine anhand zweier Indikatoren bewertet:
* BestTiter: Anzahl der Proteine, bei denen eine Methode den höchsten Titer erzielt hat
* Aggregated Score (Gesamtwertung): Summe der relativen Titer (normalisiert auf den Maximalwert) der verschiedenen Proteine
Insgesamt hat Pichia-CLM in beiden Indikatoren die kommerziellen Algorithmen übertroffen (siehe Abbildung C unten); es erreichte bei fünf der sechs Proteine den höchsten Titer und hatte nur bei HSA einen etwas geringeren Titer, was zu einer leichten Abnahme des Gesamtwerts (etwa 0,2) führte (siehe Abbildung D unten).
(C) Rangfolge der verschiedenen Codon-Optimierungsalgorithmen anhand zweier Indikatoren;
(D) Vergleich der Codon-Optimierungseffizienz von Pichia-CLM und kommerziellen Algorithmen bei verschiedenen Molekülen
Bewertung der genetischen Sequenzeigenschaften
Nach der Validierung der Leistung von Pichia-CLM bei der Produktion von Fremdproteinen haben die Forscher die genetischen Sequenzeigenschaften der verschiedenen Entwurfskonstrukte weiter analysiert. Codon-Optimierung basiert in der Regel auf einem oder mehreren Codon-Verwendungspräferenz- (CUB-) Indizes, einschließlich anderer bereits berichteter Protein-Sprachmodelle. Daher haben sie die Korrelation zwischen diesen CUB-Indizes und der Proteinproduktion anhand der Daten der sechs getesteten Proteine bewertet.
Die Ergebnisse zeigen, dass keine dieser Indizes eine konsistente und hohe Korrelation mit der Proteinproduktion zwischen den verschiedenen Proteinen aufweist. Beispielsweise war bei HSA (siehe Abbildung A unten) die maximale positive Korrelation mit der Codon-Variabilität und der Codon-Frequenzverteilung (CFD) nur 0,43, während die maximale negative Korrelation mit der Codon-Paar-Bewertung (CPS) nur 0,25 betrug.
Vergleich der Anzahl der vorhergesagten negativen cis-regulatorischen Elemente in den von Pichia-CLM und kommerziellen Algorithmen entworfenen Sequenzen bei den experimentell getesteten Proteinen
Globale CUB-Indizes, die auf der gesamten Sequenz berechnet werden, haben deutliche Einschränkungen bei der Charakterisierung der Merkmale, die mit der Produktion von Fremdproteinen verbunden sind. Dies zeigt, dass neue Bewertungsindizes zur Bewertung von Codon-Optimierungstools erforderlich sind und dass strenge experimentelle Validierungen mit einer Vielzahl von Proteinen durchgeführt werden müssen – dieses Ergebnis stellt die theoretische Grundlage der traditionellen Codon-Optimierung direkt in Frage.
Bewertung der Sequenzmerkmale
Die Forscher haben auch das Vorhandensein negativer cis-regulatorischer Elemente in verschiedenen Codon-Optimierungs-Konstrukten bewertet. Diese Elemente können die Regulationsmechanismen des Wirts stören und sollten daher in Fremd-DNA-Sequenzen möglichst vermieden werden