Ich, 22 Jahre alt, helfe mit KI 40.000 Schülern bei ihrer Prüfungsvorbereitung und habe eine Investition von Zhao Changpeng erhalten.
Text | Deng Yongyi
Redaktion | Su Jianxun
Im September 2025 trafen sich zum ersten Mal online Zhao Kai, der Gründer von VideoTutor, und Zhao Changpeng, der Gründer von Binance, und führten ein ausführliches Gespräch. Einen Monat später war seine erste Finanzierung erfolgreich abgeschlossen – Zhao Changpengs YZi Labs gab bekannt, VideoTutor zu leiten und damit der erste externe Investor dieser Startup-Unternehmen zu werden.
Zhao Kai erklärte, dass der Hauptgrund für die rasche Finanzierungsabwicklung darin lag, dass beide dieselbe große Leidenschaft für Bildung hatten – auch Zhao Changpeng hatte nach seinem Erfolg ein gemeinnütziges Bildungsprogramm namens GiggleAcademy ins Leben gerufen, um armen Kindern in Entwicklungsländern Bildungschancen zu bieten.
Zweitens zeigte das VideoTutor-Team ein hohes Maß an Schnelligkeit bei der Iteration. Nach Abschluss der Investition gab Zhao Changpeng dem jungen Mann nur einen Rat: „Bleib dabei, das Produkt gut zu machen, und sei nicht so eilig, Geld zu verdienen.“
Nach dieser Finanzierung beschleunigte sich alles. Kurz darauf traf Zhao Kai eine noch schwierigere Entscheidung – er absolvierte offiziell seine Studienabbruchformalitäten und begann seine Vollzeitgründung.
Wenn Zhao Kai seine eigene Geschichte erzählt, klingt es wie ein rasant voranschreitender Gründungsroman.
Als er in der dritten Klasse der Grundschule war, las er erstmals „Fire in the Valley“ und Bücher von Kevin Kelly, was ihm einen ersten Eindruck von der Tech-Welt jenseits des Ozeans verschaffte und ihn dazu brachte, sich ständig zu beschäftigen – er lernte Programmieren selbstständig und nahm aktiv an verschiedenen Wettbewerben teil, gewann Preise und bereitet sich auf seinen Weg nach Silicon Valley vor.
Im Jahr 2023 absolvierte Zhao Kai die Aufnahmeprüfung für die San José State University in den USA und begann rasch seine Gründungsreise: Im ersten Semester arbeitete er zusammen mit einem älteren Kommilitonen an einer App für Studentenliebe und erhielt eine Finanzierung von 200.000 US-Dollar. Acht Monate später scheiterte das Projekt. Im zweiten Semester beteiligte er sich an der Gründung der Mathematiklern-App MathGPT Pro, wurde in das Miracle Plus Accelerator aufgenommen und erhielt eine Frühstadieninvestition.
Aber die zweite Gründung ließ ihn fühlen, dass reine Text-Applikationen für das Fotografieren und Suchen nach Aufgabenlösungen ihre Grenzen erreicht hatten. Also gründete er im Jahr 2025 zusammen mit dem Google-AI-Ingenieur James und seinem Mitbewohner Nick ein neues Unternehmen namens VideoTutor, das weiterhin im Bereich der Aufgabenlösung gründet.
VideoTutor ist eine AI-basierte Aufgabenlösungsanwendung – Schüler können eine Mathematikaufgabe per Foto oder Texteingabe (derzeit hauptsächlich Aufgaben aus Standardtests wie SAT und AP) eingeben, und binnen einigen Sekunden wird ein Video mit einem flüssigen Lösungsanimation (z. B. Zeichnung von Funktionsgraphen, Markierung von geometrischen Figuren) und einer klaren Schritt-für-Schritt-Analyse generiert. Die Erfahrung ist sehr ähnlich wie wenn ein guter Lehrer Ihnen an der Tafel die Aufgabe erklärt.
Derzeit befindet sich VideoTutor noch in der Vor-Testphase. Die erste Generierung eines Lösungsvideos ist kostenlos, danach kostet die Generierung von vier Videos 3,99 US-Dollar.
△Quelle: VideoTutor
Das von dieser App erzielte Ergebnis ist: 20 Tage nach dem Produktstart hatten bereits über 30.000 Benutzer das Produkt registriert, die Anzahl der Videoansichten hat die 10-Millionen-Marke überschritten und es wurden über 100.000 Videos generiert.
Kürzlich hat VideoTutor eine neue Finanzierungsrunde von über 11 Millionen US-Dollar abgeschlossen. Diese Finanzierungsrunde wurde von YZi Labs unter der Leitung von Zhao Changpeng geleitet, und BV Baidu Ventures, Jinqiu Fund, Amino Capital, BridgeOne Capital sowie mehrere bekannte Investoren haben gemeinsam beteiligt. Dies ist auch eine der höheren Angel-Runden-Finanzierungen bei nordamerikanischen Studentengründungen in letzter Zeit.
Zhao Kai sagte, dass der Grund, warum er sich immer im Bereich der Bildung und der Studenten befindet, auch darin liegt, dass das Gründerteam aus Studenten besteht und somit die Bedürfnisse der Studentengruppe besser verstehen kann.
Ein tiefergehender Grund ist, dass er selbst erst durch die Teilnahme an einem Hochschulstudium seinen heutigen Erfolg erzielt hat: Er absolvierte sein Gymnasium in China, wurde von einem ausländischen Ehepaar gefördert, seine Eltern verkauften sogar ihr Haus, um ihm das Studium zu finanzieren, und schließlich konnte er nach Silicon Valley in den USA kommen, um seinen GründungsTraum zu verfolgen.
Bevor VideoTutor diese Finanzierungsrunde absolvierte, hatte es bereits ein lukratives Übernahmeangebot abgelehnt.
Zhao Kai sagte gegenüber „Intelligent Emergence“, dass er die Übernahme abgelehnt habe, weil er glaube, dass die aktuelle Aufgabenlösung nur der Anfang von VideoTutor sei – in Zukunft könne VideoTutor noch weiter gehen, in weitere Fächer und Lernabschnitte expandieren und ein multidisziplinäres Produkt werden, das die führenden Bildungapps wie Duolingo übertreffen würde.
Von der Generierung von Lösungsvideos aus und auf die Prüfungsvorbereitungszielgruppe abzielen
Im Bereich der Aufgabenlösung ist Präzision sehr wichtig. Die Schwierigkeit bei VideoTutor liegt darin, wie man die von der KI generierten Videos präzise macht.
Zhao Kai erklärte, dass zunächst die geometrische Analyse schwierig sei. Die herkömmliche OCR-Erkennungstechnologie schaffe es kaum, präzise zu sein. VideoTutor habe in seinem Produkt einen eingebauten Geometrieanalysator, der Dreiecke, ebene Geometrie, Linien und andere Figuren in eine Maschinensprache umwandeln könne, die vom großen Modell verstanden werden kann, und die geometrischen Beziehungen zwischen Punkten, Linien und Ebenen genau beschreiben kann.
Zweitens sei die Animationseffekt-Rendering schwierig. Viele Softwareprodukte hatten in der Vergangenheit das Problem, dass Elemente beim Rendern der Animationen falsch positioniert wurden, z. B. wenn Kurven nicht auf der richtigen Achse platziert wurden.
Um dieses Problem zu lösen, habe das VideoTutor-Team von Grund auf eine neue Animationseffekt-Rendering-Protokoll geschrieben, das verschiedene Elemente präzise an verschiedenen Positionen platzieren kann und durch Code den Renderingprozess für jedes Einzelbild des Animationsengines steuern kann.
Die Genauigkeit der Antworten ist ebenfalls ein Problem. Da große Modelle manchmal „Halluzinationen“ haben, ist es schwierig, die 100%-ige Genauigkeit der Antworten zu gewährleisten. VideoTutor verwendet ein Zwei-Ebenen-Modell, um die Antworten zu vergleichen – wenn die Aufgabe schwierig ist, werden die Antworten durch die beiden Modelle Claude und Gemini korrigiert, und erst wenn die Antworten übereinstimmen, werden sie ausgegeben, um die Genauigkeit zu gewährleisten.
Schließlich ist die Training mit einer großen Anzahl echter Beispiele wichtig. VideoTutor hat bereits über 100.000 Videos generiert und ein Team von Schülern mit hohen SAT- und AP-Punkten zusammengestellt. Diese Schüler werden dafür verantwortlich sein, zu markieren, welche Teile der von der KI generierten Videos falsch erklärt wurden und wie normale Schüler es erklären würden. Diese echten Rückmeldungen werden verwendet, um das Modell neu zu trainieren.
„Wir haben jetzt bereits Tausende von SAT- und AP-Beispielvideos feinjustiert.“ sagte Zhao Kai. „Je mehr Daten wir haben, desto niedriger werden die Kosten für die Videoerstellung und es wird ein Fliehkraft-Effekt entstehen.“
Dies steht im krassen Kontrast zu früheren Lernmodellen. Früher mussten Lehrer Geometriesoftware, PowerPoint oder andere Visualisierungstools verwenden, um Grafiken zu zeichnen und Videos aufzunehmen. Um eine einstündige Videolektion vorzubereiten, brauchten sie mindestens ein bis zwei Stunden Nachbearbeitungszeit. Außerdem waren diese Videos statisch und standardisiert und konnten nicht auf die individuellen Bedürfnisse der Schüler zugeschnitten werden.
Dieser Bereich hat sogar in Nordamerika berühmte IPs hervorgebracht. Der YouTube-Kanal 3blue1brown, gegründet von Grant Sanderson, einem Alumni der Mathematikabteilung der Stanford University, der ebenfalls hauptsächlich auf die Erstellung von visualisierten mathematischen Lösungsvideos spezialisiert ist, hat bereits fast 8 Millionen Abonnenten.
Jetzt braucht es auf der VideoTutor-App nur 60 bis 90 Sekunden, vom Zeitpunkt der Eingabe der Frage durch den Schüler bis zur Generierung eines vollständigen Videos.
Nach dem Start des VideoTutor-Produkts hat es auch viel Aufmerksamkeit erregt. Zhao Kai sagte, dass das Team ein Vergleichsvideo auf Twitter veröffentlicht habe, in dem ein Video von einem echten Lehrer der Khan Academy und ein von der KI generiertes Video nebeneinander platziert wurden, und die Leute stellten fest, dass es fast keinen Unterschied gab. 20 Tage nach dem Produktstart hatten bereits über 30.000 Benutzer das Produkt registriert, die Anzahl der Videoansichten hat die 10-Millionen-Marke überschritten und es wurden über 100.000 Videos generiert.
„Der Schwung ist König“
Es ist unbestreitbar, dass VideoTutor etwas Glück hatte.
Im Interview erwähnte Zhao Kai mehrmals ein berühmtes Zitat aus Silicon Valley: „Momentum is King“ (Der Schwung ist König), was bedeutet, dass Startups in der frühen Phase ihres Wachstums einen kontinuierlichen Wachstumsschwung aufrechterhalten müssen, sei es bei der Produktiteration, der Benutzerbindung oder der Geschwindigkeit, mit der sie Talente und Kapital anziehen. Sie müssen einen positiven, beschleunigten Schwung aufrechterhalten.
Heute hat das VideoTutor-Team weniger als 10 Mitglieder. Das Team hat ein Einfamilienhaus in Sunnyvale, Silicon Valley, gemietet, das nah genug an der Universität liegt, um Schüler und Lehrer jederzeit zu besuchen. Die Teammitglieder verbessern die Funktionen täglich. „Nur wenn wir die Größe des Teams klein halten und die Kommunikationskosten reduzieren, können wir sicherstellen, dass das Produkt schnell iteriert wird.“ sagte Zhao Kai.
△VideoTutor-Team
Im Jahr 2025 entwickeln sich die Basis-Modelle immer noch rasant, und die technologischen Grenzen sind schwer abzuschätzen. Die Gründungszeit ist zweifellos wichtig – nach der Veröffentlichung von Modellen wie Claude 4.0 und GPT-5 hat die Inferenzfähigkeit der Basis-Modelle stark zugenommen, was eine sehr gute Grundlage für den Start von VideoTutor bietet.
Vor VideoTutor hat es in Silicon Valley auch Startups mit ähnlichem Geschäftsmodell gegeben. Im April 2024 entwickelte ein Studententeam der Stanford University ein ähnliches Produkt namens Gatekeep, das sich ebenfalls auf die Generierung von KI-basierten Lösungsvideos spezialisiert hat. Es erhielt Investitionen und erregte Aufsehen, aber es wurde bald die Aktualisierung eingestellt.
Zhao Kai glaubt, dass es zwei Hauptgründe für das Scheitern von Gatekeep gibt: Erstens war die Codierungsfähigkeit der Basis-Modelle zur Gründung von Gatekeep noch nicht ausgereift, Claude 4.0 war noch nicht veröffentlicht und auch Sora war noch nicht auf den Markt gekommen; zweitens konnte die Animationseffekt-Engine des Produkts noch nicht die präzise Rendering von Punkten, Linien und Ebenen leisten.
Aber die Entwicklung der Basis-Modelle ist auch eine Doppelschneide. Beispielsweise hat ChatGPT kurz nach der Gründung von VideoTutor seine Study-Modus eingeführt.
Ich fragte Zhao Kai, ob er befürchte, von den Basis-Modellen verschlungen zu werden.
„Es ist wichtig, sich seine eigenen Werte klar zu machen.“ antwortete Zhao Kai. „Die Kernmission der großen KI-Modellhersteller ist die AGI, und es ist unwahrscheinlich, dass sie in allen speziellen Bereichen große Kräfte einsetzen. Dies lässt Raum für Anwendungsunternehmen, die das Branchenwissen besitzen. Unser Wert liegt darin, dass wir die Bildung und die Studenten besser verstehen als die großen Unternehmen.“
Was die anderen Wettbewerber auf diesem Gebiet betrifft, sagte Zhao Kai, dass die von VideoTutor anvisierten Szenarien nicht vollständig mit denen der anderen übereinstimmen. Beispielsweise sind Chegg und Gauthmath für die tägliche Hausaufgabenhilfe konzipiert, und die Schüler nutzen diese Apps hauptsächlich, um ihre Hausaufgaben zu erledigen und brauchen schnell die Antworten.
„Der grundlegende Unterschied liegt im Lernmotiv“, erklärte Zhao Kai. „Unsere Zielgruppe hat ein sehr klares Ziel – um die SAT- oder AP-Prüfung zu bestehen, haben sie ein starkes Bedürfnis, die Inhalte aktiv zu verstehen und zu lernen. Viele Hausaufgabenlösungs-Apps hingegen sind eher passive Lernwerkzeuge. Wenn die Schüler nur schnell die Antworten für die Hausaufgaben benötigen, kann diese Nachfrage leicht von kostenlosen generischen großen Modellen befriedigt werden.“
Betrachtet man das Geschäftsmodell, so möchte VideoTutor derzeit die KI schrittweise in die Position bringen, Teile der privaten Nachhilfelektionen zu ersetzen. Zurzeit kostet es in den USA mindestens 100 bis 400 US-Dollar pro Stunde für eine private Nachhilfelehrerin, und auch Online-Kurse kosten etwa 100 US-Dollar pro Stunde. Im Vergleich dazu kostet VideoTutor derzeit nur 3,99 US-Dollar für die Generierung von vier Videos, was eine um ein Vielfaches niedrigere Preisklasse darstellt.
VideoTutor möchte zunächst von der Prüfungsvorbereitungszielgruppe ausgehen und dann in weitere Bereiche und Fächer expandieren. „Theoretisch können alle Lehrstoffprobleme im Bereich K12 in Erklärungsvideos umgewandelt werden, da es im K12-Bereich relativ standardisierte Lehrbücher und Lernpunkte gibt.“ sagte Zhao Kai. „In Zukunft werden wir uns von der SAT- und AP-Mathematik auf weitere Fächer ausweiten, vom Aufgabenlösungsbereich in die Lernpfadplanung und die Effektivitätsbewertung erweitern und schließlich jeder Schülerin und jedem Schüler ein persönlicher KI-Tutor werden.“
VideoTutor plant in Zukunft, sich sowohl auf den B2C- als auch auf den B2B-Markt zu konzentrieren.
Derzeit hat das Team bereits die ersten B2B-Kooperationsaufträge erhalten. Beispielsweise hat ein indischer Bildungstraininganbieter mit 60.000 Schülern ein Kooperationsabkommen unterzeichnet, um VideoTutor für das Lernen für die JEE Advanced (die Eintrittsprüfung für die indischen Technischen Hochschulen) zu nutzen. Im Oktober hat VideoTutor kürzlich auch eine Partnerschaft mit der amerikanischen Campus-Social-Media-Plattform Fizz geschlossen, die in den USA über 350 Universitäten abdeckt.
Zhao Kai nutzt seit zehn Jahren ein Foto seines Lieblingscharakters – Hiro, der Protagonist von Big Hero 6, ein genialer Teenager-Geek, der seine Technologiekenntnisse nutzt, um anderen zu helfen und die Welt zu verändern – als Profilbild in seinen Sozialen Medien.
„Viele