Mit 200-Dollar-CPU und billigen gebrauchten Komponenten: Er baut "Mini-Google" in Waschküche, verarbeitet 2 Milliarden Webseiten für 5000 US-Dollar!

Ich werde es nicht für immer in der Waschküche lassen.

Wenn Ihnen jemand sagt, dass man mit einem selbst zusammengebauten alten Server ein Mini-“Google-Suchmaschine” zu Hause nachbauen kann, würden Sie vielleicht denken, dass dies eine leere Drohung ist. Doch im Jahr 2025 ist genau das passiert.

Der Protagonist dieser Geschichte ist der Entwickler Ryan Pearce. Ohne die Unterstützung einer großen Firma oder einer riesigen Investition hat er versucht, den Weg von Google auf eine “niedrige Stufe” zu gehen: Mit einer Reihe von gebrauchten Serverteilen, einer CPU, die weniger als 200 US-Dollar kostet, und der Macht der Künstlichen Intelligenz hat er in seiner Waschküche eine “Mini-Google” aufgebaut.

Nur mit diesen Mitteln hat Ryan Pearce zwei Suchmaschinen geschaffen:

● Searcha Page — Die herkömmliche Suchmaschine (https://searcha.page/);

● Seek Ninja — Wertet Privatsphäre höher und sammelt keine Nutzerdaten (https://seek.ninja/https://seek.ninja/).

Mit anderen Worten, wenn ein Nutzer eine Suchanfrage auf der Seite eingibt, läuft der dahinterliegende Server tatsächlich neben der Waschmaschine und Trockner in Ryan Pearces Wohnung.

Der Weg von Google nachbauen: Vom Studentenwohnheim zur Waschküche

Gehen wir fast 30 Jahre zurück. Der Anfang von “Google-Suchmaschine” war ebenfalls bescheiden.

Als Google zu Beginn arbeitete, hatte es keine luxuriöse Hardware. Sein erster Experimentier-Server hatte nur eine Kapazität von 40 GB und lief im Studentenwohnheim der Stanford University. Das Gehäuse war sogar aus großen Lego-Blöcken (Duplo-Bausteinen) zusammengebaut. Später, dank der Spenden von IBM und Intel, hat Google seinen Server zu einem kleinen Rack-System verbessert.

Heute ist die Google-Suchmaschine so riesig, dass sie nicht einmal in einem Rechenzentrum untergebracht werden kann. Aber wenn Sie bereit sind, sich etwas Mühe zu geben, können Sie mit geschickter Ressourcenverwaltung und viel Geduld auch auf einem Computer, der der Größe des ersten Google-Servers entspricht, eine ziemlich moderne Sucherfahrung nachbauen — und ihn sogar in Ihrer eigenen Waschküche aufstellen.

Ryan Pearce sagt humorvoll dazu:

“Jetzt habe ich in meiner Waschküche mehr Speicherkapazität als Google im Jahr 2000. Das ist echt verrückt.”

In gewisser Weise baut er die Geschichte von Google nach, nur dass der Ort vom Studentenwohnheim zur Waschküche gewechselt hat.

Eigene Suchmaschine bauen: Ohne Cloud, mit gebrauchten Servern

Im Gegensatz zu den meisten Cloud-Computing-Projekten hat Ryan Pearces Suchmaschine die Cloud fast vollständig verlassen und folgt einem selbstverwalteten Ansatz:

● Oberer Rechner: Hauptsächlich aus alten Serverteilen zusammengebaut. Ryan Pearce hat ihm auch eine einfache Luftführung für die Kühlung installiert.

● Unterer Computer: Verantwortlich für die zusätzliche Unterstützung des gesamten Systems.

Anfangs stand dieses Gerät im Schlafzimmer. Aber weil es zu heiß und zu laut war, konnte man überhaupt nicht schlafen. Nach der “Erinnerung” seiner Frau hat Ryan Pearce das Gerät in die Waschküche verschoben und das Netzwerkkabel durch die Wand geführt. Seitdem steht der Server neben der Waschmaschine und Trockner. Obwohl das Problem mit der Hitze nicht vollständig gelöst ist, beeinträchtigt es zumindest nicht das Leben: “Es wird nur zu heiß, wenn man die Tür zu lange geschlossen lässt.”

Wie gut ist die Leistung einer solchen Suchmaschine, die in der Waschküche läuft? Laut Ryan Pearce gibt es abgesehen von gelegentlichen Verzögerungen in den Suchergebnissen in der Anfangsphase (die in den letzten Wochen deutlich verbessert wurden) kaum etwas auszusetzen. Die Qualität der Ergebnisse ist sogar besser als erwartet — hinter ihr steht eine Datenbank mit bis zu 2 Milliarden Dokumenten.

Ryan Pearce plant, diese Datenbank innerhalb von sechs Monaten auf 4 Milliarden Dokumente zu erweitern. Wenn die Zahlen nicht viel sagen, können wir einen Vergleich machen: Im Jahr 1998, als Google noch an der Stanford University war, hatte seine Datenbank nur 24 Millionen Webseiten; bis 2020 war diese Zahl auf 400 Milliarden gestiegen.

Nach heutigen Google-Standards ist 2 Milliarden natürlich nur “ein Tropfen im Ozean”. Aber für eine Person ist dies ein erstaunliches Ergebnis.

Das Kerngeheimnis: Traditionelle Suche mit KI-Unterstützung

Um diesen “altbackenen Server” auf diese Größe zu bringen, setzt Ryan Pearce vor allem auf große Sprachmodelle (LLM).

“Ich mache eigentlich noch eine sehr traditionelle Suche, so ähnlich wie Google vor 20 Jahren. Aber ich habe ein wenig ‘Gewürz’ hinzugefügt — ich verwende KI, um Suchbegriffe zu erweitern und den Kontext zu verstehen. Das ist eigentlich der schwierigste Teil der Suche.”

Deshalb, obwohl Searcha Page und Seek Ninja beide eine minimalistische Oberfläche behalten, ist hinter ihnen die Unterstützung der KI unentbehrlich.

Viele Leute mögen sagen: “Ich möchte einfach eine Suche ohne KI.” Aber tatsächlich ist die KI bereits tief in die Suchmaschinen integriert: Zum Beispiel wäre eine umgekehrte Bildsuche ohne KI überhaupt nicht möglich; Google hat bereits vor zehn Jahren RankBrain eingeführt, um die Suchergebnisse mit maschinellem Lernen zu optimieren; Microsoft hat bereits 2019 bekannt gegeben, dass 90 % der Suchergebnisse von Bing auf maschinellem Lernen beruhen.

Wenn Leute heute beschweren, dass die KI die Suche verschlechtert, übersehen sie oft die Tatsache, dass die KI bereits ein Teil der DNA moderner Suchmaschinen ist. Und das Beispiel von Ryan Pearce beweist weiter, dass auch eine einzelne Person mit KI ihre eigene Suchmaschine aufbauen und erweitern kann.

Gebrauchte Hardware + Spitzen-CPU, DIY-Kosten sinken drastisch

Der Kern von Ryan Pearces Suchmaschine ist ein 32-Kern-AMD EPYC 7532:

● Als es 2020 neu auf den Markt kam, kostete es über 3000 US-Dollar;

● Jetzt kann man es auf eBay für weniger als 200 US-Dollar kaufen.

Um noch mehr Geld zu sparen, hat Ryan Pearce sogar einen “Qualitätsprüfungs-Testversion”-Chip gekauft. Er fügt hinzu, dass er eigentlich für dasselbe Geld einen anderen CPU mit doppelter Threadzahl hätte kaufen können, aber er hat es wegen der zu hohen Hitzeentwicklung, die für die häusliche Umgebung ungeeignet ist, aufgegeben.

Außerdem hat Ryan Pearce viele gebrauchte Server-Hardware mit guter Leistung zu niedrigen Preisen erworben: Da Unternehmen ihre Computer alle drei Jahre austauschen, verlieren die abgestellten alten Hardware auf dem Markt stark an Wert, aber ihre Leistung ist immer noch beeindruckend. Wenn man also mit einem hohen Stromverbrauch leben kann, kann man mit wenig Geld eine enorme Rechenleistung erhalten.

Genau dies hat Ryan Pearce genutzt. Mit “Sparpreisen” für alte Geräte hat er ein System zusammengebaut, das eine moderne Suchmaschine laufen lassen kann. Seine Leistung ist sogar stärker als einige frühe Google-Server. Es ist bekannt, dass die Gesamtkosten dieses Systems nur etwa 5000 US-Dollar betragen, von denen etwa 3000 US-Dollar für die Speicherung ausgegeben wurden, da noch immer halb TB Arbeitsspeicher sehr teuer ist. Aber in der DIY-Szene ist dies eine Spitzenausstattung.

Mit LLM “Nachholen”: Vom schnellen Prototypen zur kontinuierlichen Verbesserung

Es ist bemerkenswert, dass Ryan Pearce nicht der einzige DIY-Suchmaschinen-Entwickler ist.

Beispielsweise hat ein anderer Technologie-Enthusiast, Wilson Lin, einen völlig anderen Weg gewählt: Sein System ist von mindestens neun verschiedenen Cloud-Diensten abhängig; er hat eine neue Datenanalyse-Technologie entwickelt, die die Betriebskosten der Suchmaschine stark reduziert. Er erklärt, dass es insgesamt viel billiger ist als mit AWS, so dass er “das Projekt innerhalb eines vernünftigen Budgets vorantreiben kann”.

Diese beiden scheinbar unterschiedlichen Wege konnten bis heute so weit kommen, vor allem dank eines Schlüsselfaktors: KI. Viele Leute beschweren sich, dass die KI die Suchqualität verschlechtert, aber es ist auch die KI, die es diesen Privatentwicklern ermöglicht, sich einer “Google-ähnlichen” Sucherfahrung zu nähern.

Einer der größten Streitpunkte um die KI ist, ob die Suchmaschinen sie zu stark betonen. Oft ist die Spur der KI direkt auf den Ergebnisseiten sichtbar: Sie versucht, Ihre Suche zu “erklären”. Einige mögen es, um Zeit zu sparen, andere dagegen sind sehr abgeneigt. Aber für Privatentwickler mit begrenzten Ressourcen ist das LLM ein unverzichtbares Werkzeug, um schnell Datensätze aufzubauen und zu erweitern.

Nehmen wir Ryan Pearce als Beispiel. Er hat einen Hintergrund in Unternehmenssoftware und Spieleentwicklung und ist nicht abgeneigt, KI in das Programmieren einzuführen. Der Quellcode seiner Suchmaschine hat bereits über 150.000 Zeilen erreicht. Mit der ständigen Verbesserung sollte die tatsächlich geschriebene Code-Zahl nahe an 500.000 Zeilen liegen. Seine Vorgehensweise bei der KI ist: Zuerst lässt er das LLM bestimmte Funktionen übernehmen, und dann ersetzt er es allmählich durch traditionelle Implementierungen — auf diese Weise kann er schnell ein komplexes System aufbauen und dann weiter optimieren.

Wilson Lin sagt auch: “Das LLM hat wirklich die Schwelle gesenkt. Die größte Hürde, die uns daran hindert, Google herauszufordern, ist nicht die Technologie, sondern der Markt.”

“Ich werde es nicht für immer in der Waschküche lassen”

Allerdings ist die Komplexität des LLM noch größer als die Kapazität des Waschküchen-Servers.

Deshalb hat Ryan Pearce seine Searcha Page und Seek Ninja in den Llama 3-Inferenzdienst von SambaNova integriert, um mit geringen Kosten schnelle KI-Fähigkeiten zu erhalten. Außerdem profitiert Ryan Pearce von Common Crawl — einem offenen Webseiten-Datenarchiv, das auch eine wichtige Trainingsquelle für große Modelle ist. Selbst während der Entwicklung des Projekts wurde er sogar wegen zu häufigen Abrufs von Common Crawl gesperrt.

Ryan Pearce sagt mit Gefühl: “Ich bin ihnen wirklich dankbar und hoffe, ihnen in Zukunft etwas zurückgeben zu können. Wenn mein Projekt wächst, werde ich weniger auf sie angewiesen sein.”

Nicht alle Versuche waren natürlich erfolgreich. Ryan Pearce gibt zu, dass er am Anfang versucht hat, eine Vektordatenbank für die Suche zu verwenden, aber es ist fehlgeschlagen: “Es kann zwar suchen, aber die Ergebnisse sind zu ‘künstlerisch’, ähnlich wie das Halluzinationsproblem des LLM.”

Bis jetzt hat Ryan Pearces Suchmaschine die Aufmerksamkeit vieler Menschen erregt. Beispielsweise hat ein chinesischer Benutzer ihn kontaktiert und nach einer “zensurfreien Suche” gefragt, die in sein eigenes LLM-Proxysystem integriert werden kann. Aber Ryan Pearce gesteht ein, dass er vorerst die Unterstützung für Chinesisch nicht anbieten kann, weil es bedeutet, dass er den Datensatz neu aufbauen muss, was zu teuer ist.

Was die Zukunft betrifft, sagt Ryan Pearce, dass er vorhat, den Server aus seinem Haus zu entfernen und möglicherweise ein Rechenzentrum oder ein gemeinsames Rechenzentrum zu wählen. Dafür beginnt er auch, einige leichte Werbe-Monetarisierungs-Methoden zu testen:

“Wenn der Traffic steigt, werde ich es in eine verwaltete Umgebung verlegen. Ich werde es nicht für immer in der Waschküche lassen.”

Referenzlink

https://www.fastcompany.com/91396271/searcha-page-seekninja-diy-search-engines

Dieser Artikel stammt aus dem WeChat-Account “CSDN”, Autor: Zheng Liyuan, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。