Twitter-Suche

Lucene ersetzt MySQL

Twitter hat in den vergangenen Wochen seine Suchinfrastruktur ausgetauscht. Das einst von Summize entwickelte, auf MySQL basierende System zur Suche in Tweets wurde gegen eine modifizierte Version von Apache Lucene ausgetauscht.

Artikel veröffentlicht am ,
Twitter-Suche: Lucene ersetzt MySQL

Die Anforderungen an ein System zur Suche in den Tweets auf Twitter sind hoch: Derzeit fallen rund 1.000 neue Tweets pro Sekunde an, es müssen rund 12.000 Suchanfragen pro Sekunde beantwortet werden. Das sind schon jetzt mehr als 1 Milliarde Suchanfragen pro Tag. Und das System soll trotz Twitters rasantem Wachstum einige Jahre halten.

Stellenmarkt
  1. Teamleiter Planung FTTX (m/w/d)
    Hays AG, Rheine
  2. (Junior-) Informatiker (m/w/d)
    Moritz J. Weig GmbH & Co. KG, Mayen
Detailsuche

Das alte, auf MySQL basierende System wurde dem Wachstum nicht mehr gerecht, denn MySQL ist auf ein solches Szenario nicht ausgelegt. Vor rund sechs Monaten entschied Twitter daher, ein neues Backend für die Suche zu entwickeln und dabei auf die Open-Source-Suchmaschine Apache Lucene zurückzugreifen.

Allerdings musste Lucene an Twitters Anforderungen angepasst werden, denn die Software ist nicht darauf ausgelegt, neue Inhalte in Echtzeit in ihren Index aufzunehmen. Aber neue Tweets sollen spätestens nach 10 Sekunden gefunden werden. Dazu sollte der Indexer eine Latenz von unter einer Sekunde erreichen.

Daher schrieben die Twitter-Entwickler große Teile von Lucene neu, behielten aber Lucenes Standard-APIs bei. So kann Lucenes Suche fast ohne Änderungen verwendet werden. Sämtliche Änderungen will Twitter an das Lucene-Projekt zurückgeben, einige davon haben es bereits in den aktuellen Entwicklerzweig von Lucene beziehungsweise in dessen neuen Echtzeitzweig geschafft.

Die Umstellung auf das neue Such-Backend ging ohne größere Probleme vonstatten, das System arbeitet recht effizient. Derzeit würden nur etwa 5 Prozent der verfügbaren Backend-Ressourcen benötigt, schreibt Twitter-Entwickler Michael Busch in einem Blogeintrag. Der Indexer sei in der Lage, rund 50 Prozent mehr Tweets pro Sekunde zu verarbeiten, als derzeit anfallen.

Nutzer sollen zunächst von einem vergrößerten Index profitieren, dürfen sich aber zugleich auf neue Funktionen freuen, die Twitter auf Basis der neuen Infrastruktur in Zukunft realisieren will. Konkrete Ankündigungen gibt es aber noch nicht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Form Energy
Eisen-Luft-Akku soll Energiespeicherprobleme lösen

Mit Geld von Bill Gates und Jeff Bezos sollen große, billige Akkus Strom für mehrere Tage speichern. Kann die Technik liefern, was sie verspricht?
Eine Analyse von Frank Wunderlich-Pfeiffer

Form Energy: Eisen-Luft-Akku soll Energiespeicherprobleme lösen
Artikel
  1. iOS 14.7.1 und macOS Big Sur 11.5.1: Apple patcht aktiv ausgenutzte Mac- und iOS-Sicherheitslücke
    iOS 14.7.1 und macOS Big Sur 11.5.1
    Apple patcht aktiv ausgenutzte Mac- und iOS-Sicherheitslücke

    Apple-Nutzer müssen ihre Geräte mit iOS 14.7.1, iPadOS 14,7.1 und MacOS Big Sur 11.5.1 aktualisieren. Es gibt eine aktiv genutzte Sicherheitslücke.

  2. E-Motorräder: Yamaha will Verbrenner auch in 30 Jahren nicht aufgeben
    E-Motorräder
    Yamaha will Verbrenner auch in 30 Jahren nicht aufgeben

    Yamaha will den Verbrennungsmotor für seine Motorräder nicht ganz aufgeben. Selbst in 30 Jahren soll es noch Maschinen mit Auspuff geben.

  3. Halbleiterfertigung: Aus 10 nm wird Intel 7
    Halbleiterfertigung
    Aus 10 nm wird "Intel 7"

    Intel orientiert sich vorerst an TSMC, will aber dank RibbonFets und PowerVias ab 2025 führend bei der Halbleiterfertigung sein.
    Ein Bericht von Marc Sauter

DaMan 10. Okt 2010

Wenn da mal der Index abraucht haben die viel mit dem neuaufbau des index zu tun...

DaMan 10. Okt 2010

recht hat er aber Während der WM waren es auch schon mal 3400+ Tweets

spezial fall 07. Okt 2010

MySQL war ja anfangs "nur" ein SQL-Layer auf dem ISAM-Layer. Weil es eine der wenigen...

JimBob2010 07. Okt 2010

Java ist das Flittchen im Dieselgewand.



Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • PS5 mit Vertrag bei MediaMarkt bestellbar • PCGH-Gaming-PCs stark reduziert (u. a. PC mit RTX 3060 & Ryzen 5 5600X 1.400€) • Microsoft Flight Simulator Xbox Series X 69,99€ • 3 für 2 bei MediaMarkt: 2 Spiele kaufen + 1 Spiel geschenkt • New World vorbestellbar ab 39,99€ [Werbung]
    •  /