Twitter-Suche

Lucene ersetzt MySQL

Twitter hat in den vergangenen Wochen seine Suchinfrastruktur ausgetauscht. Das einst von Summize entwickelte, auf MySQL basierende System zur Suche in Tweets wurde gegen eine modifizierte Version von Apache Lucene ausgetauscht.

Artikel veröffentlicht am ,
Twitter-Suche: Lucene ersetzt MySQL

Die Anforderungen an ein System zur Suche in den Tweets auf Twitter sind hoch: Derzeit fallen rund 1.000 neue Tweets pro Sekunde an, es müssen rund 12.000 Suchanfragen pro Sekunde beantwortet werden. Das sind schon jetzt mehr als 1 Milliarde Suchanfragen pro Tag. Und das System soll trotz Twitters rasantem Wachstum einige Jahre halten.

Stellenmarkt
  1. IT Rolloutmitarbeiter BLIE-Services (w/m/d)
    Bechtle Onsite Services GmbH, Hannover
  2. Systemadministrator/-in (m/w/d) im Sachgebiet Infrastruktur
    Landratsamt Schwarzwald-Baar-Kreis, Villingen-Schwenningen
Detailsuche

Das alte, auf MySQL basierende System wurde dem Wachstum nicht mehr gerecht, denn MySQL ist auf ein solches Szenario nicht ausgelegt. Vor rund sechs Monaten entschied Twitter daher, ein neues Backend für die Suche zu entwickeln und dabei auf die Open-Source-Suchmaschine Apache Lucene zurückzugreifen.

Allerdings musste Lucene an Twitters Anforderungen angepasst werden, denn die Software ist nicht darauf ausgelegt, neue Inhalte in Echtzeit in ihren Index aufzunehmen. Aber neue Tweets sollen spätestens nach 10 Sekunden gefunden werden. Dazu sollte der Indexer eine Latenz von unter einer Sekunde erreichen.

Daher schrieben die Twitter-Entwickler große Teile von Lucene neu, behielten aber Lucenes Standard-APIs bei. So kann Lucenes Suche fast ohne Änderungen verwendet werden. Sämtliche Änderungen will Twitter an das Lucene-Projekt zurückgeben, einige davon haben es bereits in den aktuellen Entwicklerzweig von Lucene beziehungsweise in dessen neuen Echtzeitzweig geschafft.

Golem Karrierewelt
  1. DP-203 Data Engineering on Microsoft Azure: virtueller Vier-Tage-Workshop
    12.-15.09.2022, virtuell
  2. Blender Grundkurs: virtueller Drei-Tage-Workshop
    06.-08.09.2022, Virtuell
Weitere IT-Trainings

Die Umstellung auf das neue Such-Backend ging ohne größere Probleme vonstatten, das System arbeitet recht effizient. Derzeit würden nur etwa 5 Prozent der verfügbaren Backend-Ressourcen benötigt, schreibt Twitter-Entwickler Michael Busch in einem Blogeintrag. Der Indexer sei in der Lage, rund 50 Prozent mehr Tweets pro Sekunde zu verarbeiten, als derzeit anfallen.

Nutzer sollen zunächst von einem vergrößerten Index profitieren, dürfen sich aber zugleich auf neue Funktionen freuen, die Twitter auf Basis der neuen Infrastruktur in Zukunft realisieren will. Konkrete Ankündigungen gibt es aber noch nicht.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


DaMan 10. Okt 2010

Wenn da mal der Index abraucht haben die viel mit dem neuaufbau des index zu tun...

DaMan 10. Okt 2010

recht hat er aber Während der WM waren es auch schon mal 3400+ Tweets

spezial fall 07. Okt 2010

MySQL war ja anfangs "nur" ein SQL-Layer auf dem ISAM-Layer. Weil es eine der wenigen...

JimBob2010 07. Okt 2010

Java ist das Flittchen im Dieselgewand.



Aktuell auf der Startseite von Golem.de
Manipulierte Ausweise  
CCC macht Videoident kaputt

Hinter dem Stopp von Videoident-Verfahren bei den Krankenkassen steckt ein Hack des Chaos Computer Clubs. Der Verein fordert weitere Konsequenzen.

Manipulierte Ausweise: CCC macht Videoident kaputt
Artikel
  1. Sicherheitssysteme: Tesla Model 3 erkennt Kinder-Dummy mehrfach nicht
    Sicherheitssysteme
    Tesla Model 3 erkennt Kinder-Dummy mehrfach nicht

    Tesla scheint keine Kinder auf der Fahrbahn zu erkennen. Dreimal wurde ein Dummy überfahren.

  2. Peripheriegeräte: Mechanische Tastatur hat integrierten 12,6-Zoll-Touchscreen
    Peripheriegeräte
    Mechanische Tastatur hat integrierten 12,6-Zoll-Touchscreen

    Die Ficihp K2 kann über USB-C als Tastatur und zusätzlicher Bildschirm genutzt werden - mit mechanischen Schaltern und USB-Hub.

  3. Datenschutz bei Whatsapp etc.: Was bei Messengerdiensten zu beachten ist
    Datenschutz bei Whatsapp etc.
    Was bei Messengerdiensten zu beachten ist

    Datenschutz für Sysadmins In einer zehnteiligen Serie behandelt Golem.de die wichtigsten Themen, die Sysadmins beim Datenschutz beachten müssen. Teil 1: Whatsapp & Co.
    Eine Anleitung von Friedhelm Greis

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: Samsung SSD 2TB Heatsink (PS5) 219,99€ • ebay Re-Store bis -50% gg. Neupreis • Grafikkarten zu Tiefpreisen (Gigabyte RTX 3080 12GB 859€) • MSI-Sale: Gaming-Laptops/PCs bis -30% • Sharkoon PC-Gehäuse -53% • Philips Hue -46% • Der beste Gaming-PC für 2.000€ [Werbung]
    •  /