Seit fast einer Woche beschäftige ich mich mit Social Media Monitoring, genauer mit 5 Produkten. Wir haben uns nämlich an einen “Qualitativen Vergleich” gemacht. Durchaus eine Reise und ein Abenteuer. Aber davon später mehr.
“Qualitativ” soll hierbei eine Grenze ziehen zu “Funktional”. Es geht also ausnahmsweise nicht um die Frage, ob das Produkt leicht und gut und sicher zu bedienen ist. Unsere Frage lautet diesmal: Stimmt das Ergebnis dieser Produkte eigentlich?
Von dem Vergleich wird hier noch in Folgebeiträgen die Rede sein. Heute geht es um ein Spezialthema der Qualität, um das Sentiment, um die Tonalität, die Meinungsfärbung der Tweets, Shares, Posts & Co des sozialen Netzes.
Ich möchte Sie mitnehmen auf einen kleinen Ausflug in Sachen Sentiment-Erkennung, ausgehend von den Erfahrungen, die wir bei unserem Vergleich gemacht haben. Am Ziel winken Empfehlungen für die Behandlung von Sentiment Analysen in der Praxis.
Unsere 5 Kern-Fragen in diesem Beitrag sind also:
- Was ist Sentiment eigentlich?
- Warum ist Sentiment Erkennung ein schwieriges Thema?
- Was ist davon in der Praxis relevant?
- Welche Anforderungen an eine Sentiment Erkennung in einem Social Media Monitoring Tool sollte also man stellen?
- Wie setzt man Sentiment Erkennung richtig ein?
Zunächst ein wenig Grundlagen zur Auffrischung: Was ist Sentiment eigentlich?
Das englische Wort “Sentiment” bedeutet Meinung, Ansicht, aber auch Gedanke, Geisteshaltung, Stimmung, Gefühl, Empfindung und sogar Rührseligkeit.
Im Wertpapierumfeld wird “Sentiment” für die Bewertung der Marktstimmung benutzt (bullish, bearish etc.), entsprechende Analysen stehen in Konkurrenz zu Fundamental- sowie charttechnischen Analysen.
Obwohl es hier durchaus Berührungspunkte zum Social Media Monitoring gibt, interessiert uns primär die Sentiment Erkennung (sentiment detection) als wissenschaftlicher Begriff der Linguistik, genauer des sogenannten Text Minings.
“Sentiment Erkennung” bezeichnet die “automatische Auswertung von Texten mit dem Ziel, eine geäußerte Haltung als positiv oder negativ zu erkennen.” (Quelle wikipedia, 12.4.13)
Die meisten Social Media Monitoring Werkzeuge bieten so eine Sentiment Detection an – aber viele der Anbieter sind selbst gegenüber der Relevanz des Themas eher skeptisch. Natürlich glauben sie an die Güte des eigenen Verfahrens. Es ist aber eine gängige Daumenregel, dass das Sentiment kaum besser als zu 70% richtig erkannt werden kann.
Dabei sind es nicht die unzulänglichen Methoden, der mangelnde Eifer oder fehlende Investitionen, die hier einer überzeugenden Lösung im Wege stehen (an der Börse würde nahezu jeder Preis für eine verlässliche Prognose der Marktstimmung gezahlt werden).
Das Thema an sich ist sperrig! Aber was ist denn daran so schwierig?
Nehmen wir zum Beispiel den Satz: “Vettel fährt schneller als Webber.”
- Für jemand, der eine Wette auf einen der beiden abschließen will, ist der Satz neutral, eine sachliche Bewertung der Fahrkünste der beiden.
- Für den PR-Manager von Herrn Vettel ist es ein guter Satz, Sentiment positiv, für den von Herrn Webber negativ.
Ergebnis: Ein Satz, 3 verschiedene Sentiment-Bewertungen.
Nehmen wir nun den Satz: “Ecclestone meint: ‘Vettel fährt schneller als Webber!’.”
Durch Nennung der Quelle “Ecclestone” erhält der Satz eine neue Färbung – obwohl er formal unverändert ist. Die Kompetenz des angegebenen Autors kann das erkannte Sentiment in beide Richtungen beeinflussen.
Wie auch immer die automatischen Sentiment-Erkennungs-Programme funktionieren (und es gibt viele verschiedene, zum Teil recht komplizierte Ansätze), Unterschiede wie die eben dargestellten, können sie alle nicht erkennen – nicht auf Basis des reinen Text-Strings.
Und das liegt nicht am Beispiel. Im Gegenteil: Zu jedem noch so euphorisch-positiven Satz lässt sich ein Kontext konstruieren, in dem er ein negatives Sentiment erhält und umgekehrt .
Anderes Beispiel: “Alonso hat mit seinem Fahrstil bewiesen, dass er einen Motorroller sicher souveräner kontrolliert.” Sehen Sie irgendwo ein böses einzelnes Wort? Nur positiver Kontext, “Fahrstil bewiesen“, “sicher souveräner kontrolliert“, alles gut. Aber freuen würde sich sein PR Manager darüber wohl nicht.
An diesen wenigen Beispielen wird hoffentlich bereits deutlich, wie schwer bis kompliziert gerade die Sentiment Erkennung ist.
Es gibt aber noch eine ganz andere Methode, sich davon zu überzeugen: Nehmen Sie sich doch selbst mal die timeline von Twitter oder Facebook und bewerten Sie da 50 zufällig gegriffene Posts, nur positiv – neutral – negativ. Und bitten Sie dann eine Person Ihres Vertrauens, das Gleiche zu tun.
Meine Wette: Ohne ausführliche vorherige Abstimmung werden Sie kaum über 70% Übereinstimmung hinauskommen.
Ist Sentiment denn überhaupt wirklich business-relevant oder nur eine Show-Kennziffer für den Vorstand und das unkundige Publikum?
Von Heinz Nixdorf wurde erzählt, er habe in den frühen 80ern die Nixdorf PCs in den Chefetagen eingeführt, indem er die Vorstände Pacman spielen ließ. Ist Sentiment Detection das neue Pacman?
Natürlich ist “25% positiv, 5 % negativ!” leichter nach oben zu verkaufen als “25% mehr Erwähnungen in Blogs, 5% mehr in Microblogs!”. Und auch Headlines texten sich leichter mit starken Emotionen.
Business Relevanz gibt es indessen schon für das Sentiment:
- Der Wertpapierbereich hat sein altes Thema nicht fallen lassen, manche Programme weisen für jeden Titel auch die Social Media Sentiment Analyse aus und leiten Starke oder schwache Signale für Kaufen oder Verkaufen daraus ab.
- Generell beruhen Empfehlungsportale u.a. auf den Sentiment Analysen zu Marken und Unternehmern
- Marketing- und Kommunikations-Verantwortliche, die täglich große Mengen von Beiträgen zu verarbeiten haben, sind ohne automatische Erkennung der Tonalität hilflos.
Von einem idealen Social Media Monitoring Tool würde ich darum bzgl. der Sentiment Erkennung diese 7 Leistungen verlangen:
- 3-wertige Bewertung, positiv, neutral, negativ. Praktisch werden die allermeisten Systeme die Posts zunächst nur auf positiv und negativ prüfen, und, wenn dies nicht ausgeprägt genug ist, dann auf “neutral” erkennen. Doch diese neutrale Restmenge ist in der Regel mit Abstand der größte Topf. Ein System, das nur gut und böse kennt und alles diesen zwei Werten zuordnen muss, macht schon am Start mindestens 50% verkehrt.
Umgekehrt sind mehr als 3 Werte nicht wirklich praktikabel. Es stimmt zwar: zwischen “ich hasse dieses Produkt und werde es in meinem ganzen Leben nie wieder kaufen!” und “das Produkt hat mich ein wenig enttäuscht, das geht auch besser.” liegen Welten. Aber Aussagen mit so klaren Unterschieden sind eher selten. - Robuste Bewertungsmethoden. Ich habe verstanden, dass die absoluten Zahlen nur bedingt belastbar sind, aber zumindest die Veränderung soll leidlich korrekt erkennbar sein. Wenn schon Fehler, dann bitte immer gleich. Wenn z.B. der Sentiment Erkennung eine Wortliste zu Grunde liegt mit guten und schlechten Worten (und das ist häufig der Fall), dann soll die nicht unkontrollierbar dynamisch sein.
- Blickwinkel Modus, wechselbar von neutral auf parteiisch. So kann ich einerseits “meine Marke” mit chauvinistischen Augen verfolgen und andererseits Kino- oder Aktien-Empfehlungen mit kaltem Herzen. Praktisch ist das unterschiedlich umsetzbar, u.a. durch Neu-Bewertung der Wortliste bzw. der dazu gehörenden Regeln.
- Editierbare Branchenregeln. Die Positiv-Negativ-Kriterien können in einigen Branchen stark vom Üblichen abweichen. Hier geht es um in der Branche übliche Fachtermini und Formulierungen, die ggf. so gar nicht abgebildet sind – das sollte grundsätzlich entsprechend kalibriert werden können.
- Editierbare Sprachregeln. So ähnlich, wie Branchenregeln, aber nicht genau das Gleiche. Hier geht es um generell vom Üblichen abweichende Sprachmuster, wie etwa bei “HIV positiv”.
-
Einzelfall Editing des Sentiments. Manche Produkte bieten ein Online Editing des Sentiments an, so dass man die automatisch erkannten Bewertungen manuell korrigieren kann. Das ist sehr wertvoll und hilfreich (wenn es ergonomisch gut designed ist), denn:
- man lernt das Bewertungsverfahren praktisch kennen und entwickelt dafür ein Gefühl. Das hilft dann u.a. bei der Regeloptimierung.
- man kann grobe Fehlbeurteilungen direkt korrigieren und damit auch gleich das entsprechende Reporting. Bei nur z.B. 100 neuen Treffern pro Tag kann eine täglich manuelle Nachkorrektur sehr sinnvoll sein.
- man hat eine Grundlage für den folgenden Punkt:
- Lernendes System bezogen auf das Projekt. Manche Produkte mit Online Editing Funktion (s.o.) verarbeiten diese “Korrektur” gleich weiter für die Folgebewertungen. Das ist gut und sinnvoll, insbesondere wenn es a) mit den o.g. Leistungen kombiniert und b) projektweise differenziert werden kann (wichtig besonders für Agenturen, die mehrere Projekte bearbeiten).
Sie werden am Markt aktuell kein Produkt finden, dass wirklich alle Bedingungen erfüllt. Möglicherweise sind sie sogar nicht einmal alle gemeinsam zu 100% erfüllbar. Aber einige Funktionen sollten schon gegeben sein.
Wie geht man also mit der Sentiment Erkennung in der Praxis um, wie setzt man sie ein?
Hier sind einige Stichworte und Empfehlungen, die Ihnen bei dieser Frage helfen sollen:
- Je weniger die Sentiment Erkennung für Sie einfach Black Box ist, je mehr Sie das Verfahren zumindest im Prinzip verstehen – desto besser. Die tiefe Theorie im Hintergrund ist vielleicht etwas tough. Verlangen Sie aber von Ihrem Tool, dass wenigstens 4 der 7 Anforderungen erfüllt sind (z.B. 1, 2, 5 und 6) und Sie haben mehr als die meisten Ihrer Kollegen.
- Legen Sie Ihren Sentiment Glauben ab! So lange Sie sich nicht via Stichproben (mehr als eine Handvoll Posts, mehr als einmal geprüft!) die ungefähre Qualität für Ihren Verantwortungsbereich, Ihre Marke, Ihre Firma, Ihr Stichwort, überprüft haben – so lange ist großes Misstrauen angesagt. Ich habe mehrfach solche Abgleiche gesehen mit einer Treffergenauigkeit von unter 40% – dann kann man auch würfeln!
- Die Erkennungsqualität hängt von vielen Faktoren ab, der Branche, dem Medium, der Zielgruppe, der Sprache, Ihren Anforderungen. Auch wenn in einem Projekt eine gute Erkennungsqualität erreicht wurde, muss das nicht im nächsten Projekt gelten. Die Sentiment Erkennung für den Audi A8 mag hervorragend sein – für den Renault Clio heißt das nicht viel.
- Sentiment gibt nur einen Indikator! Auch wenn Sie viele Stichproben gezogen und Regeln angepasst haben und nun über 70% sind (Glückwunsch!) – es bleibt eine unscharfe Kunst. Sie liefert Indikatoren für eine erste Orientierung. Eine Grundlage für operative Prozesse liefert sie nicht.
- Für das operative Beschwerdemanagement kann Social Media Monitoring guten input liefern – aber nicht via Sentiment Erkennung. Definieren Sie kritische Wortgruppen (Geschmack, schmecken, eklig, alt, faul,…) und richten Sie die Reporting Sensoren Ihres Tools darauf aus.
- Entscheiden Sie sich nicht für ein Monitoring Produkt, weil die Sentiment-Erkennung so gut funktioniert, dann würde der Schwanz den Hund wackeln. Andere Punkte, wie Vollständigkeit, Ergonomie, Reporting, Export-Schnittstellen etc. sind wichtiger. Theoretisch können Sie sogar das Thema “Sentiment-Erkennung” in einem anderen Text-Mining Tool abbilden (rate ich aber von ab, Komplexität steigt erheblich).
- Bitten Sie den Lieferanten ihres Tools, Ihnen seine Anstrengungen für die Qualitätssicherung bei der Sentiment Erkennung darzustellen. Wie macht er das generell, und wann hat er es zuletzt mit der Version, die Sie nutzen gemacht? Mit welchem Ergebnis? Machen Sie sich nicht zu viele Hoffnungen, da wird nur selten eine gute Antwort kommen (wenn doch: Glückwunsch!), aber Sie sensibilisieren an einem Punkt, der gern vergessen wird. Steter Tropfen…
Wir sind am Ende der Sentiment(al) Journey angekommen, einen Link zu dem Doris Day Song von 1944 habe ich hier noch angefügt (hat immer noch Ohrwurm Qualität).
In kommenden Beiträgen werde ich hier mehr von unserem Vergleich berichten. Wenn Sie spezielle konkrete Aspekte interessieren, ist feedback immer ein sinnvoller Weg.
Welche Tools haben sie denn getestet?
Hallo Petra78,
in einem der nächsten Posts kommt das ausführlicher, aber im Vergleich waren: Brandwatch, Talkwalker, Echobot, ValueScope und uberMetrics.
Das Thema Sentiment ist für uns als reine Content Marketing Agentur wichtig. Allerdings haben wir bisher noch kein Werkzeug finden können, mit dem sich tatsächlich das Stimmungsbild zu einem Thema oder einer Marke herauslesen lässt. Generell gilt, je kürzer die Aussagen, desto treffsicherer. Je länger der Text über ein “Thema”, desto ungenauer die Auswertung. Vielleicht haben Sie ja einen Tip für uns… Wir starten nämlich gerade ein Projekt, in dem die Sentiment Analyse eine wichtige Rolle spielen wird….
Danke im Voraus.
Hallo Herr Kaspers, danke fürs Feedback. Zumindest Anregungen habe ich:
Die besten Stimmungserkennungen hat aus unserer Sicht Valuescope geliefert. Deren Tool scheint recht flexibel modellierbar zu sein. Alternativ könnten Sie auch ein eher einfaches werkzeug wie Echobot nehmen, nur fürs Crawlen, und dann mit reinen Textminern, z.B. von SPSS / IBM auf der Ergebismenge weitermachen.
Bei langen Texten würde ich versuchen, die “Stimmungs-Definierer” im Umkreis von 10-12 Wörtern um das Suchwort zu finden. Das löst das Thema nicht, aber verkleinert es.
Viel Erfolg, viele Grüße, Peter Apel
Vielen Dank, vielleicht kann auch Ihnen einmal behilflich sein. Falls ja, melden Sie sich einfach… unter http://www.etent.de finden Sie unsere Kontaktdaten.