Probleme & Fehler

Probleme & Fehler:

Wie sie auf der "Daten setzen..." Ebene entstehen können

Weshalb Entstehen Fehler:

  • Zu kurz gewählte Beobachtungszeiten:

Oftmals ist es so das innerhalb einer Sichtungs-Session nicht alle Möglichen Formatierungs-Varianten in der Titelauflistung (Titelstream) eines Senders (Stream) ersichtlich sind, weshalb es zu Überschneidungen mit möglichen Regulären Ausdrücken kommen kann die gesetzt werden sollen.

Manche Streams senden z.B. am Wochenende mit ganz anderen Formatierungen im Titelstream und manchmal ändert sich die Formatierung je nach aktiven Moderator.

Aus diesem Grunde kann es Sinnvoll sein denn Betroffenen Stream in mehren Sessions an verschiedenen Tagen zu beobachten und Zwischennotizen zu machen bevor evtl. Reguläre Ausdrücke zum Einsatz kommen.

Zurück zum Anfang

Mögliche Schäden durch falsch gesetzte Reguläre Ausdrücke:

    • Numerics (Zahlen/Ziffern) & Sonderzeichen in der Namensgebung bzw. im Songtitel:

    • Das entfernen der NUMERICS und SONDERZEICHEN mit Hilfe von Regulären Ausdrücken kann in den weiter unten beschriebenen Fällen evtl. Problematisch sein wenn der Künstlername und/oder der Songtitel wie in der Beispielauflistung solche enthält. Diese Fälle sollten also genauer betrachtet werden!

Zurück zum Anfang

Empfehlungen:

  • MetaTags:

    • Günstig wäre es, Um Verluste durch entfernte Informationen zu vermeiden, wenn man das so wie ich in "Empfehlung für 'Meta Tags' (ID3-Tags)" vorschlage vielleicht Generell für die Einstellungen vorsehen würde. Auf diesem Wege gehen dem Endnutzer keine Informationen durch falsch gesetzte RegEx verloren.

Zurück zum Anfang

Datensammlung & Wissenschaftliche Forschungsecke:

    • In meiner Datensammlung finden sich sehr viele Sender (Streams) aufgelistet dessen Reguläre Ausdrücke von mir bzw. auch anderen bearbeitet bzw. gesetzt wurden.

    • Dort werden allerdings auch sehr viele Fehler & Probleme aufgezeigt.

    • Unter den Suchbegriff "ERROR" und "BUG" (beide ohne Anführungszeichen) kann besagtes betrachtet werden. Die Ganzen Begriffe sind aber auch im Glossar der Datensammlungsseite beschrieben.

Database: Startseite

Database: Downloads

Glossar - Kurzbeschreibung der hier verwendeten Parameter-Begriffe:

  • ARTIST = Künstler (Gruppe, Band, Sänger-in).

  • TITLE = Songtitel.

  • ALBUM = Albumtitel.

Zurück zum Anfang

Beispiele für Problematische Künstler/Titel-Zusammensetzungen:

Ermittelung - Von Küntlern & Titel mit Ziffern, Sonderzeichen etc.:

Die Ermittelung von Künstlern & Titel mit Ziffern, Sonderzeichen etc. gelingt mit Hilfe der folgenden Webseite am leichtesten. Dort kann man z.B. einfach Fortlaufende Zahlen in den entsprechenden Suchfeldern eingeben: www.hitparade.ch

Weitere Webseiten sind in der Kategorie: "Musik Diskographie Verzeichnisse" Aufgelistet.

Zurück zum Anfang

Fehlerfälle:

Allgemein Problematische fälle mit Zahlen am/im Künstlernamen:

Riskante RegEx:

    • (\d+)?(?P<a>.*) - (?P<t>.*)

  • Stream:

    • Verschiedene

    • ....

  • Beispiel:

    • Aus: "50 Cent - In Da Club"

    • Wurde: "Cent - In Da Club"

  • Info:

    • Wie in "Beispiele für Problematische Künstler/Titel-Zusammensetzungen" Aufgelistet können solche Regulären Ausdrücke in der Tat Schaden anrichten.

Reihenfolge Einordnung von Künstler/Titel wurde Falsch gesetzt:

Beschränkt Riskante RegEx:

    • (?P<t>.*) - (?P<a>.*)

  • Format:

    • ARTIST - TITLE | RauteMusik.FM/main

  • Ergebnis:

    • TITLE | RauteMusik.FM/main - ARTIST

  • Stream:

    • 89.0 RTL (128kbps)

  • Beispiel:

    • Aus: " 50 Cent - In Da Club | RauteMusik.FM/main"

    • Wurde: "In Da Club | Rautemusik.fm/main - 50 Cent"

  • Info:

    • Der Reguläre Ausdruck (RegEx) wurde zwar durch hinzufügen neuere gültige RegEx korrigiert dennoch wurden durch den Fehler der Titelsuche-Datenbank ungültige Einträge zugefügt!

Zurück zum Anfang

Problemfälle:

Angestrebte Ziele - Es sollte Künstler und Titel getrennt werden:

Beschränkt Riskante RegEx:

    • (?P<a>.*?)(-)(?P<t>.*)

    • oder

    • (?P<a>.*?)(_-_| - |-)(?P<t>.*)

  • Formate:

    • ARTIST-TITLE

    • ARTIST - TITLE

    • ARTIST_-_TITLE

  • Beispiele:

    • E-Motional Disorder - Entropy

  • Info:

    • Bei Titeln die wie im Beispiel ein Bindestrich (-) im Künstlernamen vorkommt, gibt es klare Probleme.

Angestrebte Ziele - Es sollte der Kommentar entfernt werden:

Riskante RegEx:

    • (?P<a>.*) - (?P<t>.*?) [^a-z()0-9]+(.*)

  • Formate:

    • ARTIST - TITLE (TITLE) *Live aus Kassel*

    • oder (im Wechsel):

    • ARTIST - TITLE (TITLE `TITLE`) *Live aus Kassel*

  • Problem dieser RegEx:

    • Es wird alles zum Textende abgeschnitten was nicht mit Buchstaben, Klammern oder Zahlen beginnt! Der Titeltext wird in dem Beispiel also schon ab dem ersten Apostroph abgeschnitten!

Riskante RegEx:

    • (?P<a>.*) - (?P<t>.*) [^a-z]+(.*)

  • Formate:

    • ARTIST - TITLE > Beggi Live für euch on Air <

    • oder (im Wechsel):

    • ARTIST - TITLE (TITLE) > die Schalla Show Live für euch on Air <

  • Problem dieser RegEx:

    • Es wird alles abgeschnitten was nicht mit Buchstaben abschliesst!

    • Der Titeltext wird in dem Beispiel also schon ab der ersten Klammer abgeschnitten!

Zurück zum Anfang

Satire - Komisches Für Zwischendurch:

Kennst du einen Regulären Ausdruck für den Tollen Hintern von Egon's Frau?

(B)O(B)

Wer ist BOB ?!?

Der Nachbar von Egon!

Angestrebte Ziele - Es sollten Zahlen (NR) entfernt werden:

Riskante RegEx:

    • ([^a-z]*)?(?P<a>.*) - (?P<t>.*)

  • Formate:

    • NR ARTIST - TITLE

    • oder (im Wechsel):

    • ARTIST - TITLE

  • Problem dieser RegEx:

    • Das "[^a-z]*" in der RegEx entfernt alle Zeichen am Anfang des Künstlernamens die nicht Buchstaben sind. Also nicht nur Zahlen sondern auch diverse Sonderzeichen wie z.b. Apostrophen inklusive evtl. vorhandene Leerzeichen etc.

Riskante RegEx:

    • (\d+[^a-z]*)?(?P<a>.*) - (?P<t>.*)

  • Formate:

    • NR - ARTIST - TITLE

    • oder (im Wechsel):

    • NR- ARTIST - TITLE

    • oder (im Wechsel):

    • ARTIST - TITLE

  • Problem dieser RegEx:

    • Das "\d+[^a-z]*" in der RegEx entfernt alle Zeichen am Anfang des Künstlernamens die mit Zahlen beginnen und denen Sonderzeichen wie z.b. Apostrophen inklusive evtl. vorhandene Leerzeichen etc. folgen.

Riskante RegEx:

    • (?P<a>.*?)([^a-z]* - [^a-z]*)(?P<t>.*)

  • Formate:

    • ARTIST NR - TITLE

    • oder (im Wechsel):

    • ARTIST - NR TITLE

    • oder (im Wechsel):

    • ARTIST NR - NR TITLE

  • Problem dieser RegEx:

    • Sie kann nicht nur Zahlen die möglicherweise zum Künstler/Title hinzugehören entfernen sondern auch diverse Sonderzeichen.

Riskante RegEx:

    • (\d*\.*_* *)?(?P<a>.*) - (?P<t>.*)

  • Formate:

    • NRARTIST - TITLE

    • oder (im Wechsel):

    • NR ARTIST - TITLE

    • oder (im Wechsel):

    • NR.ARTIST - TITLE

    • oder (im Wechsel):

    • NR_ARTIST - TITLE

    • oder (im Wechsel):

    • .ARTIST - TITLE

    • oder (im Wechsel):

    • ARTIST - TITLE

  • Problem dieser RegEx:

    • Das "\d*\.*_* *" entfernt eventuelle Zahlen und/oder Punkte und/oder Unterstriche und/oder Leerzeichen vor dem erscheinen des ersten Buchstaben!

Riskante RegEx:

    • (?P<a>.*) - (?P<t>.*?)( +| - )(\d)

  • Formate:

    • ARTIST - TITLE 1999

    • oder (im Wechsel):

    • ARTIST - TITLE 1999

    • oder (im Wechsel):

    • ARTIST - TITLE - 1999

  • Beispiele:

    • Roxy Music - Jealous Guy - 1981

    • Brian Ferry - A Hard Rains A Gonna Fall 1973

    • Trinity - 002 345 709 (That's My Number) - 1976

  • Problem dieser RegEx:

    • A. In den ersten 2 Beispielen werden nur die Letzten 3 Ziffern der Jahreszahl abgeschnitten.

    • B. Im Dritten Beispiel wird alles nach den ersten (3 Stelligen) Ziffernblock abgeschnitten.

Beschränkt Riskante RegEx:

    • (\d{3}\s)?(?P<a>.*) - (?P<t>.*)

  • Formate:

    • ARTIST - TITLE

    • oder (im Wechsel):

    • 123 ARTIST - TITLE

  • Info:

    • Steht vor einer Vielzahl oder sogar allen Künstlernamen eine „3“-Stelliger Zahl kann solch eine RegEx durchaus zur Anwendung kommen. Sie ist Sicherer als solche „\d+“ RegEx die ein oder unzählig viele Ziffern behandelt.

Beschränkt Riskante RegEx:

    • \d+ - (?P<a>.*) - (?P<t>.*)

    • besser:

    • \d{ANZAHLZEICHEN} - (?P<a>.*) - (?P<t>.*)

  • Formate:

    • NR - ARTIST - TITLE

  • Info:

    • Auch hier sind Künstler wie „4-You“ oder „3-O-Matic“ etc. immer in Betracht zu ziehen. Manche Sender setzen da auch schon mal willkürlich Leerzeichen („4 - You“) zwischen der Zeichengebung.

Beschränkt Riskante RegEx:

    • \d+_(?P<a>.*) - (?P<t>.*)

    • oder:

    • \d+\.(?P<a>.*) - (?P<t>.*)

    • oder (wenn beide Format-Varianten im Wechsel vorkommen):

    • (\d+(\.+|\_+))(?P<a>.*) - (?P<t>.*)

  • Formate:

    • NR_ARTIST - TITLE

    • oder (im Wechsel):

    • NR.ARTIST - TITLE

  • Info:

    • Das entfernen von Unterstrichen ("_") ist in der Regel unproblematisch.

    • Bei Punkten ist da schon eher mit Vorsicht zu walten.

Angestrebte Ziele - Es sollten Ankündigungen entfernt werden:

Riskante RegEx:

    • (.* : )?(?P<a>.*) - (?P<t>.*)

    • oder (bei unbekannter/wechselnder Anzahl Leerzeichen):

    • (.*\s*:\s*)?(?P<a>.*) - (?P<t>.*)

  • Formate (Französischer Sender):

    • A suivre : ARTIST - TITLE

    • oder (im Wechsel):

    • En ce moment : ARTIST - TITLE

  • Formate (Deutscher Sender):

    • Es Folgt : ARTIST - TITLE

    • oder (im Wechsel):

    • MODERATOR Spielt jetzt : ARTIST - TITLE

  • Info:

    • A suivre = Fortsetzung folgt / Es Folgt...

    • En ce moment = Im Augenblick / Zur Zeit / Es Läuft...

  • Problem dieser RegEx:

    • Wenn in diesem Fall "Es Folgt" Ankündigungen entfernt werden, wird dieses zu Fehl- Interpretationen des nach der Ankündigung beschriebenen Titels führen. Insbesondere gilt die Problematik bei eingriffen von Fremdsprachigen Sendern.

  • Beispiel für eine Sinngemässe RegEx:

    • .*Spielt Jetzt : (?P<a>.*) - (?P<t>.*)

    • oder (bei unbekannter/wechselnder Anzahl Leerzeichen):

    • .*Spielt Jetzt\s*:\s*(?P<a>.*) - (?P<t>.*)

Zurück zum Anfang

Allgemeine Probleme:

Allgemein Riskante Reguläre Ausdrücke:

  • Riskante RegEx:

    • (?P<a>.*) - (?P<a>.*?)

    • oder:

    • (?P<a>.*) - (?P<t>.*) - (?P<l>.*?)

    • ....

  • Problem dieser RegEx:

    • In jeweils letzteren rechten Part des Regulären Ausdruckes sollte auf keinen Fall der Parameter Typ: ".*?" (Minimal nötige Menge), wenn im End-Part kein folge Ausdruck mehr gegeben wird, zum Einsatz kommen da sonst Titel bzw. Album Informationen verloren gehen bzw. falsch in den vorherigen linken Benannten Gruppen (?P<x>) eingeordnet werden!

Allgemeine Probleme mit Regulären Ausdrücken:

Jahreszahl Ziffern:

    • Die Behandlung von meist 2 oder 4 Stelligen Jahreszahl-Ziffern im Künstler/Titel Teilen ist ohneeindeutige Trennung der Elemente recht riskant da diese Bestandteil des Titels sein können.

  • Beispiele:

    • Chris Andrews - Yesterday Man 1965

    • Chris Andrews - Yesterday Man 65

    • Joy Division - Atmosphere - 1988

    • Joy Division - Atmosphere (1979)

  • Erläuterung:

    • Bei den Ersten beiden Beispielen ist nicht eindeutig ob die Ziffer nicht doch auch Bestandteil des Titels sein kann, den die (Jahres-) Ziffer kann auch auf Ereignisse innerhalb des Liedtextes bezugnehmen. Bei den Dritten- und Vierten Beispiel ist die Trennung schon etwas eindeutiger.

    • Bei vielen Sendern kann es vorkommen das sogar im Selben Stream abwechselnd unterschiedliche Formatierungen angewendet werden.

    • Ein weitere Sache ist, das viele Sender nicht das Ersterscheinungsjahr sondern das irgendwelcher Sampler/Kompilationen oder Bootlegs etc. angeben.

Laufzeitangaben:

  • Beispiele:

    • KÜNSTLER - TITEL 4:15

    • KÜNSTLER - TITEL - 4:15

    • KÜNSTLER - TITEL (4:15)

  • Erläuterung:

    • Hier gilt eigentlich ähnliches wie schon in "Jahreszahl-Ziffern" Angesprochen wurde. Die vermeintliche Laufzeitangabe kann auch eine Uhrzeitangabe innerhalb des Liedtextes sein.

    • Siehe Dazu auch: Empfehlung für 'Meta Tags' (ID3-Tags)

Allgemeine Probleme mit Optischer Erkennbarkeit von Zeichen:

Mehrere Leerzeichen sind nicht immer eindeutig erkennbar!

    • Bei einigen Sendern kann man die Leerzeichen z.b. auf der Stream-Einstellungswebseite nicht eindeutig erkennen:

  • Einige Beispiele:

    • Roxy Music - Jealous Guy - 1981

    • Toms Rockschuppen: - Steppenwolf / Born to be wild

    • Evanessence - - Everybody's Fool

    • ....

  • Beispiel Sender:

    • Radio Monique 963 / Radio Caroline 319 live from Breskens - Holland

    • Radio Nordsee International

    • Radio Rivendell - The Fantasy Station

    • 1.FM - HIGH VOLTAGE RADIO

    • ....

Langstriche sind nicht immer eindeutig erkennbar!

    • In einigen fällen werden von den Sendern lange Bindestriche verwendet die man z.b. auf der Stream-Einstellungswebseite nicht eindeutig erkennen kann:

  • Beispiele:

    • Now On Air:ARTIST – TITLE - ARTIST – TITLE

    • Bei der Schriftart "Verdena" ist der unterschied der Bindestriche nur schwer erkennbar!

    • Now On Air:ARTIST – TITLE - ARTIST – TITLE

    • Hier ist mit Anwendung der Schriftart "Times New Roman" ein unterschied deutlicher erkennbar!

  • Beispiel Sender:

    • NAXI 80-e RADIO by KBC NET

  • Info: