Probleme & Fehler
Probleme & Fehler:
Wie sie auf der "Daten setzen..." Ebene entstehen können
Weshalb Entstehen Fehler:
Zu kurz gewählte Beobachtungszeiten:
Oftmals ist es so das innerhalb einer Sichtungs-Session nicht alle Möglichen Formatierungs-Varianten in der Titelauflistung (Titelstream) eines Senders (Stream) ersichtlich sind, weshalb es zu Überschneidungen mit möglichen Regulären Ausdrücken kommen kann die gesetzt werden sollen.
Manche Streams senden z.B. am Wochenende mit ganz anderen Formatierungen im Titelstream und manchmal ändert sich die Formatierung je nach aktiven Moderator.
Aus diesem Grunde kann es Sinnvoll sein denn Betroffenen Stream in mehren Sessions an verschiedenen Tagen zu beobachten und Zwischennotizen zu machen bevor evtl. Reguläre Ausdrücke zum Einsatz kommen.
Mögliche Schäden durch falsch gesetzte Reguläre Ausdrücke:
Numerics (Zahlen/Ziffern) & Sonderzeichen in der Namensgebung bzw. im Songtitel:
Das entfernen der NUMERICS und SONDERZEICHEN mit Hilfe von Regulären Ausdrücken kann in den weiter unten beschriebenen Fällen evtl. Problematisch sein wenn der Künstlername und/oder der Songtitel wie in der Beispielauflistung solche enthält. Diese Fälle sollten also genauer betrachtet werden!
Empfehlungen:
MetaTags:
Günstig wäre es, Um Verluste durch entfernte Informationen zu vermeiden, wenn man das so wie ich in "Empfehlung für 'Meta Tags' (ID3-Tags)" vorschlage vielleicht Generell für die Einstellungen vorsehen würde. Auf diesem Wege gehen dem Endnutzer keine Informationen durch falsch gesetzte RegEx verloren.
Datensammlung & Wissenschaftliche Forschungsecke:
In meiner Datensammlung finden sich sehr viele Sender (Streams) aufgelistet dessen Reguläre Ausdrücke von mir bzw. auch anderen bearbeitet bzw. gesetzt wurden.
Dort werden allerdings auch sehr viele Fehler & Probleme aufgezeigt.
Unter den Suchbegriff "ERROR" und "BUG" (beide ohne Anführungszeichen) kann besagtes betrachtet werden. Die Ganzen Begriffe sind aber auch im Glossar der Datensammlungsseite beschrieben.
Glossar - Kurzbeschreibung der hier verwendeten Parameter-Begriffe:
ARTIST = Künstler (Gruppe, Band, Sänger-in).
TITLE = Songtitel.
ALBUM = Albumtitel.
Beispiele für Problematische Künstler/Titel-Zusammensetzungen:
Ermittelung - Von Küntlern & Titel mit Ziffern, Sonderzeichen etc.:
Die Ermittelung von Künstlern & Titel mit Ziffern, Sonderzeichen etc. gelingt mit Hilfe der folgenden Webseite am leichtesten. Dort kann man z.B. einfach Fortlaufende Zahlen in den entsprechenden Suchfeldern eingeben: www.hitparade.ch
Weitere Webseiten sind in der Kategorie: "Musik Diskographie Verzeichnisse" Aufgelistet.
Fehlerfälle:
Allgemein Problematische fälle mit Zahlen am/im Künstlernamen:
Riskante RegEx:
(\d+)?(?P<a>.*) - (?P<t>.*)
Stream:
Verschiedene
....
Beispiel:
Aus: "50 Cent - In Da Club"
Wurde: "Cent - In Da Club"
Info:
Wie in "Beispiele für Problematische Künstler/Titel-Zusammensetzungen" Aufgelistet können solche Regulären Ausdrücke in der Tat Schaden anrichten.
Reihenfolge Einordnung von Künstler/Titel wurde Falsch gesetzt:
Beschränkt Riskante RegEx:
(?P<t>.*) - (?P<a>.*)
Format:
ARTIST - TITLE | RauteMusik.FM/main
Ergebnis:
TITLE | RauteMusik.FM/main - ARTIST
Stream:
89.0 RTL (128kbps)
Beispiel:
Aus: " 50 Cent - In Da Club | RauteMusik.FM/main"
Wurde: "In Da Club | Rautemusik.fm/main - 50 Cent"
Info:
Der Reguläre Ausdruck (RegEx) wurde zwar durch hinzufügen neuere gültige RegEx korrigiert dennoch wurden durch den Fehler der Titelsuche-Datenbank ungültige Einträge zugefügt!
Problemfälle:
Angestrebte Ziele - Es sollte Künstler und Titel getrennt werden:
Beschränkt Riskante RegEx:
(?P<a>.*?)(-)(?P<t>.*)
oder
(?P<a>.*?)(_-_| - |-)(?P<t>.*)
Formate:
ARTIST-TITLE
ARTIST - TITLE
ARTIST_-_TITLE
Beispiele:
E-Motional Disorder - Entropy
Info:
Bei Titeln die wie im Beispiel ein Bindestrich (-) im Künstlernamen vorkommt, gibt es klare Probleme.
Angestrebte Ziele - Es sollte der Kommentar entfernt werden:
Riskante RegEx:
(?P<a>.*) - (?P<t>.*?) [^a-z()0-9]+(.*)
Formate:
ARTIST - TITLE (TITLE) *Live aus Kassel*
oder (im Wechsel):
ARTIST - TITLE (TITLE `TITLE`) *Live aus Kassel*
Problem dieser RegEx:
Es wird alles zum Textende abgeschnitten was nicht mit Buchstaben, Klammern oder Zahlen beginnt! Der Titeltext wird in dem Beispiel also schon ab dem ersten Apostroph abgeschnitten!
Riskante RegEx:
(?P<a>.*) - (?P<t>.*) [^a-z]+(.*)
Formate:
ARTIST - TITLE > Beggi Live für euch on Air <
oder (im Wechsel):
ARTIST - TITLE (TITLE) > die Schalla Show Live für euch on Air <
Problem dieser RegEx:
Es wird alles abgeschnitten was nicht mit Buchstaben abschliesst!
Der Titeltext wird in dem Beispiel also schon ab der ersten Klammer abgeschnitten!
Satire - Komisches Für Zwischendurch:
Kennst du einen Regulären Ausdruck für den Tollen Hintern von Egon's Frau?
(B)O(B)
Wer ist BOB ?!?
Der Nachbar von Egon!
Angestrebte Ziele - Es sollten Zahlen (NR) entfernt werden:
Riskante RegEx:
([^a-z]*)?(?P<a>.*) - (?P<t>.*)
Formate:
NR ARTIST - TITLE
oder (im Wechsel):
ARTIST - TITLE
Problem dieser RegEx:
Das "[^a-z]*" in der RegEx entfernt alle Zeichen am Anfang des Künstlernamens die nicht Buchstaben sind. Also nicht nur Zahlen sondern auch diverse Sonderzeichen wie z.b. Apostrophen inklusive evtl. vorhandene Leerzeichen etc.
Riskante RegEx:
(\d+[^a-z]*)?(?P<a>.*) - (?P<t>.*)
Formate:
NR - ARTIST - TITLE
oder (im Wechsel):
NR- ARTIST - TITLE
oder (im Wechsel):
ARTIST - TITLE
Problem dieser RegEx:
Das "\d+[^a-z]*" in der RegEx entfernt alle Zeichen am Anfang des Künstlernamens die mit Zahlen beginnen und denen Sonderzeichen wie z.b. Apostrophen inklusive evtl. vorhandene Leerzeichen etc. folgen.
Riskante RegEx:
(?P<a>.*?)([^a-z]* - [^a-z]*)(?P<t>.*)
Formate:
ARTIST NR - TITLE
oder (im Wechsel):
ARTIST - NR TITLE
oder (im Wechsel):
ARTIST NR - NR TITLE
Problem dieser RegEx:
Sie kann nicht nur Zahlen die möglicherweise zum Künstler/Title hinzugehören entfernen sondern auch diverse Sonderzeichen.
Riskante RegEx:
(\d*\.*_* *)?(?P<a>.*) - (?P<t>.*)
Formate:
NRARTIST - TITLE
oder (im Wechsel):
NR ARTIST - TITLE
oder (im Wechsel):
NR.ARTIST - TITLE
oder (im Wechsel):
NR_ARTIST - TITLE
oder (im Wechsel):
.ARTIST - TITLE
oder (im Wechsel):
ARTIST - TITLE
Problem dieser RegEx:
Das "\d*\.*_* *" entfernt eventuelle Zahlen und/oder Punkte und/oder Unterstriche und/oder Leerzeichen vor dem erscheinen des ersten Buchstaben!
Riskante RegEx:
(?P<a>.*) - (?P<t>.*?)( +| - )(\d)
Formate:
ARTIST - TITLE 1999
oder (im Wechsel):
ARTIST - TITLE 1999
oder (im Wechsel):
ARTIST - TITLE - 1999
Beispiele:
Roxy Music - Jealous Guy - 1981
Brian Ferry - A Hard Rains A Gonna Fall 1973
Trinity - 002 345 709 (That's My Number) - 1976
Problem dieser RegEx:
A. In den ersten 2 Beispielen werden nur die Letzten 3 Ziffern der Jahreszahl abgeschnitten.
B. Im Dritten Beispiel wird alles nach den ersten (3 Stelligen) Ziffernblock abgeschnitten.
Beschränkt Riskante RegEx:
(\d{3}\s)?(?P<a>.*) - (?P<t>.*)
Formate:
ARTIST - TITLE
oder (im Wechsel):
123 ARTIST - TITLE
Info:
Steht vor einer Vielzahl oder sogar allen Künstlernamen eine „3“-Stelliger Zahl kann solch eine RegEx durchaus zur Anwendung kommen. Sie ist Sicherer als solche „\d+“ RegEx die ein oder unzählig viele Ziffern behandelt.
Beschränkt Riskante RegEx:
\d+ - (?P<a>.*) - (?P<t>.*)
besser:
\d{ANZAHLZEICHEN} - (?P<a>.*) - (?P<t>.*)
Formate:
NR - ARTIST - TITLE
Info:
Auch hier sind Künstler wie „4-You“ oder „3-O-Matic“ etc. immer in Betracht zu ziehen. Manche Sender setzen da auch schon mal willkürlich Leerzeichen („4 - You“) zwischen der Zeichengebung.
Beschränkt Riskante RegEx:
\d+_(?P<a>.*) - (?P<t>.*)
oder:
\d+\.(?P<a>.*) - (?P<t>.*)
oder (wenn beide Format-Varianten im Wechsel vorkommen):
(\d+(\.+|\_+))(?P<a>.*) - (?P<t>.*)
Formate:
NR_ARTIST - TITLE
oder (im Wechsel):
NR.ARTIST - TITLE
Info:
Das entfernen von Unterstrichen ("_") ist in der Regel unproblematisch.
Bei Punkten ist da schon eher mit Vorsicht zu walten.
Angestrebte Ziele - Es sollten Ankündigungen entfernt werden:
Riskante RegEx:
(.* : )?(?P<a>.*) - (?P<t>.*)
oder (bei unbekannter/wechselnder Anzahl Leerzeichen):
(.*\s*:\s*)?(?P<a>.*) - (?P<t>.*)
Formate (Französischer Sender):
A suivre : ARTIST - TITLE
oder (im Wechsel):
En ce moment : ARTIST - TITLE
Formate (Deutscher Sender):
Es Folgt : ARTIST - TITLE
oder (im Wechsel):
MODERATOR Spielt jetzt : ARTIST - TITLE
Info:
A suivre = Fortsetzung folgt / Es Folgt...
En ce moment = Im Augenblick / Zur Zeit / Es Läuft...
Problem dieser RegEx:
Wenn in diesem Fall "Es Folgt" Ankündigungen entfernt werden, wird dieses zu Fehl- Interpretationen des nach der Ankündigung beschriebenen Titels führen. Insbesondere gilt die Problematik bei eingriffen von Fremdsprachigen Sendern.
Beispiel für eine Sinngemässe RegEx:
.*Spielt Jetzt : (?P<a>.*) - (?P<t>.*)
oder (bei unbekannter/wechselnder Anzahl Leerzeichen):
.*Spielt Jetzt\s*:\s*(?P<a>.*) - (?P<t>.*)
Allgemeine Probleme:
Allgemein Riskante Reguläre Ausdrücke:
Riskante RegEx:
(?P<a>.*) - (?P<a>.*?)
oder:
(?P<a>.*) - (?P<t>.*) - (?P<l>.*?)
....
Problem dieser RegEx:
In jeweils letzteren rechten Part des Regulären Ausdruckes sollte auf keinen Fall der Parameter Typ: ".*?" (Minimal nötige Menge), wenn im End-Part kein folge Ausdruck mehr gegeben wird, zum Einsatz kommen da sonst Titel bzw. Album Informationen verloren gehen bzw. falsch in den vorherigen linken Benannten Gruppen (?P<x>) eingeordnet werden!
Allgemeine Probleme mit Regulären Ausdrücken:
Jahreszahl Ziffern:
Die Behandlung von meist 2 oder 4 Stelligen Jahreszahl-Ziffern im Künstler/Titel Teilen ist ohneeindeutige Trennung der Elemente recht riskant da diese Bestandteil des Titels sein können.
Beispiele:
Chris Andrews - Yesterday Man 1965
Chris Andrews - Yesterday Man 65
Joy Division - Atmosphere - 1988
Joy Division - Atmosphere (1979)
Erläuterung:
Bei den Ersten beiden Beispielen ist nicht eindeutig ob die Ziffer nicht doch auch Bestandteil des Titels sein kann, den die (Jahres-) Ziffer kann auch auf Ereignisse innerhalb des Liedtextes bezugnehmen. Bei den Dritten- und Vierten Beispiel ist die Trennung schon etwas eindeutiger.
Bei vielen Sendern kann es vorkommen das sogar im Selben Stream abwechselnd unterschiedliche Formatierungen angewendet werden.
Ein weitere Sache ist, das viele Sender nicht das Ersterscheinungsjahr sondern das irgendwelcher Sampler/Kompilationen oder Bootlegs etc. angeben.
Grund Prinzipiell ist das Abschneiden/Entfernen von Jahresziffern also in Frage zu stellen!
Siehe Dazu auch: Empfehlung für 'Meta Tags' (ID3-Tags)
Laufzeitangaben:
Beispiele:
KÜNSTLER - TITEL 4:15
KÜNSTLER - TITEL - 4:15
KÜNSTLER - TITEL (4:15)
Erläuterung:
Hier gilt eigentlich ähnliches wie schon in "Jahreszahl-Ziffern" Angesprochen wurde. Die vermeintliche Laufzeitangabe kann auch eine Uhrzeitangabe innerhalb des Liedtextes sein.
Siehe Dazu auch: Empfehlung für 'Meta Tags' (ID3-Tags)
Allgemeine Probleme mit Optischer Erkennbarkeit von Zeichen:
Mehrere Leerzeichen sind nicht immer eindeutig erkennbar!
Bei einigen Sendern kann man die Leerzeichen z.b. auf der Stream-Einstellungswebseite nicht eindeutig erkennen:
Einige Beispiele:
Roxy Music - Jealous Guy - 1981
Toms Rockschuppen: - Steppenwolf / Born to be wild
Evanessence - - Everybody's Fool
....
Beispiel Sender:
Radio Monique 963 / Radio Caroline 319 live from Breskens - Holland
Radio Nordsee International
Radio Rivendell - The Fantasy Station
1.FM - HIGH VOLTAGE RADIO
....
Langstriche sind nicht immer eindeutig erkennbar!
In einigen fällen werden von den Sendern lange Bindestriche verwendet die man z.b. auf der Stream-Einstellungswebseite nicht eindeutig erkennen kann:
Beispiele:
Now On Air:ARTIST – TITLE - ARTIST – TITLE
Bei der Schriftart "Verdena" ist der unterschied der Bindestriche nur schwer erkennbar!
Now On Air:ARTIST – TITLE - ARTIST – TITLE
Hier ist mit Anwendung der Schriftart "Times New Roman" ein unterschied deutlicher erkennbar!
Beispiel Sender:
NAXI 80-e RADIO by KBC NET
Info:
Zeichencode U+002D (ALT + 045) entspricht dem Normalen Minuszeichen/Bindestrich.
Zeichencode U+0335 (ALT + 0821) entspricht den Kurzen Verbindungsstrich.
Zeichencode U+0336 (ALT + 0822) entspricht den Langen Verbindungsstrich.
In der Kategorie: WebLinks über Reguläre Ausdrücke sind auch verweise zu Zeichentabellen.
Zurück zu "Reguläre Ausdrücke"
Zuletzt bearbeitet am: 08.01.2016