Handler zur Textanalyse und -verarbeitung

woodpecker · •---> Anmeldedatum: 12.10.2010 Beiträge: 150 Wohnort: Roggentin/Rostock

Hallo,
ich habe ein paar Handler geschrieben, mit denen man sehr bequem Texte analysieren und verarbeiten kann. Sie basieren im Wesentlichen auf den Möglichkeiten, die das UNIX-Kommando awk bietet.

Im Einzelnen sind das die Funktionen:

Substr - Rückgabe eines Teilstrings
StrIndex - Ermittlung der Position eines regulären Ausdrucks innerhalb eines Textes
Match - Ermittlung von Position, Länge und Wert eines Matches
Substitute - Pattern-Substitution
PatternCount - Ermittlung der Anzahl Vorkommen eines Pattern im String
KeyString - Senden von Tastenanschlägen, die auch Umlaute enthalten können

Die meisten Funktionen arbeiten mit Here Documents für awk. Dabei ist es wichtig, dass in der Folgezeile des Kommandoaufrufs (d.h. dort, wo das Here Document beginnt) keine Leerzeichen am Zeilenanfang eingefügt werden. Die Zeichenfolge

Skeeve · •----> Anmeldedatum: 20.04.2006 Beiträge: 1067

woodpecker · Verfasst am: 19.11.2010 - 22:51 Titel: Ein UNIX-basiertes Substr

Hallo nochmal,
der Substr-Handler im obigen Skript basiert rein auf AppleSkript. Die anderen sind zumeist UNIX-basiert. Deshalb gibt es u.U. ein Problem mit der Kompatibilität. Bei normalen Text-Strings fällt das nicht auf, wenn aber Sonderzeichen im Text sind, kann es sein, dass Substr nicht das liefert, was man erwartet.
Wenn z.B. ein

|Match| for "[[:print:]]{1,3}" into Txt
ein Ergebnis von {45,3,"Auf"} liefert, dann sollte ein
Substr(Txt,45,3) natürlich den String "Auf" zurückgeben.

Das war wie gesagt u.U. nicht der Fall.
Deshalb habe ich noch einen UNIX-basierten Substr-Handler geschrieben, der dieses Problem beseitigt.

on Substr(Txt, spos, len)
set Ntxt to do shell script "wc -c <<++
" & Txt & "
++"
set Ntxt to Ntxt as number

if spos is not greater than 0 or spos is greater than Ntxt then return ""
if len is not greater than 0 then set len to 1

set awk to "<<++ awk -v S=" & spos & " -v L=" & len & " ' { if( length >= S ) { rc=substr($0,S,L) ; nextfile} else S-=length+1}
END {print rc}'
" & Txt & "
++"
set rc to do shell script awk
return rc
end Substr

Viel Spass beim Ausprobieren.

Wenn man dieses Substr benutzt, ist allerdings auch noch eine kleine Änderung im Handler KeyString erforderlich, damit er funktioniert. Im tell-Block muss

woodpecker · Verfasst am: 19.11.2010 - 23:24 Titel: Fehlermeldung awk

Hallo Skeeve,
das ist kein Problem des Skripts. Im Terminal kommt der gleiche Fehler.

+ awk '{match($0,"\+\+");print RLENGTH}'
awk: illegal primary in regular expression ++ at +
source line number 1
context is
>>> {match($0,"\+\+") <<<

Ich denke das awk hat da ein Problem. Ich würde in dem Fall das Pattern anders formulieren, wenn möglich. Mit

|StrIndex|("++test++", "[[:punct:]]")

würde es z.B. funktionieren.

Gruß

woodpecker · Verfasst am: 19.11.2010 - 23:34 Titel:

Jetzt fällt mir gerade ein, wie es noch besser geht:

|StrIndex|("++test++", "[+]{2}")

Das funktioniert und liefert genau was Du willst.

Skeeve · •----> Anmeldedatum: 20.04.2006 Beiträge: 1067

woodpecker · Verfasst am: 20.11.2010 - 00:14 Titel:

Hallo Skeeve,
das würde ich jetzt auch nicht als Bug bezeichnen. Die Ursache liegt darin, dass ausgerechnet die Zeichen, die ich als EOF für das Here Document verwendet habe in Deinem Text als Zeile vorkommen. Das kann natürlich nicht funktionieren, da damit die Eingabe zu Ende ist und die SHELL wieder interpretiert. Wenn Du nicht ausschliessen kannst, dass im Text eine Zeile mit "++" vorkommt, kannst Du im Skript eine beliebige andere Zeichenfolge verwenden. Notfalls kann man die Zeichenfolge auch noch parametrierbar machen. Das wäre aber mit Kanonen auf Spatzen geschossen.

Versuchs mal mit

<<++..EndOfFile

Gruß woodpecker

woodpecker · Verfasst am: 20.11.2010 - 00:40 Titel: Here Documents

Eine bessere Variante wäre noch:

set EndOfFile to "EOF" & ((1000000 * (random number) as integer) as string)

do shell script "<<"& EndOfFile & " awk ...."

HereDocument

" & EndOfFile

Man könnte einen Handler schreiben:

on FileClose()
set EndOfFile to "EOF" & ((10000000 * (random number) as integer) as string)
return "++EOF" & EndOfFile
end FileClose

und ein SHELL-Aufruf mit HereDocument sieht dann z.B. so aus:

set EndOfFile to my FileClose()
set Ntxt to do shell script "wc -c <<" & EndOfFile & "
" & Txt & "
" & EndOfFile

Gruss woodpecker

Skeeve · •----> Anmeldedatum: 20.04.2006 Beiträge: 1067

woodpecker · Verfasst am: 20.11.2010 - 11:50 Titel:

Skeeve · •----> Anmeldedatum: 20.04.2006 Beiträge: 1067

woodpecker · Verfasst am: 20.11.2010 - 14:11 Titel:

Skeeve · •----> Anmeldedatum: 20.04.2006 Beiträge: 1067

Skeeve · •----> Anmeldedatum: 20.04.2006 Beiträge: 1067

Probier mal folgendes, woody:

woodpecker · Verfasst am: 22.11.2010 - 13:51 Titel: