1. Konfigurationsdateien

mswin - VIM-Skript-Datei, die nötig ist, damit VIM sich in ähnlicher Weise bedienen lässt wie Windows-Programme. Die Datei muss im selben Verzeichnis liegen, in dem sich auch das VIM-Programm (gvim.exe) befindet.
_vimrc - Konfigurationsdatei des Editors VIM; Version für Windows-PCs, abzuspeichern im Homeverzeichnis des Users (z.B., unter Windows 7: C:\Users\[Benutzername])
.vimrc - Konfigurationsdatei des Editors VIM; Version für Unix-Rechner (auch Mac OS X), abzuspeichern im Homeverzeichnis des Users (-> cd ~)
.bash_profile - Konfigurationsdatei für die Unix-Shell "bash" (auch verwendbar mit der Unix-Emulation cygwin), abzuspeichern im Homeverzeichnis

2. AWK-Skripts

txt2csv - Verwandlung einer Datei mit Fließtext (pro Zeile ein Satz!) in Tabellenformat
tg2csv - Verwandlung einer Praat-TextGrid-Datei in Tabellenformat
aussagenlogik - Skript zur Veranschaulichung der Aussagenlogik

3. Beispieldateien

Wenkersatzaufnahme
- Tonaufnahme der sog. Wenkersätze (Version der germanistischen Fakultät der Universität Bukarest, die als Grundlage für Spracherhebungen in Siebenbürgen in den 1960er und 1970er Jahren diente; Aufnahme vom 1.10.2009, Sprecher: Stephan Lücke)
wenkersaetze - (Praat-)TextGrid-Datei mit Transkription der Wenkersatzaufnahme
merkel_bildung - Rede von Angela Merkel, gehalten anlässlich des 450. Todestages Philipp Melanchthons in der Schlosskirche in Wittenberg (19.4.2010)

4. Reguläre Ausdrücke

4.1. Beschreibung von Wiederholungen (VIM-Syntax)

# Buchstabendoppelungen (mm, nn etc.)
\([a-zA-Z]\)\1

# Wortwiederholungen (die die) [Achtung: Leerzeichen am Beginn!] 
 \([^ ]\+\)\_s\+\1

# Wiederholung von Wortgruppen
\(.\+\)\_s\+\1

4.2. XML-Tags (VIM-Syntax; zeilenübergreifend)

# Tags (<tag>)
<\_.\{-}>             # \_. = "any character including a newline" (vim)

5. SQL

5.1. Erzeugung einer Konkordanz

Voraussetzung: Vorhandensein einer Tabelle oder eines Views namens `tokens` mit den feldern `id`,`autor`,`zeile`,`token`

select 
 c.id,
 c.autor,
 c.zeile, 
 c.vorher,
 c.token,
 group_concat(d.token order by d.id separator ' ') nachher,
 concat_ws(' ', c.vorher, '>>', c.token, '<<', group_concat(d.token order by d.id separator ' ')) fliesstext
 from (
  select 
   group_concat(a.token order by a.id separator ' ') as vorher, 
   b.id, 
   b.autor,
   b.zeile, 
   b.token 
   from tokens a right join (
    select 
    id, 
    autor,
    zeile, 
    token 
    from tokens 
    where token like '%' -- HIER SUCHWORT EINTRAGEN
    collate utf8mb4_general_ci
    -- and position = 1 -- HIER WEITERE SUCHKRITERIEN ANFUEGEN
  ) b on (a.zeile=b.zeile and a.id<b.id) 
  group by b.id, a.zeile
) c
left join
tokens d on (c.zeile=d.zeile and d.id>c.id) 
group by c.id, d.zeile
order by c.token

5.2. Erzeugung von Token- und/oder POS-Tripeln

Voraussetzung: Vorhandensein einer Tabelle oder eines Views namens `tokens` mit den feldern `id`,`zeile`,`token`,`stts` (= POS-Etikettierung mit dem Stuttgart-Tübinger-Tagset)

select
 count(*) as anzahl, a.stts, b.stts, c.stts, 
 group_concat('Z.',a.zeile, ': ', a.token,' ',b.token,' ',c.token order by a.zeile) as Belege
from tokens a 
 left join tokens b on (a.id=b.id-1 and a.zeile=b.zeile) 
 left join tokens c on (b.id=c.id-1 and b.zeile=c.zeile)
where a.stts is not null and b.stts is not null and c.stts is not null
group by a.stts, b.stts, c.stts
order by anzahl desc

6. Dies und Das

Überprüfung der Struktur einer csv-Datei (Haben alle Zeilen eine identische Anzahl von Feldern? Als Separator dient der Tab-Stop [\t]. Das Kommando ist in einer Unix-Shell auszuführen. Das Kommando gibt die Anzahl der Felder pro Zeile aus. Sollte mehr als nur eine Zahl ausgegeben werden, ist die Struktur der csv-Datei fehlerhaft):

gawk 'BEGIN {FS="\t";} {print NF;}' [Pfad und Name der csv-Datei]  | /bin/sort -u

7. Nützliche Links

http://www.fileformat.info/ - Umfassende Webseite mit verschiedensten Informationen zu Fragen der Zeichenkodierung

Korpus im Text

Konfigurationsdateien und Beispiele