Information Retrieval

Suchmaschinen, Web, Text-Mining

Ort und Zeit

  • Vorlesung Do. 12:15-13:45, 3.31, VSP I
  • Übung, Mi. 10:15-11:45, 1.03, VSP I

Inhalt

Viele digital gespeicherte Informationen sind Textdokumente. In der Veranstaltung Information Retrieval (IR) werden im ersten Teil Grundlagen zur Suche in großen Dokumentsammlungen gelegt. Im zweiten Teil werden Methoden zur Suche in Webseiten unter Berücksichtigung der Link-Struktur behandelt. Im dritten Teil werden IR Anwendungen diskutiert. Besonders relevant für Bioinformatiker ist die Auswertung der Medline Sammlung, die Abstracts aller Veröffentlichungen im Bereich Lebenswissenschaften enthält.

Gliederung

  • Grundlagen IR
    • Dokumentvorverarbeitung
    • Boolsches Modell
    • Vektorraum Modell
    • Evaluierung mittels Precision/Recall
    • Indexstrukturen: Invertierte Listen + Optimierung
    • Erweiterung: Latent Semantic Indexing
  • Suche in Webseiten
    • Nutzung der Links
    • PageRank (Google)
    • HITS
    • Finden von Duplikaten
  • Anwendungen
    • Anwenderschnittstellen & Visualisierung
    • Multimedia-Suche (Bilder, Musik, Video)
    • Bioinformatik: Medline

Lernorganisation

Die Vorlesung wird durch praktische Übungen begleitet. Die eingereichten Lösungen werden in den Übungszeiten präsentiert und diskutiert. Die Übungen enthalten Theorie- und kleine Programmieraufgaben, die mit industriell genutzter Open-Source-Software (Apache-Lucene, UIMA, …) umgesetzt werden sollen. Die Übungsaufgaben sowie die Projektarbeit können in Gruppen angefertigt werden.

 
de/course/2011/ir/ir.txt · Zuletzt geändert: 2011/03/29 10:36 von hinnebur     Nach oben