User Tools

Site Tools


softwareprojekt08:student:sp1

Table of Contents

News Analysis

Betreuer:

Ralf Krestel (krestel@L3S.de)

Gruppenmitglieder:
  • Thomas Thiel, QA-Manager (Bereich Dokumentation), Seminar: MySQL
  • Rami Hussein, QA-Manager ( Tests ) , Seminar: Java == log4j+ javadoc
  • Björn Krüger, QA-Manager (Code), Seminar:Eclipse
  • Alex Wall, System-Architect, Seminar: Indizierung Lucene
  • Rasmus Buchmann, Projektleiter, Seminar: Webcrawling
  • Wei Chen, Webapplication(Django,Python-Templates) , Seminar: Short tutorial of MySql
Überblick:
  • Nachrichtenartikel crawlen
  • Metadaten und Artikel speichern
  • Volltext extrahieren
  • Artikel indizieren
  • Artikel analysieren
  • Graphische Präsentation via Webpage
News
Python
Web Development
Django

Meeting Minutes

16.10.08
  • Kennenlernen der Gruppenmitglieder
  • Aufteilen der Verantwortwortung (Teamleader, QA-Manager,…)
  • Aufteilen in Seminargruppen
  • Nächste Schritte:
    • Eintrag in Wiki (Gruppe, Rolle, Seminar)
    • Anmelden am Development Server: GForge
    • Anmelden am Server für die News Analysis Gruppe
  • Diskussion über zu verwendende Programiersprache
24.10.08
  • Zeitplan
  • Anforderungsanalyse
27.10.08
28.10.08
30.10.08

Pflichtteil:

  • Seite crawlen
  • Volltext speichern
  • in die Datenbank speichern mit Datum, Überschrift, Herkunft → Metadaten
  • mit Lucene ID und Index speichern → allgemeine Indizierung
  • normale Suche in Webinterface durch Lucene-Index
  • Analyse zu den gepeicherten Google-Daten (z.B. Artikelanzahl, ..)
  • Visualisierung der Analyse (z.B. von Personen)

Optionale Implementierungen:

  • Ähnlichkeit der auftauchenden Worte
  • name-entity-recognition
  • “Tagespopularität” (Kuchen/Tortendiagramm)
31.10.08
06.11.08
11.11.08
13.11.08
20.11.08
27.11.08
softwareprojekt08/student/sp1.txt · Last modified: 2009/01/02 11:08 (external edit)