Der Datensatz der Onlinedemo

Die im Datensatz der Onlinedemo enthaltenen Dokumente wurden aus öffentlich verfügbaren Quellen gecrawlt. Die Dokumente sind inhaltlich gemischt, so dass zu jedem Thema Dokumente vorhanden sein sollten. Kritische Inhalte wurden vorab bestmöglich gefiltert.

Dateitypen

Da es am einfachsten ist, an PDF Dokumente heranzukommen, machen Sie den größten Teil des Datensatzes aus. Über die Filterfunktionen kann der Datensatz jedoch auch auf bestimmte Dateitypen reduziert werden.

Um ein Gefühl dafür zu bekommen, wie viele Dateitypen in der Demo liegen, anbei eine kleine Auflistung:

DateitypMenge
PDF>40.000 Dateien
Eingescannte PDF's~100 Dateien
PowerPoint~150 Dateien
Word>11.500 Dateien
Excel>1.000 Dateien
E-Mail>2.000 Dateien
Bilder>100.000 Dateien
3D Modelle>30.000 Dateien
Tickets>6.000 Dateien

Der Datensatz besteht sowohl aus Deutschen als auch aus Englischen Dokumenten.

Datenquellen

In der Demo haben wir uns auf eine Auswahl unserer Konnektoren beschränkt. Dazu zählen u. A.:

  • Netzwerklaufwerke
  • SharePoint
  • OneDrive
  • Teams
  • Outlook
  • OneNote
  • Jira
  • Confluence
  • D.velop
  • Gitlab

Im realen Einsatz können wir jedoch deutlich mehr Systeme unterstützen.

Eine Übersicht möglicher Queries findest du hier.