ERP Text Miner: ett agentsystem för automatisk textklassificering

Plenk, Erik

Abstract

Mängden information lagrad on-line är enorm och fortsätter att växa i en nästan exponentiell hastighet. Webbsidor är bara ett exempel på dokument som behöver hittas, hämtas, bläddras och läsas: användare förväntar sig att andra typer av dokument – som elektronisk mail, dokumentation, och nyheter – också ska vara lagrad och tillgänglig on-line. Men det blir alltmer svårare att finna det man söker. Sökmaskiner är många gånger otillräckliga, antigen får man tiotusen träffar eller ingen allas. Det behövs bättre verktyg för att lösa problemet. Automatisk textklassificering är uppgiften att utveckla datorprogram som kan organisera dokument i kategorier. Med en välordnad semantisk struktur kan man ”borra” sig ned till den information man efterfrågar. Konceptet agent är ett annat viktigt område. Teknologin har börjat uppfattas som helt avgörande, inte endast för att hantera den ökande informationen, utan också som utvecklingsmodell där man kan utnyttja den effektivitet som kännetecknar organiserat beteende. Detta arbete utforskar teknologierna automatisk textklassificering och agenter. De olika stegen i klassificeringsprocessen beskrivs. Resultat presenteras från utförda experiment med maskininlärningsmetoden k-Nearest Neighbor och kollektionen Reuters-21578. Ett agentsystem för automatisk textklassificering utvecklas. Användningen av systemet beskrivs. Arbetet ger en vägledningsmodell för utvecklare som önskar kombinera teknologierna automatiskt textklassificering och agenter.

Degree

Student essay

University

Göteborg University. School of Business, Economics and Law

Date

2003

Author

Plenk, Erik

Keywords

Agent

automatisk textklassificering

maskininlärning

systemutveckling

information overload

Language

Metadata

Show full item record