Het Ontdekkracht blog

Je bent hier: Home → Archives → Tag → Scannen
apr 5, 2015

Data analyse maar dan anders

 

Iemand het artikeltje in het FD van zaterdag 4 april 2015 gelezen over OAD? Met name de slot alinea trok mijn aandacht. Zeker na het lezen van deze blog van onze vrienden bij Coney

Door de curatoren zijn 1.600 ordners ingescanned. 1.600! Reken even mee. In een ordner gaan gemiddeld 350 A4 bladen. Op een pagina staan gemiddeld 350 woorden. Omdat het een faillissement betreft zullen er genoeg facturen etc. tussen zitten. Vooruit nemen we 275 woorden. Dan gaat het dus om 154.000.000 woorden!

Het is te hopen dat de curatoren de beschikking hebben over een intelligent Document Management Systeem (DMS). Waarom? Ik kijk dan even naar het door ons bij Ontdekkracht gebruikte DMS, hier wordt elk gescanned woord in een index opgeslagen. En dat kunnen wij zo naar een grote XML file dumpen en aan de slag!

Als die curatoren dat laatste nu ook kunnen dan is er toch een prachtige combi met Coney te maken? Een fraude zoekwoordonderzoek op 1.2 Terrabyte aan data, in PDF weliswaar hopen we maar. Het is flinke klus maar zeker niet onmogelijk en in XML gelukkig wat minder groot bestandsformaat.

Het is data analyse waar je niet direct aan denkt maar zeker mogelijk is. Want wat je met getallen kan, kan ook je met woorden. Het is maar de wijze van je algoritme goed bouwen. Iets met een IF Contains statement enzo. 

Bij Coney noemen ze het Textmining. Een hele nieuwe wereld om te ontdekken. 

aug 10, 2013

Scanner in verwarring?

Afgelopen donderdag 8 augustus verscheen er op de Volkskrant.nl een artikel over ‘verwarde’ Xerox scanners die een software fout kunnen bevatten waardoor cijfers verkeerd worden verwerkt. Het cijfer 6 bijvoorbeeld zou tijdens het scannen worden veranderd in het cijfers 8. Xerox heeft op haar site al een patch voor het probleem bij de specifieke scanners aangekondigd. Dit is nu een op zichzelf staand incident maar zou het in de praktijk niet vaker of anders kunnen voorkomen? Lees meer →

mrt 20, 2013

Ontdek de toekomst van slimme scansoftware voor het MKB

In 2011 zijn wij gaan oriënteren op de toepassing van intelligente scansoftware binnen ons kantoor om in- en verkoopfacturen automatisch te verwerken in de financiële administratie. Een rondje langs de diverse aanbieders leerde dat er of met pagina scheidingen gewerkt dient te worden, barcode stickers dienen te worden geplakt om de paginascheiding aan te geven. Deze barcode stickers bevatten ook informatie zoals datum, naam administratie of administratiecode. Het systeem leidt hieruit af in welke administratie het systeem de facturen moeten worden verwerkt. Een bijkomend probleem van deze bestaande systemen is de onmogelijkheid om enkelvoudige of meervoudige factuurpagina’s door elkaar te verwerken. De paginascheiding of sortering van de stapel facturen per klant en per hoeveelheid pagina’s per factuur is noodzakelijk. Lees meer →