Politie 2.0

De mogelijkheden van de digitale revolutie voor de Nederlandse Politie

Informatie

Ongestructureerde informatie

Hoe kan ongestructureerde informatie het best opgeslagen en bevraagd worden? En kan dit in combinatie met gestructureerde informatie? Hoe kun je zoeken in ongestructureerde informatie?

Leden: 37
Meest recente activiteit: 12 Jun 2012

Discussieforum

Van ongestructureerde data naar gestructureerde data 4 antwoorden 

De belangrijkste Web trend voor 2009 is Structured Data. In 2009 zijn we in het Web van Data, meer dan het web van documenten. Om dit Web van Data te helpen bouwen zijn twee initiatieven belangrijk:…Doorgaan

Tags: linked_data, ongestructureerde_data

Begonnen door Marga van Rijssel. Laatste reactie van Stefan Lankester 6 Mei 2012.

Enterprise Content Management iets voor de politie? 2 antwoorden 

Enterprise Content Management (ECM) betreft het beheer van ongestructureerde informatie binnen een onderneming.Volgens dit…Doorgaan

Tags: BI, ECM, EIM

Begonnen door Marga van Rijssel. Laatste reactie van Willem Pottuit 15 Mrt 2009.

Prikbord

Opmerking

Je moet lid zijn van Ongestructureerde informatie om reacties te kunnen toevoegen!

Reactie van Stefan Lankester op 1 Mei 2012 op 18.39

Building the Unstructured Data Warehouse: Architecture, Analysis, and Design - Print ISBN-13: 978-1-935504-04-7

 

Tapping into Unstructured Data - ISBN: 0-13-236029-2

Integrating Unstructured Data and Textual Analytics into Business Intelligence

 

Crime Pattern Analysis - Megaputer

Megaputer Case Study in Text Mining

 

DETECTING DOMESTIC VIOLENCE - Police Amsterdam-Amstelland

Showcasing a knowledge browser based on Formal Concept Analysis and Emergent Self Organizing Maps.

 

Gaining insight in police databases - Katholieke Universiteit Leuven

 

Twitcident detects, filters en analyses- Case study TNO

 

A Semi-Supervised Active Learning Algorithm for Information

Extraction from Textual Data (PDF)

 

Mining Unstructured Data - Ronen Feldman

 

Information Management in Policing - Accenture

Improving efficiency and performance by unlocking the value of information

 

Attensity - Listen, Analyze, Relate, Act

 

Reactie van Stefan Lankester op 1 Mei 2012 op 18.07

The needs of the Dutch police for information enrichment, analysis and dissemination (PDF)

Marc de Lignie, 30 september 2009

 

Reactie van Stefan Lankester op 29 April 2012 op 17.14

From Unstructured Data to Actionable Intelligence

Knowledge Management - There's content everywhere, but not the information you need. Content analysis can organize a pile of text into a richly accesible repository.

From Unstructured Data to Actionable Intelligence

Reactie van Stefan Lankester op 29 April 2012 op 13.50

Steganography het verbergen van informatie in onschuldig ogende objecten als onderdeel van cryptografie.

References:

http://en.wikipedia.org/wiki/Steganography

http://computertotaal.nl/cursussen/7204-steganografie-bestanden-ver...

 

Computer Crimes and Steganography
http://wvcriminaldefenseattorney.wordpress.com/2009/01/27/computer-...

 

Evidence of steganography in real criminal cases

http://it.slashdot.org/story/07/10/20/0616220/evidence-of-steganogr...

 

On The Limits of Steganography (PDF) - RJ Anderson

http://www.cyberforensics.purdue.edu/researchtopics_goldman.aspx

 

 

Reactie van Stefan Lankester op 29 April 2012 op 1.07
Fast Fourier Transform

Ongestructureerde Data alleen leesbare data en geluid plus images dan?

Example for how to detect your London colleagues:
http://www-personal.umich.edu/~azarias/paper/fft-present.pdf
Reactie van Stefan Lankester op 28 April 2012 op 18.49

Great bold werkt zo te zien dus ook goed :)

 

Referenties Aho-Corasick:

Referenties:

http://en.wikipedia.org/wiki/String_searching_algorithm

 

Beschrijving algorithme

http://www.cs.sun.ac.za/~lvzijl/courses/rw778/autappl/crous-hw2.pdf

 

Aho-Corasick – implementatie en animatie

http://blog.ivank.net/aho-corasick-algorithm-in-as3.html

 

Sample code Aho-Corasick string matching in C#

http://www.codeproject.com/Articles/12383/Aho-Corasick-string-match...

 

A High Throughput String Matching Architecture for Intrusion Detection and Prevention: http://www.cs.ucsb.edu/~sherwood/pubs/ISCA-string.pdf

 

Text-Algorithms - Maxime Crochemore & Wojciech Rytter

http://www-igm.univ-mlv.fr/~mac/REC/text-algorithms.pdf

 

Handbook of Theoretical Computer Science and Complexity - Jan van Leeuwen

Reactie van Stefan Lankester op 28 April 2012 op 18.46

Web monitoring met "Keyword and Patterns string matching algorithms"

Initiële opzet voor custom ICT solutions:

  • HTTP conditional GET
    Can be used to detect when a web resource has been updated. Most of the times used for RSS newsfeeds.
  • When a resource is get from the web server, the server sets the HTTP Last-Modified header as indication when the resource was last modified.
  • Maintain this value in a database.
  • Checking new version of resource > Set the HTTP If-Modified-Since header with Last-Modified date value stored in the database.
  • If resource hasn't been modified > Web Server response with status code 304. HTTP_NOT_MODIFIED.

Not all Web Servers response to If_Modified_Since correctly. As alternative the size of the resource can be used as indication for change.

By this traffic on site can be monitored for specific places or resources on the site.

By using string matching algorithms  web page content can be matched with a list of Keywords or checked for recognizable string patterns.

Aho-Corasick is zover ik in meerder toepassingen gebruikt heb tot snelst en populair behorende algorithmes voor keyword/pattern matching. Performance is linear met de lengte van de content hangt in deze dus niet af van het op de content te matchen aantal keywords.Matching vindt plaats door in 1 run de characters (1 tm length string) van de string te matchen met een Keyword tree.

 

Voorbeeld algorithme gebruikt op SharePoint site www.rechtspraak.nl:

voor custom online begrip definities oplossing:

  • SharePoint list gevuld met afkoringen en moeilijke woorden als de "keywords". Onhoudbaar door content editors.
  • HttpModule
    Leest de keywords vanuit de SP list in.
    creëert de de search tree (Failure, Transition)
    Triggered voor elke page request (In ons geval hoeft de pagina niet geraadpleegd te worden via HTTP Get request. > Request wordt normaal door SharePoint zelf volledig afgehandeld. Voor de custom solution in dit geval ook door de HttpModule
  • Voor ieder page request wordt in de HttpModule de Aho-Corasick algorithme aangeroepen.
  • Keyword tree wordt gecashed zodat het niet tijdens ieder page request volledig opnieuw opgebouwd moet worden.
  • Performance getest met 400 keywords op string van 10.000 characters response tijd 3 milli seconde. 

 

 

 

Reactie van Marc de Lignie op 6 Juli 2009 op 13.56
Met de opkomst van het semantisch web krijgt de techniek "information extraction" steeds meer aandacht. Met deze techniek kunnen uit een tekst de belangrijkste entiteiten als personen, organisaties, telefoonnummers automatisch worden herkend. Ook de relaties tussen deze entiteiten kunnen deels automatisch worden herkend. In het engelse taalgebied kun je dit online uitproberen op http://viewer.opencalais.com/. Op basis van deze extracties kan op het internet gerichter naar documenten of zelfs delen hieruit worden gezocht.

Ook in het politieveld heeft information extraction interessante toepassingen:
- geavanceerde zoekmachines laten zien welke entiteiten voorkomen in resultaten van een bepaalde zoekvraag. Dit is een handig hulpmiddel bij het selecteren van relevante zoekresultaten.
- bij de analyse van in beslag genomen digitale archieven is information extraction een stap in het text mining proces waarin digitale rechercheurs zoeken naar interessante patronen in het materiaal.
- veel politiegegevens worden "dubbel" ingevoerd. Enerzijds zijn er de officiële procesverbalen in de vorm van tekstdocumenten. Daarnaast worden de betrokken entiteiten en hun onderlinge relaties in aparte schermen ingevoerd om het terugzoeken en analyseren van mutaties mogelijk te maken. Information extraction biedt de mogelijkheid deze tweede stap te stroomlijnen en deels zelfs te automatiseren.

In de politiekorpsen wordt voor bovenstaande toepassingen al met tools gewerkt die gebruik maken van information extraction. De bruikbaarheid van deze tools hangt daarmee af van de precisie waarmee information extraction werkt. En daar zijn nog flinke verbeterslagen mogelijk. Information extraction tools zijn namelijk afhankelijk van het taalgebied, zowel vanwege de structuur van de taal als vanwege de specifieke notatiewijze van entiteiten. Daarnaast kan kennis worden toegevoegd in de vorm van lijsten en uitzonderingen op gedefiniëerde regels. Ook kan de precisie worden vergroot door regels die gelden binnen een specifiek toepassingsdomein of met machine learning technieken.

Dit roept de vraag op of geen winst kan worden behaald door ervaringen van gebruikers met information extraction uit te wisselen. Een veel gebruikte methode om deze vraag te beantwoorden is het samenstellen van een testset aan documenten en deze door een groep van deelnemers te laten verwerken. Zo ontstaat inzicht in de sterkten en zwakten van (implementaties van) individuele tools. Als de resultaten van een dergelijke vergelijking hier aanleiding toe geven, kun je je voor de langere termijn één geoptimaliseerde service voorstellen die voor een specifiek domein (bijvoorbeeld de opsporingsdiensten) onder water door de verschillende tools wordt aangeroepen.

Het R&I team van de vtsPN en het KECIDA team van het NFI hebben het plan bij ons bekende gebruikers hiervoor uit te nodigen. Aanvullende ideeën en reacties zijn uiteraard welkom.

Meer informatie over information extraction is te vinden op http://en.wikipedia.org/wiki/Information_extraction.
Reactie van Willem Pottuit op 30 April 2009 op 21.54
Hallo collega's

Een leuke link voor het gebruik van ongestructureerde informatie of de noodzaak voor het delen van Raw Data

http://www.ted.com/talks/view/id/507
Reactie van Willem Pottuit op 7 April 2009 op 21.09
Hallo Mark en andere ongestructureerde informatiezoekers+

Ik ben blij dat er inmiddels zoveel mensen op een andere manier naar informatie zoeken en niet vast blijven zitten in onze huidige naar mijn mening verouderde gestructureerde informatiesystemen. Wij steken heel veel energie in het bouwen en afschermen van deze systemen terwijl elke rechtelijke uitspraak openbaar is. Iedereen mag dit tijdens de rechtzitting openlijk opnemen of opschrijven en heeft daarmee privacygevoelige informatie tot zijn beschikking. De meeste politieinformatie staat zonder naam van de verdachte in de krant. Het is een kwestie van tijd voordat zoekmachine´s de ongestructureerde informatie van nu nog onbekende personen kunnen bundelen. In een aantal gevallen zoals een aantal zedendelinquenten blijkt het al te lukken.
Volgens mij wordt het veel meer tijd om te accepteren dat de bundeling van ongetructureerde informatie een veel grotere bijdrage aan de opsporing kan leveren dan gestructureerde informatie uit de huidige politiesystemen. Ongecontroleerd gebruik door kwaadwillenden of overheidsorganisaties denk b.v. aan bezoek van ongewenste tippelzone´s kan een veel grotere inbreuk op de privacy zijn dan het openbaar worden van welk strafblad dan ook.

Het wordt naar mijn mening tijd dat er een artikel komt waarin de degene door wiens nalatigheid, schuld of opzet zodanig privacygevoelige informatie op straat komt dat betrokkenen daardoor kosten moeten maken om hun veiligheid te garanderen of de onjuiste informatie te herstellen aansprakelijk wordt voor de gemaakte kosten.
 

Leden (37)

 
 
 

Wij, de overheid

ConnectedCops.net

Ambtenaar 2.0

Politie op Twitter

© 2013   Aangemaakt door Politie 2.0   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden