Informationsintegration
Informationsintegration forstås som sammenlægning af information fra forskellige databaser (datakilder), normalt med forskellige datastrukturer, til en fælles, ensartet datastruktur.
Frem for alt bør heterogene kilder samles så fuldstændigt og effektivt som muligt til en struktureret enhed, der kan bruges mere effektivt, end det ville være muligt med direkte adgang til de enkelte kilder. Informationsintegration er særlig nødvendig, når flere systemer, der er vokset over tid, skal forbindes med hinanden, f.eks. Ved sammenlægning af virksomheder, arbejdsprocesser og applikationer eller ved søgning efter oplysninger på Internettet .
Integrationen af mere komplekse systemer flyttede først i datalogisk forskning i fokus i 1990'erne og er dermed i færd med at udvikle sig.
historie
Den hurtige udvikling inden for databaseteknologi siden 1960'erne skabte behovet for at dele og kombinere eksisterende data. Denne kombination kan finde sted på en række niveauer i databasestrukturen. En populær løsning er baseret på princippet om datalageret , som udtrækker dataene fra heterogene kilder, omdanner dem og indlæser dem i et standardiseret system.
Siden 2009 har tendensen med informationsintegration været i retning af standardiserede forespørgselsgrænseflader for at forespørge dataene i realtid. Dette gør det muligt at forespørge dataene direkte fra de heterogene kilder, hvilket giver en fordel med hensyn til dataens aktualitet, men kræver øgede adgangstider. Siden 2010 har noget forskningsarbejde på dette område beskæftiget sig med problemet med semantisk integration . Dette angår mindre strukturen i arkitekturen i forskellige databaser end løsningen af semantiske konflikter mellem heterogene datakilder. For eksempel, hvis to virksomheder ønsker at forene deres databaser, kan visse begreber og definitioner, f.eks. "Indtægt", have forskellige betydninger. Tilgange i denne retning omfatter brug af ontologi og benchmarking . [1]
De modeller for databehandling, der har eksisteret siden 2011, fører til dataisolering i form af dataøer med spredte data. Disse øer er en uønsket artefakt på grund af datamodelleringsmetoden, som fører til forskellige datasæt. [2] For at modvirke dette problem blev der udviklet metoder til at undgå artefakter fra dataisolering og integrere dem i datastrukturen. [3] [4]
Metoder
Integrationen af heterogen information fra forskellige kilder påvirker både integrationen af konkrete data og de strukturer ( skemaer ), hvori de er tilgængelige. Først og fremmest skal de lokale skemaer normalt integreres ( skemaintegration ), som der også kan bruges (delvist) automatiske procedurer til (skemamatch). Til den efterfølgende integration af data er metoder til datafusion og duplikatdetektering nødvendige.
Eksempler på tilgængelige teknologier til integrering af oplysninger omfatter lighedsanalyser , som tillader indfangning af lignende tekst i forskellige kilder via fuzzy string -søgning . [5]
Muligheder og mål
Informationsintegration bliver vigtig i en række forskellige situationer, både kommercielle og videnskabelige. [6] Eksempler på den praktiske anvendelse af informationsintegration kan findes i integrationen af produktinformation fra producentoplysninger og indhentning af disse oplysninger fra produktsøgemaskiner eller i evalueringen af forskellige geologiske datasæt til bestemmelse af grænseoverskridende overfladeegenskaber. [7]
I tilfælde af redundans mellem dataene fra forskellige kilder ( extensional redundancy ) kan associationer undertiden automatisk bestemmes og bruges til at fuldføre datasæt ( datafusion ). For eksempel kan posterne i en telefonliste og en medarbejderbog kombineres, hvis personlige navne matcher. Da mere information om individuelle objekter er tilgængelig, kaldes det også komprimering .
Formålet med integrationen er at muliggøre et konsistent globalt syn på alle datakilder. Redundante datakilder kan bruges til verifikation. Kombinationen af intensiv redundante kilder fører til en højere dækning (dækning) og færdiggørelse af registreringer i ekstensionel redundans af kilder til en højere densitet (Density).
Materialiseret kontra virtuel integration
Grundlæggende kan to typer integration skelnes:
- Materialiseret eller fysisk integration : data fra forskellige datakilder - normalt med forskellige datastrukturer - transformeres til målstrukturen og kopieres til en central database, hvor de derefter er tilgængelige til evalueringer. Dette princip kan f.eks. Findes i datalagre eller i dataudvekslingsprojektet i Open Archives Initiative .
- Virtuel eller logisk integration : Dataene forbliver i de forskellige kilder, og integrationen finder kun sted, når der fremsættes en anmodning ( fødereret informationssystem ).
Til sammenligning resulterer følgende fordele og ulemper
- Opdatering : I tilfælde af materialiseret integration skyldes datoenes opdatering fra tidsintervallet mellem dataopdateringerne fra kilderne; et praktisk talt integreret system er derimod altid opdateret, da dataene er integreret på tidspunktet for anmodningen.
- Svartid : Da alle data opbevares centralt i et materialiseret system, kan de gemmes optimeret til hurtige svartider. I tilfælde af virtuel integration afhænger svartiden meget af tilgængeligheden af datahåndteringssystemet og adgangshastigheden til kildedataene, transmissionsstierne og de yderligere opgaver såsom datatransformation (kortlægning) og datarensning .
- Fleksibilitet : Som store datalagre er materialiserede systemer normalt vanskeligere at vedligeholde end praktisk talt integrerede systemer, hvor vedligeholdelsen af dataene er kildernes ansvar. Derudover kan tilføjelse af en kilde påvirke hele integrationen ( global-as-view ), mens tilføjelse, fjernelse eller ændring af en kilde med virtuel integration kun påvirker dens kortlægning til et globalt skema ( local-as-view ).
- Datakildernes autonomi : Med materialiseret såvel som virtuel dataintegration er der ingen direkte indflydelse på datakilderne, for eksempel forbliver deres struktur uændret. På grund af den nødvendige adgang kan de krav, der stilles til dem, såsom tilgængelighed og ydeevne, dog ændre sig; virtuel dataintegration ser ud til at have en stærkere indflydelse her, da med fysisk integration f.eks. Kan adgangen for eksempel finde sted specifikt til tider med generelt svagere arbejdsbyrde.
- Hardwarekrav : Materialiseret integration kræver normalt indkøb af dedikeret hardware.
- Datakvalitet : I tilfælde af materialiseret integration er der generelt mere tid til rådighed til at transformere dataene, hvilket betyder, at mere komplekse analyser er mulige sammenlignet med virtuel dataintegration - den datakvalitet, der kan opnås, er derfor højere.
Integrationsarkitekturer
Materialiserede integrationsarkitekturer
I tilfælde af materialiserede systemer importeres data fra kilderne, ryddes op og lagres centralt. De tilgængelige data i kildesystemerne ændres normalt ikke.
- Datalagre (DWH) : er de vigtigste repræsentanter for materialiserede databasesystemer. De data, der er nødvendige for en virksomheds informationsbehov, gemmes vedvarende direkte i et centralt datalager for at muliggøre et globalt, ensartet overblik over de relevante data. For at integrere kildedataene i DWH's grundlæggende database skal et integrationslag implementeres til dette formål ( ETL -proces ).
- Operative Data Stores (ODS) : Mens datalagersystemer primært er tilpasset kravene i virksomhedsledelse, og den tilgængelige information bruges til strategiske beslutningsprocesser, gør "Operational Data Stores" de integrerede data tilgængelige for operationelle forretningsprocesser. Dette indebærer allerede, at de data, der er gemt i et centralt datalager, skal bruges "operationelt", dvs. efter at integrationen (import, rensning, lagring) er afsluttet, kan disse data ændres. Derfor er fokus for behandlingen af ODS -systemer ikke historiske, men primært aktuelle data. I denne henseende er der et andet væsentligt kendetegn fra DWH, da synkroniseringen med kildedataene skal finde sted enten ved forespørgsler eller i det mindste med hyppige, regelmæssige intervaller. ODS bruges mest af virksomheder inden for de forretningsområder, hvor dataens aktualitet spiller en væsentlig rolle, som f.eks B. i kunde- og leverandørkommunikationsområder og i lagerstyringsprocesser. Med tendensen mod datalagre i realtid og mere kraftfulde databasesystemer vil den operationelle datalagring sandsynligvis fusionere med datalageret.
Virtuelle integrationsarkitekturer
I modsætning til materialiserede systemer lagres data i virtuelle databasesystemer ikke i selve det integrerede system, men forbliver fysisk i datakilderne og indlæses kun i integrationssystemet, når der foretages en forespørgsel (virtuel datalagring).
- Forbundne databasesystemer (FDBS) : I midten af et fødereret databasesystem er et "globalt konceptuelt" (= kanonisk) skema. På den ene side repræsenterer dette skema grænsefladen til de lokale, distribuerede databaser og deres lokale skemaer og tilbyder på den anden side anmodende applikationer om en integreret global visning af de forbundne kildedata ved hjælp af passende tjenester. FDBS er for det meste skabt ved at kombinere flere databasesystemer (multi-databasesystemer) med henblik på en "central" (fødereret) koordinering af fælles opgaver.
- Mediatorbaseret informationssystem og indpakning (MBS) : Mæglere fungerer som "mellemled" mellem datakilder og applikationer. Mægleren modtager forespørgsler fra applikationen og besvarer dem ved at kommunikere med de relevante datakilder. Dette indebærer allerede en stor viden om strukturen af alle fødererede datakilder med hensyn til skemaer og mulige inkonsekvenser for de tilsluttede enheder. I modsætning til fødererede databasesystemer tilbyder mæglerbaserede informationssystemer kun læseadgang til de integrerede systemer. Mediatorbaserede systemer i forbindelse med indpakninger repræsenterer allerede en specifik softwareversion af middleware.I princippet kan mediatorer også bruges som en del af et materialiseret informationssystem, for eksempel som en mellemmand mellem integrationslaget (eller det centrale datalager) i for at overvinde heterogeniteten i de tilsluttede kildesystemer. Da den væsentlige egenskab ved materialiserede systemer, et centralt datalager, mangler i mediatorbaserede systemer, tildeles de imidlertid de virtuelle informationsarkitekturer.
- Peer -datahåndteringssystemer (PDMS) : Det sidste integrationssystem, der er relevant i praksis, er peer -datahåndteringssystemer. Den interne struktur af en peer -komponent er defineret som følger:
- Peers kan administrere et eller flere "egne" datalagre.
- Der er skemakortlægninger mellem de egne datastrukturer og strukturer for andre peers til rådighed, hvorigennem dataelementer kan relateres til hinanden.
- Hver peer giver et eksportskema eller -funktioner til kommunikation med tilsluttede komponenter. Peers fungerer som uafhængige, autonome komponenter, der forsøger at besvare forespørgsler både med deres egne databaser og med data eller forespørgselsresultater fra andre forbundne jævnaldrende.
relaterede emner
Informationsintegrationen viser blandt andet overlapninger og relationer til følgende fagområder:
Se også
- Databaseskema , SchemaSQL
- Data slægt
- Datarum
- Datalager , fødereret databasesystem , portal (IT) , distribueret database
- ETL -proces
- Mashup (internet)
- Master data management
- Semantisk web og sammenkædede åbne data : Internettet som en distribueret database
litteratur
- Ulf Leser, Felix Naumann, Information Integration . dpunkt, 2007, ISBN 978-3-89864-400-6 .
- Stefan Conrad: Forbundne databasesystemer. Dataintegrationskoncepter. Springer, 1997, ISBN 3-540-63176-3 .
- M. Tamer Özsu, Patrick Valduriez: Principper for distribuerede databasesystemer . Prentice Hall, 1999, ISBN 0-13-659707-6 .
Individuelle beviser
- ↑ Shubhra S. Ray et al: Kombination af multikildeinformation gennem funktionel annotationsbaseret vægtning: Genfunktionsforudsigelse i gær . I: IEEE -transaktioner om biomedicinsk teknik . tape 56 , nej. 2 , 2009, s. 229-236 , doi : 10.1109 / TBME.2008.2005955 .
- ↑ Duane Nickull: modelleringsmetode til harmonisering af forskellige datamodeller. 2003.
- ↑ Michael Mireku Kwakye: en praktisk tilgang til Fletning Multidimensional Data Models. 2011.
- ↑ Rapid Architectural Consolidation Engine - Virksomhedens løsning til forskellige datamodeller. iri (da), 2011.
- ^ Dave L. Hall, James Llinas: Introduktion til Multisensor Data Fusion. I: Proc. af IEEE. Bind 85, nr. 1, jan 1997, s. 6-23.
- ↑ Scott Weidman, Thomas Arrison: Skridt i retning af dataintegration i stor skala i videnskaberne: Resumé af et værksted. National Research Council 2010, ISBN 978-0-309-15443-7 .
- ↑ Bertram Ludäscher blandt andre:Håndtering af videnskabelige data: Fra dataintegration til videnskabelige arbejdsgange. (pdf) sds.edu (da)