Datenqualität mit den SQL Server Integration Services

of 61 /61
www.datenfabrik.com www.datenfabrik.com Datenqualität mit den SQL Server Integration Services

Embed Size (px)

Transcript of Datenqualität mit den SQL Server Integration Services

  • 1. Datenqualitt mit den SQLServer Integration Services www.datenfabrik.com

2. datenfabrik GmbH & Co. KG Versandhandel und Direktmarketing Internationale Datenverarbeitung in ber 10europischen Lndern Listbroking Datenbereinigung Daten-Hosting Datenmigration Softwareentwicklung im Bereich Data Quality www.datenfabrik.com 3. Tillmann Eitelberg- Prokurist datenfabrik GmbH & Co. KG- Lehrbeauftragter an der Uni Bonn- RGV KlnBonnDsseldorf- Regional Director PASS Deutschland- Regional Mentor PASS Deutschland- Blog: www.ssis-components.net- Codeplex Projekte- ShapeFileSource- ImageSource- SMSTask- ReportGeneratorTask- GoogleAnalyticsSourcewww.datenfabrik.com 4. Agenda Was ist Datenqualitt? Ursachen schlechter Datenqualitt Auswirkungen schlechter Datenqualitt Gesetzliche Anforderungen 5 DQ Prozesse Microsoft Boardmittel Community Components Third Party Components www.datenfabrik.com 5. Was ist Datenqualitt? Ein (mehrdimensionales) Ma frdie Eignung von Daten, den an ihreErfassung/Generierung gebundenenZweck zu erfllen. Dr. Volker Wrthele www.datenfabrik.com 6. Was ist Datenqualitt?Quality is when your customer returns, not your product. www.datenfabrik.com 7. Was ist Datenqualitt? www.datenfabrik.com 8. Was ist Datenqualitt? Datenqualitt ist subjektiv Anwendungsbezogen Domnenspezifisch Mehrdimensionalwww.datenfabrik.com 9. Was ist Datenqualitt (nicht)? 49716Unterschleiheim 3,0 m x 3,0 mFrottee Stoffhase (blau)Herr Max MustermannBester Kunde 2010= www.datenfabrik.com 10. Ursachen schlechter Datenqualitt Unterschiedliche Datenformate Datenverfall (Neue) Datenverwendung Inkonsistente Datendefinitionwww.datenfabrik.com 11. Ursachen schlechter Datenqualitt Architektur Systemaktualisierungen (Prozess-) Automatisierungen Datenkonvertierungen Systemkonsolidierung Fehlende nderungsverfolgung www.datenfabrik.com 12. Ursachen schlechter Datenqualitt Bedienungs- und Benutzerfehler Manuelle Dateneingabe Verschiedene Datenverarbeitungsprozesse Mangelhaftes User Interface User Experiencewww.datenfabrik.com 13. Ursachen schlechter Datenqualitt Verlust von Fachkenntnissen Fehlendes Problembewusstsein Falsche Motivationsmethodikwww.datenfabrik.com 14. Ursachen schlechter Datenqualitt 40 35 30 25 20 15 1050 www.datenfabrik.com 15. Auswirkungen schlechter Datenqualitt Kosten!!! Direkte Kosten Nachweiskosten Wiedereingabekosten Indirekte Kosten Umsatzeinbuen Fehlentscheidungen Imageverlust Werbekosten Betrugsversuch www.datenfabrik.com 16. Auswirkungen schlechter Datenqualitt Ausschuss und Nacharbeit durch falschjustierte Maschinen Rckrufaktionen aufgrund vonProduktionsmngeln Projektmisstrauen Geldstrafen Sinkende Mitarbeitermotivation www.datenfabrik.com 17. Auswirkungen schlechter Datenqualitt Zustellung 5% = 25.000 3% = 15.000 40.000500.000 3% DublettenKunden0,45 = 18.000 0,55 = 22.000 40.000 X2 = 80.000 www.datenfabrik.com 18. Auswirkungen schlechter Datenqualitt Zustellung5% = 2.0003% = 1.2003.20040.0003% DublettenKunden0,45 = 1.440 0,55 = 1.760 3.200 X2 = 6.400 www.datenfabrik.com 19. Gesetzliche Anforderungen Gesetzliche und behrdliche Anforderungen nehmen zu Nachweispflicht setzt eine einwandfreie Datenqualitt voraus Einhaltung nationaler und internationaler Gesetze undRichtlinien (Antiterrorlisten, Robinsonliste) Bekannte Compliance-Manahmen International Financial Reporting Standards (IFRS) Sarbanes-Oxley Act (SOX) Basel II REACH International Material Data Systems (IMDS) www.datenfabrik.com 20. Geschftstreiber laut Gartner Folge eines signifikanten Schadenfalls durch schlechteDatenqualittAntwort auf Datenqualittsinitiativen bei Wettbewerbern Strkung des Vertrauens in die eigene Datenbasis Untersttzung von Business.Intelligence oder Data-Warehouse-InitiativenUntersttzung von CRM-InitiativenVerbesserung der Anwenderakzeptanz der wichtigstenApplikationssystemeUntersttzung von Compliance-Aktivitten0 10 20 30 40 5060 70www.datenfabrik.com 21. Datenqualitt steigern Bei der Dateneingabe Fachkenntnisse aufbauen Problembewusstsein strken Master Data Management Corporate Data Definition Verwendung von Referenzdaten Regelmige Prfung mit externenProgrammen Beim Beladen des Data Warehouse www.datenfabrik.com 22. Rufnummern 0228902990Rufnummer inkl. Vorwahlwww.datenfabrik.com 23. Rufnummern0228 902990 Teilnehmerrufnummer Ortsnetzkennzahlwww.datenfabrik.com 24. RufnummernVerkehrsausscheidungsziffer 0 228 902990 Teilnehmerrufnummer Ortsnetzkennzahlwww.datenfabrik.com 25. RufnummernVerkehrsausscheidungsziffer Durchwahl 0 228 90299 0Teilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com 26. Rufnummern Internationale Verkehrsausscheidungsziffer Durchwahl 00 49 228 90299 0Internationale VorwahlTeilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com 27. Rufnummern Internationale Verkehrsausscheidungsziffer Durchwahl+ 49 228 90299 0Internationale VorwahlTeilnehmerrufnummer Ortsnetzkennzahl www.datenfabrik.com 28. Rufnummern- Max. Rufnummernlnge 15 Stellen im InternationalenVerkehr- 5 verschiedene Schreibweisen in der DACH-Region- +49 30 12345-67- +49 30 1234567- +49 (30) 1234567- +49-30-1234567- +49 (0)30 12345-67- Zustndigkeit in Deutschland liegt bei derBundesnetzagentur- Ortsnetzkennzahlen werden im Nummerierungsplanfestgehalten- Private Nummerierungsplne, Sonderrufnummern, ITUwww.datenfabrik.com 29. 5 DQ ProzesseMonitoring ProfilingEnrichment Validation Cleansingwww.datenfabrik.com 30. Profiling Wie sehen meine Daten aus? MonitoringProfiling Welche Datentypen sind enthalten? Welches Format haben Enrichment Validation die Daten? Gibt es NULL-Werte?Cleansing Existieren Abhngig- keiten untereinander? www.datenfabrik.com 31. Validation Prfung von Datentypen und Formaten Syntaktische und Monitoring Profiling semantische Prfung aller relevanten Daten Enrichment Validation Prfung auf Vollstndigkeit (ggf. auchCleansing mehrdimensional) Prfung auf Dubletten www.datenfabrik.com 32. Cleansing Normierung von Daten (z.B. Telefonnummern, Strae + Hausnummer) MonitoringProfiling Bereinigung der Daten Verschmelzung von Enrichment Validation DublettenCleansing www.datenfabrik.com 33. Enrichment Ergnzen der bestehenden Daten mit zustzlichen (meist Monitoring Profiling externen) Informationen Enrichment Validation Geokoordinaten SoziodemographischeDatenCleansing Microsoft Dallaswww.datenfabrik.com 34. Monitoring Durchgehende Prfung und Messung relevanter Regeln undMonitoringProfiling Ergebnisse aus den Prozessen Profiling und Enrichment Validation ValidationCleansingwww.datenfabrik.com 35. Microsoft Boardmittel Character Map Data Converter Data Profiling Task Lookup Task Derived Column Fuzzy Grouping Fuzzy Lookup Script Componentwww.datenfabrik.com 36. Data Profiling Task Hilft Entwicklern, sich mit Datenquellenvertraut zu machen Erstellt verschiedene Profile pro Spalte Daten mssen im SQL Server vorliegen Profil wird als XML Datei gespeichert ProfileToSQL Styleheetshttp://www.tf-informatik.dk/FreeStuff/ProfileToSQL/index.phpwww.datenfabrik.com 37. DemoData Profiling www.datenfabrik.com 38. Lookup Task Fhrt Suchvorgnge in einem Verweisdataset durch Setzt Referenzen Anreicherung von Daten Ermglicht auch das erstellen von Business Regeln(Attributabhngigkeiten)WENN Hersteller = Vita KraftUND Produkt = StrohDANN Verpackungseinheit = LiterWENN Kategorie = Fernseher(UND Unterkategorie = Plasma)DANN ProduktPreis > 100 www.datenfabrik.com 39. DemoErkennen von Fehlern innerhalb vonAttributsabhngikeiten www.datenfabrik.com 40. Data Conversion Konvertiert Daten in einen anderenDatentyp Konvertierte Daten werden in eineAusgabespalte kopiert Mehrere Konvertierungen fr eine Spalte Replacing Data Conversion Component for SSIS Todd McDermid - Codeplexwww.datenfabrik.com 41. Derived Column Ermglicht das Erstellen von Regeln Hilft bei der Bereinigung von Daten SSIS Expressions Bedingungen (BOOL ? True : False) String-Funktionen Datums-Funktionen Mathematische Operatorenwww.datenfabrik.com 42. Fuzzy Suche Fuzzy Lookup Fhrt Suchvorgnge in einem Verweisdatasetdurch Suche ber hnlichkeiten Fuzzy Grouping Sucht innerhalb des Eingabedatenstroms Suche ber hnlichkeiten www.datenfabrik.com 43. Demo www.datenfabrik.com 44. Script Component Ausfhrung von VB.NET/C# Code Verwendung als Quelle, Transformationoder Ziel Verwendung bei erweiterten .NET Funktionen, z.B. regulrenAusdrcken komplexen Algorithmen www.datenfabrik.com 45. DemoRegEx und Pattern mit der Script Komponentewww.datenfabrik.com 46. Community Components Data Validation Transform RegexClean Regular Expression Transform RegExtractor SSIS Component CCNValidator MapPoint Batch Geocoder(SQL Server CLR Function for Address Correction and Geocoding)www.datenfabrik.com 47. RegexClean Community Component von Darren Green(SQLIS.com) Match Expression - extrahiert Daten anhandeines regulren Ausdrucks Replace Expression - berfhrt Daten mitHilfe eines regulren Ausdruckswww.datenfabrik.com 48. Regular Expression Transform Community Component von Darren Green(SQLIS.com) Validiert Daten anhand eines regulrenAusdrucks Komponente enthlt zwei Ausgaben(Matched/Non-Matched) www.datenfabrik.com 49. DemoRegulre Ausdrcke mit den Integration Services www.datenfabrik.com 50. CCNValidator Codeplex-Projekt Komponente zum Prfen vonKreditkartennummern Verwendung des Luhn-Algorithmus Ausgabedatenstrom wird automatisch umeine Validierung ergnzt Prfung sagt nur aus, ob die Nummerrichtig sein knnte www.datenfabrik.com 51. DemoKreditkartenvalidierungwww.datenfabrik.com 52. Third-party Components datenfabrik GmbH & Co. KG Pragmatic Works CozyRoc Intelligent Search Technologies AMB Dataminers Melissa Data DQ Componentswww.datenfabrik.com 53. datenfabrik.dedupe Dublettensuche fr die Integration Services Sehr granulare Einstellungen mglich Prfung auf vertauschte Spalten mglich Prfung auf vertauschte Doppelnamen mglich Normalisierung/Standardisierung speziellerWerte Sehr hohe Performance (ca. 15 Mio.Datenstze pro Stunde)www.datenfabrik.com 54. datenfabrik.address Komponente zur postalischen Korrektur Referenzdaten fr ber 240 Lnder Normierung von Adressdaten Zerlegung von Adressdaten Umbenennung anhand historischerInformationen Geokodierung von Adressdaten www.datenfabrik.com 55. DemoDubletten erkennen und verschmelzenwww.datenfabrik.com 56. datenfabrik.profiler Profiling direkt im Datenfluss Datenquellen unabhngig Alarmfunktion auf einzelnen Ergebnissenpro Spalte Umfangreiches Regelwerk Erweiterung der Statistiken mit SSRS www.datenfabrik.com 57. DemoKundendaten bereinigen www.datenfabrik.com 58. Weitere Komponenten datenfabrik.mergeZusammenfhren doppelter Datenstze auf einen Golden Record datenfabrik.emailKorrektur von Email-Adressen datenfabrik.deletixLscht Dubletten nach verschiedenen Priorittsinformationen understellt Lschprotokolle datenfabirk.genderErmittelt die korrekte Anrede anhand des Vornamens frunterschiedliche Lnder datenfabrik.currencyRechnet Betrge in verschiedene Whrungen mit aktuellen undhistorischen Daten um. datenfabrik.phoneKorrektur und Anreicherung von Telefondaten www.datenfabrik.com 59. Fragen?www.datenfabrik.com 60. Links Deutsche Gesellschaft fr Informations- und Datenqualitthttp://www.dgiq.de Data Profiling im SQL Server 2008, Martin Kopphttp://www.sqlpass.de/Mitgliedsbereich/Repository/tabid/73/DMXModule/696/Command/Core_Download/Default.aspx?EntryId=116 SQLIS.com RegexClean, Regular Expression Transformhttp://www.sqlis.com CCNValidatorhttp://ccnv05.codeplex.com/ Microsoft SQL Server Integration Services Product Sampleshttp://msftisprodsamples.codeplex.com/ SSIS Community Tasks and Componentshttp://ssisctc.codeplex.com/ SSIS-Components.nethttp://www.ssis-components.net www.datenfabrik.com 61. DANKE! www.datenfabrik.com