Rychlý nárůst objemu dat sbíraných a uchovávaných v různých aplikačních oblastech přináší nové problémy a výzvy při jejich zpracování a interpretaci. Tyto nové přístupy bývají označovány jako dobývání znalostí z databází nebo dolování z dat.

Dobývání znalostí z databází můžeme charakterizovat jako netriviální proces analýzy rozsáhlých dat s cílem nalézt zajímavé a užitečné znalosti. Typickými úlohami dobývání znalostí jsou deskripce dat a sumarizace, klasifikace, predikce, segmentace, popis konceptů, analýza závislostí, detekce odchylek. Algoritmy používanými pro analýzu jsou pak např. rozhodovací stromy, rozhodovací pravidla, asociační pravidla, umělé neuronové sítě, bayesovské metody, regresní analýza nebo shluková analýza.

Používáte při placení v obchodě zákaznickou kartu? Pak nejen sbíráte body, ale poskytujete i data pro takzvanou analýzu nákupního košíku. Cílem této analýzy je zjistit preference zákazníků na základě údajů o zboží, které často současně nakupují. Výsledné znalosti mohou mít podobu pravidel, například "když si někdo koupí párek a housku, tak si také často koupí pivo", nebo popisu segmentů zákazníků nakupujících stejné zboží, např. "párek, housku a pivo si většinou kupují muži středního věku žijící v menších městech". První typ znalostí získáme pouze na základě údajů o obsahu nákupních košíků, pro druhý typ znalostí už potřebujeme analyzovat i údaje ze zákaznické karty.

Nakupujete přes internet a následně píšete hodnoticí komentář k zakoupenému zboží? Pak opět vytváříte data pro možnou úlohu z oblasti dobývání znalostí. Tentokrát se jedná o tzv. analýzu sentimentu, jejímž cílem je zjistit, zda v komentářích zákazníků převažuje kladné, nebo záporné hodnocení, neboli do které ze tříd "pozitivní hodnocení", "negativní hodnocení" či "neutrální hodnocení" lze dané zboží klasifikovat. Zde již nevystačíme jen s vlastními daty (tedy komentáři zákazníků), ale budeme potřebovat i seznam typických frází vyjadřujících pozitivní, respektive negativní názor (např. "výborný výrobek", "doporučuji koupit" nebo "nevýhodný nákup" či "nesplnilo očekávání").

Metody dobývání znalostí jsou používány pro řadu dalších úloh: hodnocení úvěrového rizika, hodnocení bonity klientů banky, diagnostikování závažných onemocnění, predikci vývoje směnných kurzů nebo cen akcií, detekci pojistných podvodů, hodnocení karcinogenity chemických látek, detekci pokusů o průnik do počítačové sítě, vyhodnocení dopadu marketingové kampaně. Metody dobývání znalostí lze tedy použít všude tam, kde jsou k dispozici data, ve kterých se může skrývat "něco zajímavého".