Nová funkčnost Google vyhledávání – datasets

Datasets je poháněná vyhledávacím strojem Dataset Search, speciálně navrženým pro datasety. Shromažďuje informace z různých oblastí včetně vědeckých, vládních a komerčních datasetů.

Google doporučuje, aby příslušné webové stránky měli strojně čitelná metadata (podle schema.org na https://developers.google.com/search/docs/appearance/structured-data/dataset) tak, aby je Dataset Search mohl snáze najít. Nejlepším způsobem má být publikování do etablovaných repozitářů datasetů, které automaticky začleňují taková metadata.

Co je dataset

Dataset (někdy také data set, datová sada) je kolekce dat. V případě tabulkových dat dataset odpovídá jedné či více databázovým tabulkám, kde každý sloupec tabulky představuje konkrétní proměnno a každý řádek odpovídá danému záznamu z daného datasetu. V dísciplíně open data je dataset jednotkou pro měření informací vydaných v otevřeném veřejném datovém repozitáři. Evropský portál data.europa.eu agreguje více než milion datasetů.“, praví Wikipedia.org.

Jak funguje vyhledávání datasetů

K vyhledávání datasetů v češtině je potřeba do pole vyhledávání na Google napsat slovo „dataset“. V angličtině by mělo postačit jen „data“.

Narozdíl od původního postu na googleblog.com není výsledek s datasety nahoře, ale spíše níže. Je potřeba scrollovat dolů, aby se ukázal.

Výsledek dotazu „ovzduší české republiky dataset“

Po prokliknutí se dostaneme na přehled datasetů.

Přehled datasetů v Google Dataset Search

Je vidět, že na aktuálnosti datasetů se bude muset ještě daleko více pracovat a zajistit například, aby aktualizování a publikování probíhalo automatizovaně.

Existuje také specializovaný odkaz přímo na Dataset Search: https://datasetsearch.research.google.com/ (viz úvodní obrazek to tomuto článku).

Význam datasetů

Přístup k datasetům je velice důležitý napříč mnoha vertikálami počínaje vědeckým výzkumem a konče analýzami pro podniky.

V některých zemích již existují pravidla, která vyžadují zajistit bezplatný přístup k výstupům výzkumů hrazených vládou (např. USA).

Předpokládám, že význam datasetů se bude dále zvyšovat a informační systémy se budou dále o data z datasetů obohacovat.

Společnost SAP bude podporovat české startupy a platformu HANA
sap hana

SAP chce ještě do konce letošního roku vybrat až několik desítek začínajících společností. Program odstartují v červenci konference, pořádané v Celý článek

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *