Дрейф данных - непредсказуемые, необъявленные и бесконечные преобразования характеристик данных, вызванные эксплуатацией, техническим обслуживанием и модернизацией систем, производящих и обогащающих данные. Предприятия постоянно получают новые данные в различных форматах посредством различных технологий и из новых мест. Каждый проект интеграции данных обнаруживает нечто в потенциальных источниках, что может существенно повлиять на дизайн решения: неожиданный контент, данные низкого качества или даже то, что требуемые данные фактически не существуют там, где они ожидались. С одной стороны - захватывающие возможности больших данных открываются в Нью-Васюках, новые вызовы, монетизация, и в то же время прогнозируется экспансия грязных данных, фейковых данных, шума.
Методология, платформы каталогизации данных, управление метаданными, бизнес-глоссарий, мастер-данные, lineage - это нужно, важно, полезно. А может, следует вернуться к первичным системам (CRM, ERP, АБС и т.п.), где зарождаются данные, и там по возможности снижать технические долги? А скорость, частота "изменений" Бизнеса? Большой Enterprise - энтропия?
Ниже в перечне собраны вендоры, работающие в направлении данных: реляционные СУБД и NoSQL, ETL/ELT, MDM, BI, DG, Data Profiling, Analysis и ML. Список вряд ли полный, формализовать по функциональным областям сложно, так как компании развиваются, покупаются. Каждая IT-компания большой четверки имеет продукты всех направлений и даже не по одному продукту. Так, SAP, владея NetWeaver, купила Sybase ASE, IQ, PowerDesigner, Crystal Reports. IBM, имея свои DB2, IMS, Lotus Domino, поглотила Informix, Netezza, Cognos, DataStage. У Microsoft есть SQL Server, Access, Analysis Services, Power BI, Integration Services, Azure, FoxPro, Panorama, ProClarity. У Oracle - Oracle DataBase, Exadata, GoldenGate, MySQL, OWB, ODI, Oracle BI, Exalytics, Hyperion, Big Data Appliance.
Какие мысли, выводы по этому списку?
- • Рынок управления, подготовки, обработки данных настолько гигантский, что не иссякают желания откусить кусочек, крошечку огромного $ пирога;
- • Все эти вендоры давно пришли или придут на предприятия: внедрения, перевнедрения, нескончаемые проекты
зоопарк неминуем; - • Коннекторы (и часто коммерческие) имеют свои особенности, баги, версии, за ними нужно следить, платить;
- • Пропиетарные форматы, поиски ответов, обходные решения, коммуникации;
- • Разработчикам на земле в предприятиях, интеграторах не будет покоя в этой гонке вооружений в погоне за вендорами;
- • "Культурные" слои и наследия контуров данных будут наслаиваться, реинжиниринг, выпрямление...
- • Цифра давит.
Объем данных | Аббревиатура | В байтах | Эквивалент |
Байт | b | 1 | 8 bits |
Килобайт | Kb | 1 024 | 1024 bytes |
Мегабайт | MB | 1 048 576 | 1024 Kb |
Гигабайт | GB | 1 073 741 824 | 1024 MB |
Терабайт | TB | 1 099 511 627 776 | 1024 GB |
Петабайт | PB | 1 125 899 906 842 624 | 1024 TB |
Эксабайт | EB | 1 152 921 504 606 846 976 | 1024 PB |
Зетабайт | ZB | 1 180 591 620 717 411 303 424 | 1024 EB |
Йоттабайт | YB | 1 208 925 819 614 629 174 706 176 | 1024 ZB |
Бронтобайт | BB | 1 237 940 039 285 380 274 899 124 224 | 1024 YB |
Геопбайт | GB | 1 267 650 600 228 229 401 496 703 205 376 | 1024 BB |
Итак, вот этот список:
- Actian
- Actuate
- Adaptive
- Adobe
- Aerospike
- Alation
- Alegion
- Alex Solutions
- Aglorithmia
- Alluxio
- Alteryx
- Amazon Redshift
- Anaconda
- Anodot
- Apache Druid
- Apache Spark
- ArangoDB
- Arcadia Data
- Arcplan
- ASG
- Ataccama
- AtScale
- Attunity
- AWS
- BigID
- Big Squid
- Birst
- BlueData
- Booz Allen Hamilton
- Cambridge Analytica
- Cassandra
- Citus Data
- ClickHouse
- Cloudera
- Cloudian
- Cockroach Labs
- Collibra
- Comet.ml
- Confluent
- Couchbase
- Data Advantage Group
- Databricks
- DataCamp
- DataCleaner
- Dataiku
- Datameer
- DataRobot
- DataStax
- Data World
- Datiris
- DATUM
- DDN
- Denodo
- Dominio Data Lab
- Domo
- Dremio
- Dundas Data Visualization
- Elastic
- EnterWorks
- Erwin
- Esri
- FaunaDB
- FigureEight
- Formulus Black
- Fractal Analytics
- Gigaspaces
- Global IDs
- Good Data
- Google Cloud Platform
- Graphiq
- GraphLab
- GraphQL
- Greenplum
- GridGain
- H20.ai
- Hazelcast
- Hitachi Vantara
- HPE
- HVR Software
- IBM
- Idera
- Iguazio
- Immuta
- Impetus Technologies
- Incorta
- InfiniDB
- Infogix
- Infor
- Informatica
- Information Builders
- Infoworks
- Intel
- Interana
- Io-Tahoe
- JasperSoft
- John Snow Labs
- Julia Computing
- Kyligence
- Kyvos Insights
- Lentiq
- Logi Analytics
- Logs.io
- Looker
- Lucidworks
- Manta
- MariaDB
- MarkLogic
- Matillion
- MemSQL
- Microsoft
- MicroStrategy
- Minio
- Mondrian
- MongoDB
- MySQL
- Neo4j
- Novetta
- NVIDIA
- OctopaiOdaseva
- Okera
- OmniSci
- OpenText
- Oracle
- Orchestra Networks
- Palo
- Pentaho
- Pepperdata
- PostgreSQL
- Presto
- Prognoz
- Privacera
- Profisee
- Pure Storage
- Qlik
- OrientDB
- Qubole
- Quobyte
- RapidMiner
- RavenDB
- Redis Labs
- Riversand
- Rockset
- RStudio
- SAP
- SAS
- ScyllaDB
- SiSense
- Smartlogic
- Snowflake
- Splice Machine
- Splunk
- SQLStream
- SQream
- Starburst
- Stibo Systems
- Streamlio
- StreamSets
- Striim
- Sumo Logic
- SWIM.ai
- SyncSort
- Tableau
- Talend
- Tamr
- Tarantool
- Targit
- Teradata
- ThoughtSpot
- TIBCO
- TigerGraph
- TimeScale
- Trifacta
- Trillium Software
- Unravel Data
- Vertica
- Ververica
- VoltDB
- WANdisco
- Waterline Data
- Yellowbrick Data
- Zaloni
- Zettaset
- Zoomdata