Microsoft Fabric

Amanda Nascimento
17 de mai. de 2025
8 min de leitura

Atualizado: 9 de fev.

O Microsoft Fabric é uma plataforma unificada de dados e analytics na nuvem, que reúne em um único ambiente SaaS (Software as a Service) diversas tecnologias já consolidadas da Microsoft, como Power BI, Azure Synapse, Data Factory e Azure Data Lake.

A plataforma foi anunciada oficialmente em 23 de maio de 2023, durante o evento Microsoft Build, e alcançou a disponibilidade geral (GA) na segunda metade de 2023, marcando um novo passo na estratégia de dados da Microsoft.

O principal objetivo do Microsoft Fabric é simplificar e integrar todo o ciclo de dados, permitindo que engenheiros de dados, cientistas de dados, analistas de BI, engenheiros de machine learning e gestores de TI trabalhem de forma colaborativa na mesma plataforma, utilizando um único armazenamento e modelos de governança unificados — tudo isso sem a necessidade de gerenciar infraestruturas separadas.

No centro dessa arquitetura está o OneLake, o data lake unificado do Microsoft Fabric, frequentemente descrito como o “OneDrive dos dados”. O OneLake funciona como uma camada única de armazenamento para toda a organização, eliminando silos e duplicações de dados. Ele permite que diferentes equipes e workloads acessem os mesmos dados de forma segura, utilizando formatos abertos como Delta Lake e Apache Iceberg, além de oferecer o conceito de shortcuts, que possibilita referenciar dados de outras fontes (como Azure Data Lake ou Amazon S3) sem a necessidade de cópia física. Com isso, o OneLake se torna a base para uma arquitetura mais simples, escalável e governável.

Tradicionalmente, o Power BI utilizava o DirectQuery para se conectar a bancos de dados externos, consultando os dados diretamente na origem, com o Microsoft Fabric, surge o Direct Lake, um novo modo de acesso que permite ao Power BI consultar dados armazenados no OneLake de forma direta e com alta performance, sem a necessidade de importação ou duplicação de dados.

Direct Query: permite que o Power BI execute consultas diretamente na fonte de dados, sem armazenar os dados localmente no modelo semântico. Esse modelo garante que os relatórios exibam informações sempre atualizadas, porém pode impactar o desempenho, já que cada interação do usuário gera consultas que precisam ser processadas pelo banco de dados de origem. Além disso, esse modo depende fortemente da capacidade e da latência da fonte consultada.
Direct Lake: Uma inovação introduzida com o Microsoft Fabric. Nesse modo, o Power BI acessa arquivos Parquet armazenados no OneLake diretamente, sem necessidade de importação para o modelo nem execução de consultas em bancos externos.
Ele combina o alto desempenho típico do modo Importação com a atualização quase em tempo real do DirectQuery, permitindo análises rápidas sobre grandes volumes de dados, mantendo uma arquitetura mais simples, eficiente e alinhada ao conceito de armazenamento unificado do Fabric.

Quando usamos o Direct Lake no fabric, o Power BI lê diretamente os dados da tabela Delta no OneLake, sem usar uma engine intermediária (como SQL Server ou Spark). Ou seja, ele usa o VertiPaq diretamente para carregar os dados, mantendo alta performance mesmo com grandes volumes.

O engine do Power BI é o motor interno de processamento de dados usado para realizar cálculos, consultas e compressão dos dados carregados. Ele é chamado de VertiPaq Engine (ou xVelocity). O VertiPaq é um motor de armazenamento colunar e compressão em memória que permite ao Power BI executar análises rápidas e eficientes, mesmo em grandes volumes de dados.

Onelake

O OneLake é o data lake unificado do Microsoft Fabric, funcionando como uma única camada de armazenamento para toda a organização. Ele centraliza dados de diferentes workloads — como Lakehouse, Data Warehouse, Data Science e Power BI — eliminando silos e duplicações.

Baseado em formatos abertos como Delta Lake e Parquet, o OneLake permite alto desempenho, governança e interoperabilidade. Um de seus principais diferenciais são os shortcuts, que possibilitam acessar dados de outros workspaces ou até de fontes externas (como Azure Data Lake ou Amazon S3) sem copiar fisicamente os dados, mantendo segurança e atualização em tempo real.

Na prática, o OneLake simplifica a arquitetura de dados, reduz custos e viabiliza modelos modernos como Data Mesh, permitindo que diferentes equipes trabalhem sobre a mesma base de dados de forma integrada e escalável.

O Microsoft Fabric utiliza formatos de dados abertos para armazenar informações no OneLake, sendo os principais Parquet e Delta Lake. Essa escolha evita vendor lock-in, melhora a performance e garante interoperabilidade com outras ferramentas de dados.

O Parquet é o formato base. O Delta é uma evolução sobre o Parquet.

Parquet e Delta

Parquet: o formato base de dados analíticos

O Parquet é um formato de arquivo colunar, otimizado para leitura analítica. Ele organiza os dados por coluna (e não por linha), o que reduz drasticamente a quantidade de dados lidos em consultas analíticas.

Formato aberto
Leitura muito rápida para BI e analytics
Excelente compressão
Ideal para grandes volumes de dados
Amplamente suportado (Spark, Power BI, Trino, Athena, etc.)

O Parquet não gerencia transações, não controla concorrência e não possui versionamento nativo. Ele é ótimo para leitura, mas limitado para cenários de escrita e atualização frequente.

Delta Lake: Parquet + inteligência

O Delta Lake é uma camada adicional construída sobre arquivos Parquet. Fisicamente, os dados continuam sendo Parquet — o diferencial está no log transacional que o Delta adiciona.

Transações ACID
Controle de concorrência
Versionamento (time travel)
Evolução de esquema
Escrita segura (append, merge, update, delete)

O padrão recomendado é delta, tornando o formato delta lake ideal para pipelines modernos, onde os dados:

são atualizados frequentemente
precisam ser confiáveis
passam por múltiplas transformações

Delta é Parquet com governança e confiabilidade.

Use Parquet quando:

os dados são somente leitura
cargas são simples
não há atualização frequente
foco é performance de leitura e interoperabilidade

Use Delta Lake quando:

há ingestão contínua
dados são atualizados ou corrigidos
múltiplos processos escrevem nos dados
confiabilidade e governança são essenciais

Workspaces

No Microsoft Fabric, o workspace é a unidade central de organização. É nele que ficam armazenados e gerenciados todos os artefatos da plataforma, como lakehouses, warehouses, pipelines, notebooks, modelos semânticos e relatórios do Power BI.

Diferente do modelo tradicional, onde cada ferramenta possuía seu próprio espaço e regras, no Fabric o workspace funciona como um contêiner lógico unificado, permitindo que diferentes equipes trabalhem sobre os mesmos dados, respeitando permissões, governança e boas práticas de arquitetura.

Cada workspace é associado a uma capacidade do Fabric, o que define os recursos computacionais disponíveis, e pode ser integrado a pipelines de CI/CD, facilitando versionamento, automação e promoção entre ambientes como dev, homologação ou teste e prod.

O Fabric se encaixa de forma natural em arquiteturas de Data Mesh, onde os dados são organizados por domínio de negócio e tratados como produtos de dados.

Uma abordagem recomendada é:

Criar workspaces por domínio (ex.: Financeiro, Comercial, Logística, RH)
Cada domínio é responsável por:
- seus lakehouses / warehouses
- qualidade e confiabilidade dos dados
- documentação e semântica

Lakehouse

O Lakehouse no Microsoft Fabric combina a flexibilidade de um data lake com as capacidades analíticas de um data warehouse. Ele permite armazenar dados estruturados e não estruturados no OneLake, utilizando formatos abertos como Delta Lake, garantindo desempenho, versionamento e confiabilidade.

Além do acesso via Spark para engenharia de dados, o Lakehouse também disponibiliza um SQL Endpoint, permitindo consultas T-SQL e integração direta com o Power BI via Direct Lake. Isso torna o Lakehouse uma peça-chave para arquiteturas modernas, suportando analytics, machine learning e BI sobre a mesma base de dados.

Data Warehouse (DW)

O Data Warehouse no Microsoft Fabric é voltado para cenários analíticos baseados em T-SQL, oferecendo uma experiência familiar para profissionais de banco de dados e BI. Ele fornece suporte completo a transações ACID, alta performance e escalabilidade, sem a complexidade de gerenciar infraestrutura.

Integrado nativamente ao OneLake, o DW no Fabric elimina a necessidade de duplicação de dados e cria automaticamente um modelo semântico padrão para o Power BI. Isso permite que relatórios sejam criados rapidamente, mantendo governança, segurança e performance em ambientes corporativos.

Pipelines

Os pipelines no Microsoft Fabric são responsáveis por orquestrar processos de dados, controlando a ordem de execução de atividades como ingestão, transformação, notebooks, dataflows e cargas em lakehouses ou warehouses. Eles são baseados no conceito do Azure Data Factory, porém totalmente integrados ao Fabric.

Com pipelines, é possível criar fluxos de dados automatizados, com controle de dependências, agendamento, tratamento de erros e monitoramento centralizado. Isso permite construir soluções de dados mais robustas, confiáveis e prontas para produção, sem a necessidade de ferramentas externas.

Dataflow (Gen2)

O Dataflow (Gen2) é focado em ingestão e transformação de dados. Ele utiliza o Power Query Online, permitindo conectar a diversas fontes de dados e aplicar regras de limpeza, padronização e enriquecimento de forma visual ou via linguagem M.

Na prática, o Dataflow é usado quando o objetivo é preparar os dados: remover colunas, tratar valores nulos, converter tipos, aplicar regras de negócio e, ao final, gravar os dados prontos no OneLake para consumo por Lakehouses, Warehouses ou Power BI.

Enquanto o Dataflow é responsável por transformar os dados, o Pipeline garante que essas transformações aconteçam no momento certo, na ordem correta e de forma automatizada.

Linguagens

No Microsoft Fabric, o T-SQL e o PySpark se consolidam como as principais linguagens da plataforma: o T-SQL domina os cenários de Data Warehouse e BI, enquanto o PySpark é essencial para engenharia de dados e processamento em larga escala. Juntas, elas atendem à maior parte dos casos de uso analíticos modernos.

Embora T-SQL e PySpark sejam as mais utilizadas, o Fabric também suporta:

SQL puro em notebooks
Python (pandas, ML, etc.)
R (principalmente em Data Science)
Linguagem M (Power Query) nos Dataflows

Conectores

O Microsoft Fabric oferece uma ampla variedade de conectores nativos, permitindo a ingestão e integração de dados a partir de múltiplas fontes, tanto on-premises quanto em nuvem. Esses conectores são utilizados principalmente em Dataflows (Gen2), Pipelines e Notebooks, garantindo flexibilidade para diferentes cenários de dados.

A grande vantagem é que todos esses dados podem ser centralizados no OneLake, mantendo uma arquitetura unificada, governável e preparada para analytics e BI.

Bancos de dados relacionais

Entre os conectores mais utilizados estão os de bancos de dados relacionais, amplamente presentes em ambientes corporativos:

SQL Server (on-premises e Azure)
Azure SQL Database
Oracle
MySQL
PostgreSQL

Esses conectores são ideais para cenários de migração de dados, cargas incrementais e integração com sistemas transacionais, permitindo trazer dados estruturados para Lakehouses ou Warehouses no Fabric.

Fontes de dados em nuvem (Azure e multicloud)

O Fabric possui forte integração com serviços de nuvem, especialmente do ecossistema Azure, mas também suporta ambientes multicloud:

Azure Data Lake Storage Gen2
Azure Blob Storage
Azure Cosmos DB
Amazon S3
Google Cloud Storage (via arquivos)

Esses conectores facilitam arquiteturas híbridas e multicloud, permitindo que dados armazenados fora do Fabric sejam consumidos diretamente ou via shortcuts, sem necessidade de cópia física.

Arquivos e formatos de dados

O suporte a arquivos é um dos pontos fortes do Fabric, especialmente para ingestão inicial ou integração com parceiros externos:

CSV
Parquet
JSON
Excel
XML

Esses formatos podem ser carregados diretamente para o OneLake, transformados via Dataflows ou processados em notebooks Spark, garantindo compatibilidade com pipelines modernos de dados.

APIs e sistemas SaaS

O Fabric também permite integração com APIs e aplicações SaaS, muito comuns em cenários corporativos:

REST APIs
SharePoint
OneDrive
Dynamics 365
Salesforce
Google Analytics

Esses conectores são amplamente usados para ingestão de dados operacionais, dados de marketing, CRM e sistemas colaborativos, ampliando a visão analítica da organização.

Conectores para streaming e tempo real

Para cenários de dados em tempo real, o Fabric oferece conectores voltados a streaming e eventos:

Event Hubs
IoT Hub
Event Streams

Esses conectores são fundamentais para casos como monitoramento, telemetria, logs e análises de eventos em tempo real, integrando-se diretamente ao Real-Time Intelligence do Fabric.