O que você vai aprender
Definir sistema de arquivos distribuído (SAD).
Explicar o papel de cache e replicação na consistência.
Reconhecer exemplos e aplicações de SADs.
Arquivos que não cabem (nem ficam bem) em uma máquina
Como dezenas de pessoas editam os mesmos arquivos de uma empresa? Como um cluster de big data guarda petabytes que jamais caberiam em um disco só? A resposta é colocar os arquivos na rede.
O sistema de arquivos distribuído permite acessar arquivos remotos como se fossem locais — abrindo, lendo e gravando com os mesmos comandos de sempre.
O caminho desta aula
- O que é um SAD e como funciona.
- Por que usar cache e réplicas.
- O preço disso: manter as cópias consistentes.
- NFS, SMB, AFS, HDFS na prática.
O que é um SAD
A meta é a transparência de acesso e de localização: o usuário não precisa saber em qual servidor o arquivo está.
Cliente e servidor de arquivos
A arquitetura básica tem dois papéis:
- Servidor de arquivos: guarda os arquivos e atende pedidos de leitura/escrita.
- Cliente: apresenta os arquivos remotos ao usuário como uma pasta local, traduzindo operações em requisições de rede.
Montando um diretório remoto
Passo a passo: lendo um arquivo remoto
Cache: aproximar os dados
Sem cache, cada byte lido viajaria pela rede. Com cache, o que já foi acessado fica perto do usuário.
Replicação: várias cópias
Se um servidor cai, outro com a réplica assume. Se há muitos leitores, eles se distribuem entre as cópias.
A biblioteca com filiais
Cache × replicação
| Cache | Replicação | |
|---|---|---|
| Objetivo | Reduzir latência/tráfego | Aumentar disponibilidade |
| Onde fica | No cliente | Em vários servidores |
| Duração | Temporária | Persistente |
| Desafio comum | Consistência entre as cópias | |
O dilema da consistência
Quando um cliente grava em uma cópia, as demais ficam desatualizadas até serem avisadas:
cópia A→Propagar→Atualizar
cópias B, C→Consistente
Modelos de consistência
SADs adotam diferentes garantias de consistência, equilibrando rigor e desempenho:
| Modelo | Garantia |
|---|---|
| Forte | Toda leitura vê a última escrita (caro) |
| Eventual | As cópias convergem com o tempo (barato) |
| Sessão | O próprio cliente vê suas escritas em ordem |
Verifique seu entendimento
Qual é o principal desafio introduzido por cache e réplicas em um SAD?
HDFS: arquivos gigantes em clusters
O HDFS (inspirado no GFS do Google) armazena arquivos enormes em clusters de big data.
- Divide o arquivo em blocos (ex.: 128 MB cada).
- Replica cada bloco em 3 nós por padrão (tolerância a falhas).
- Um nó mestre (NameNode) sabe onde está cada bloco; os DataNodes guardam os dados.
Cuidados ao usar SADs
Tirando o melhor de um SAD
Revele a resposta
Por que o HDFS replica cada bloco em três nós por padrão?
Fixe os conceitos
Onde isso se liga
- Sistemas distribuídos (aula 8): o SAD aplica transparência, replicação e tolerância a falhas.
- Cliente-servidor (aula 6): o SAD é cliente-servidor de arquivos.
- Protocolos e portas (aula 5): NFS, SMB e afins rodam sobre TCP/UDP em portas próprias.
O essencial em uma frase
Atividade em grupo · Comparando SADs
Em trios, comparem dois sistemas de arquivos distribuídos.
Roteiro
- Escolham dois SADs entre NFS, SMB, AFS e HDFS.
- Comparem: modelo de acesso, uso de cache, estratégia de replicação.
- Indiquem um cenário ideal de uso para cada um.
- Montem uma tabela comparativa e apresentem.
Mini-quiz · Aula 9
20 questões sobre esta aula. Escolha e veja a explicação na hora.
📌 Resumo — leve isto para a prova
- SAD dá acesso transparente a arquivos remotos por uma interface comum.
- Cache reduz latência e tráfego; replicação aumenta disponibilidade e tolerância a falhas.
- O preço de cache e réplicas é a consistência: modelos vão do forte (caro) ao eventual (barato).
- HDFS/GFS dividem arquivos em blocos replicados; NameNode guarda a localização.
- Exemplos: NFS (Unix/Linux), SMB/CIFS (Windows), AFS (cache/escala), HDFS/GFS (big data).