POD5 File Format

POD5 is Oxford Nanopore’s container format for raw nanopore signal data and read-level run metadata.

TL;DR

POD5 stores raw electrical signal traces from ONT sequencing runs.
It replaces FAST5 in many modern ONT workflows with better performance and simpler access patterns.
A POD5 file typically includes read IDs, signal chunks, timing/scaling info, and run context metadata.
Basecalling tools (for example Dorado) use POD5 as direct input.
pod5 CLI tools are used to inspect, subset, and convert POD5 datasets.

POD5 is a binary container format (not line-based text like FASTQ/VCF/BED).

Conceptually, it stores:

Unlike FASTQ (basecalled sequence) or BAM (aligned reads), POD5 captures pre-basecalling raw signal data.

Treating POD5 as if it were sequence-level output (it is signal-level data).
Losing run metadata linkage when splitting files without consistent naming.
Mixing POD5 batches from different chemistry/basecaller expectations without tracking metadata.
Underestimating storage and I/O requirements for raw signal datasets.
Attempting manual parsing without format-aware libraries/tools.

Inspect summary metadata for POD5 files.

pod5 inspect reads.pod5

View selected records/fields from POD5 datasets.

pod5 view reads.pod5 --ids read_ids.txt

Create a smaller POD5 from selected reads.

pod5 subset reads.pod5 --ids read_ids.txt --output subset.pod5

Use POD5 directly as basecalling input.

dorado basecaller hac reads.pod5 > basecalls.bam