关键词:AWS公开区块链数据集、比特币大数据、以太坊链上数据、Parquet存储格式、跨境链分析、SonarX、去中心化数据
一、什么是 AWS 公开区块链数据?
AWS 公开区块链数据(AWS Public Blockchain Data)是亚马逊云科技(Amazon Web Services)长期维护的一套完全免费、免注册即可访问的去中心化链上数据集。开发者只需具备基本的云存储权限,就能直接枚举或使用标准 SQL 查询大规模区块链数据,而无需自建节点或全量同步,节省高达 90% 的采集与清洗时间。
核心亮点
- 零成本:公共 S3 存储桶,下载流量不计费
- 高频更新:每日增量,分区到具体日期
- 高性能文件:内部采用 Parquet 列式压缩,比传统 JSON 体积缩小 5–10 倍
- 标准分区:自动按日期(
YYYY/MM/DD)切分,秒级定位目标时间段数据
二、覆盖的区块链与数据路径
下面列出已上线的公开数据集,用户可通过标准 S3 URI 直接读取:
- Bitcoin
s3://aws-public-blockchain/v1.0/btc/
包含区块头、交易输入输出、UTXO、手续费等 20 余张表。 - Ethereum
s3://aws-public-blockchain/v1.0/eth/
涵盖区块、交易、日志、内部调用、ERC-20/721/1155 转账。 - Arbitrum
s3://aws-public-blockchain/v1.1/sonarx/arbitrum/
由 SonarX 维护,侧重 Layer2 交易与桥接事件。 - Aptos
s3://aws-public-blockchain/v1.1/sonarx/aptos/
新兴 Move 链生态,状态变更 & 资源模块一目了然。 - Base
s3://aws-public-blockchain/v1.1/sonarx/base/
Coinbase 支持的 Optimistic Rollup 专场。 - Provenance
s3://aws-public-blockchain/v1.1/sonarx/provenance/
面向金融资产的许可链数据。 - XRP Ledger
s3://aws-public-blockchain/v1.1/sonarx/xrp/
快照式账本+交易明细,Ripple 生态调研首选。
如需完整实时流与技术支持,可延伸阅读 SonarX 商用方案(外部链接)。
三、更新频率与目录结构
- 每日凌晨(UTC) 自动推送昨日全量数据到对应日期分区。
- 目录示意:
s3://aws-public-blockchain/v1.0/eth/transactions/2025/06/23/part-00000.parquet - 分区优势:使用 Hive/Presto 查询仅需过滤日期列,消除大量全表扫描。
四、如何使用?三种快速场景示例
场景 1:用 Athena 不下载也能跑 SQL
SELECT
block_timestamp,
from_address,
to_address,
value / 1e18 AS eth_amount
FROM "aws-public-blockchain"."eth"."transactions"
WHERE block_date = '2025-06-23'
AND value > 0
ORDER BY value DESC
LIMIT 100;全程零下载,仅需把 S3 路径设为 AWS Glue 表即可。
场景 2:本地 Jupyter Notebook + Pandas 快速原型
import pyarrow.dataset as ds
dataset = ds.dataset(
"s3://aws-public-blockchain/v1.0/eth/blocks/",
format="parquet",
partitioning="hive"
)
df = dataset.to_table(
filter=(ds.field("block_timestamp") >= "2025-06-01")
).to_pandas()单文件最大不过 3–5 MB,笔记本独立可跑。
场景 3:与区块链浏览器双向验证
研究人员经常需要核对浏览器数据与原始节点差异。把 Athena 结果、浏览器 API 数据、本地节点 RPC 三列对齐,可自动生成 偏差仪表盘,用于检测浏览器延迟或私吞未确认交易。
五、许可与合规声明
- License:MIT-style 开放许可证,允许商业修改、二次分发。
- 引用格式:在论文或报告中注明
“AWS Public Blockchain Data was accessed on 2025-06-24 from registry.opendata.aws/aws-public-blockchain”。
额外法律咨询请直接邮件联络官方:[email protected]
六、常见 FAQ
Q1:数据是完整的吗?缺失哪些字段?
A:所有链均包含区块、交易、事件日志等核心信息。比特币缺少 SegWit 脚本的 detailed witness 字段;以太坊暂不包含状态快照,仅出具交易层。
Q2:下载速度太慢怎么办?
A:战时方案——使用 AWS CLI 的 --request-payer requester 标记可通过 CloudFront 边缘缓存加速;并启用 S3 Transfer Acceleration 减少跨国链路抖动。
Q3:本地磁盘不够怎么查?
A:建议先试用 Presto 或 DuckDB + Parquet 远程扫描;或者直接对 S3 进行服务器端过滤,避免全量落地。
Q4:有无历史追溯版本?
A:目前仅保留最近 30 天增量数据在历史槽位,超过 180 天自动清理;需要长周期分析,可自建 S3 备份策略同步。
Q5:为什么最新分区为空?
A:UTC 时间每日 03:30 前夕完成打包。若查前一天 00:30 之前的数据可能出现空文件,建议再等待系统批次成功标记。
Q6:能否接入 Dune 或 Flipside?
A:可先将 AWS 数据经 ETL 同步至 Snowflake 外部表,再由 dbt 构建视图表接入 Dune;已有多家社区贡献开源 adapter。
七、从零到一的实践步骤速查
- 确认 AWS 账号并打开
Amazon Athena。 - 在 Glue Catalog 里手动建库
aws-public-blockchain。 - 运行官方提供 DDL 脚本 创建分区表。
- 打开 Athena 编辑器,跑示例查询即可。
- 把查询结果通过 CTAS 输出到自有 S3,后续与 BI 工具对接。
八、小结与下一步
AWS 公开区块链数据大幅降低链上大数据的使用门槛:不装节点、不买存储、不写繁琐解析脚本,即可享受企业级性能和 MIT 许可的开源自主权。无论你是 DApp 创业者、链上审计师还是学术科研者,这套数据集都能为你节省宝贵时间,把前期精力真正聚焦在产品和洞察上。现在就打开你的终端,体验两小时跑完过去两周的链上探索之旅吧!