Học cách sử dụng dataset Ethereum của chúng tôi với Snowflake để phân tích dữ liệu blockchain và thu thập những thông tin như người dùng hoạt động hàng ngày và các hợp đồng hàng đầu.
TL;DR: Khám phá cách phân tích dữ liệu blockchain hiệu quả bằng cách sử dụng datasets từ Pinax. Tìm hiểu cách giải pháp của chúng tôi đơn giản hóa việc truy cập dữ liệu Ethereum thông qua các tệp Parquet và cơ sở dữ liệu quản lý như Snowflake, cho phép thực hiện các truy vấn SQL để rút ra những insights quý giá như người dùng hoạt động hàng ngày và các hoạt động hợp đồng hàng đầu.
Chúng tôi rất hào hứng giới thiệu một sản phẩm đang thay đổi cách phân tích dữ liệu blockchain: Datasets trên The Graph, tích hợp với Snowflake. Trong bài viết này, chúng tôi sẽ khám phá những vấn đề mà chúng tôi đang giải quyết, các giải pháp sáng tạo của chúng tôi, cách mọi người có thể tiêu thụ các datasets của chúng tôi, và tầm nhìn của chúng tôi cho tương lai.
Để tìm hiểu thêm về các datasets của chúng tôi, hãy truy cập:
- Pinax Datasets Offer Simple Solution to Accessing Blockchain Data
- Pinax Datasets Offer Superior Simplicity w
Vấn Đề Là Gì?
Các blockchain tạo ra một lượng dữ liệu khổng lồ—với khối lượng lớn và khó quản lý. Việc trích xuất dữ liệu này, đặc biệt khi có sự tham gia của các tương tác chi tiết từ các nút RPC, đòi hỏi phải có công cụ đặc biệt.
Các nhà phân tích quen thuộc với các công cụ truyền thống như SQL gặp khó khăn với sự phức tạp trong việc trích xuất dữ liệu blockchain. Thêm vào đó là thách thức trong việc xử lý nhiều mạng blockchain, khiến công việc này trở thành gánh nặng vận hành.
Việc truy cập dữ liệu này một cách hiệu quả cũng đồng nghĩa với việc giảm thiểu nhu cầu tải xuống các datasets khổng lồ. Chính vì vậy, chúng ta cần một giải pháp giúp tạo ra kho dữ liệu, để bạn có thể truy vấn chính xác những dữ liệu cần thiết.
Giải Pháp Của Chúng Tôi Là Gì?
Chúng tôi tận dụng hai công nghệ mạnh mẽ: Firehose và Substreams. Các dịch vụ này chạy trên The Graph và cho phép trích xuất và lưu trữ dữ liệu blockchain một cách hiệu quả. Quá trình của chúng tôi bắt đầu bằng cách định nghĩa schema khối cho các chuỗi khác nhau (EVM-based, Solana, Bitcoin) và xuất chúng thành các tệp Parquet—thực chất là các tệp phẳng có đặc tính của cơ sở dữ liệu. Những tệp này được lưu trữ trên AWS S3 hoặc các bucket tương thích S3 khác.
Để làm cho dữ liệu dễ tiếp cận hơn, chúng tôi không chỉ dừng lại ở việc lưu trữ thô. Chúng tôi cũng niêm yết dữ liệu trên Snowflake Marketplace, cho phép bạn truy vấn dữ liệu thô từ S3 hoặc kết nối trực tiếp với Snowflake, một cơ sở dữ liệu được quản lý, để thực hiện các truy vấn SQL trên các datasets đã được quản lý. Khả năng linh hoạt này cho phép bạn truy cập dữ liệu blockchain theo những cách mà bạn cảm thấy thoải mái nhất.
Làm Thế Nào Để Tiêu Thụ Datasets?
Bạn có nhiều lựa chọn để truy cập dữ liệu. Bạn có thể:
- Tải dữ liệu thô từ S3 vào cơ sở dữ liệu của bạn sử dụng các bảng bên ngoài hoặc phương pháp sao chép trực tiếp.
- Truy vấn trực tiếp dữ liệu trong các cơ sở dữ liệu được quản lý như Snowflake sử dụng SQL.
- Sử dụng các thư viện Python như Polars hoặc pandas để đọc các tệp Parquet một cách lập trình.

Ảnh chụp màn hình từ các slide video hiển thị pipeline dữ liệu của kiến trúc MVP.
Tổng Quan Kiến Trúc
Pipeline dữ liệu bắt đầu với Firehose, cho phép tạo công cụ cho các datasets blockchain, tạo ra một loại khối chuẩn mà sẽ được chuyển qua Substreams. Tại đây, chúng tôi định nghĩa schema cho các loại dữ liệu khác nhau (khối, dấu vết giao dịch, nhật ký) và chuyển chúng thành các tệp Parquet.
Dữ liệu đã được trích xuất có thể được lưu trữ trên S3 và sau đó được tiêu thụ theo nhiều cách khác nhau, như các công cụ tính toán SQL hoặc các thư viện Python. Chúng tôi cũng hỗ trợ hai phương pháp gateway khác nhau:
- Requester Pays: Tính phí dựa trên việc sử dụng lưu trữ S3, cho phép bạn trả phí cho lượng dữ liệu cụ thể mà bạn truy cập.
- Snowflake Marketplace: Bạn có thể truy cập trực tiếp vào các datasets mà không cần sao chép, với sự tiện lợi của các cơ sở dữ liệu được quản lý sẵn sàng cho SQL.

Ảnh chụp màn hình từ các slide video hiển thị các gateway của kiến trúc MVP.
Demo Tích Hợp Snowflake [Timestamp 5:04]
Snowflake cung cấp một thị trường nơi bạn có thể dễ dàng tìm thấy các datasets. Ví dụ, tìm kiếm “Ethereum” sẽ hiển thị các danh sách từ các nhà cung cấp dữ liệu nổi tiếng. Dataset Ethereum của chúng tôi là miễn phí để thử, không áp dụng phí niêm yết.
Bạn có thể xem trước dữ liệu để làm quen với cấu trúc của nó bằng cách xem các bảng như blocks, logs và transaction hashes. Hiện tại, Snowflake lưu trữ dữ liệu này ở một khu vực duy nhất (US East N. Virginia), và chúng tôi dự định thêm các khu vực khác trong tương lai khi cần thiết.
Trong demo của chúng tôi, chúng tôi sẽ chỉ cách sử dụng Python notebooks của Snowflake để phân tích người dùng hoạt động hàng ngày trên Ethereum, trực quan hóa dữ liệu bằng pandas. Chúng tôi cũng khám phá các hợp đồng hàng đầu theo hoạt động, làm nổi bật cách dễ dàng để đi sâu vào các chi tiết cấp hợp đồng.
Kế Hoạch Tương Lai Của Chúng Tôi
Hiện tại, chúng tôi đã có Ethereum được lưu trữ trên Snowflake và S3. Chúng tôi đang mở rộng để hỗ trợ các chuỗi EVM khác như Base, Arbitrum, BSC và Polygon, cũng như các chuỗi không phải EVM như Solana và Bitcoin. Bên cạnh đó, chúng tôi đang hướng đến việc rút ngắn tần suất làm mới dữ liệu từ 24 giờ xuống càng thấp càng tốt, giúp phân tích dữ liệu gần như thời gian thực trở thành hiện thực.
Chúng tôi rất hào hứng khi tiếp tục phát triển và cải tiến sản phẩm này, mở rộng hỗ trợ cho nhiều blockchain hơn và nâng cao khả năng phân tích thời gian thực, giúp dữ liệu blockchain trở nên dễ tiếp cận với mọi người—từ các nhà phân tích đến các nhà phát triển.
Tùy thuộc vào phản hồi của khách hàng và sự thành công của thử nghiệm datasets trên Snowflake, bạn có thể sẽ thấy datasets trở thành một dịch vụ dữ liệu được hỗ trợ đầy đủ trên The Graph trong tương lai.
Nếu bạn quan tâm đến việc khám phá cách chúng tôi có thể đơn giản hóa việc truy cập dữ liệu blockchain cho nhu cầu của bạn, hãy truy cập trang web của chúng tôi hoặc liên hệ với chúng tôi để tìm hiểu thêm. Yêu cầu demo để xem cách chúng tôi có thể biến đổi các hiểu biết về dữ liệu blockchain của bạn.
Đừng quên rằng dataset Ethereum của chúng tôi có thể được dùng thử miễn phí trên Snowflake!
💡 Bài viết này trả lời các câu hỏi như:
- Dataset blockchain là gì?
- Nhà phân tích có thể làm gì với các datasets được lưu trữ trên Snowflake?
- Các cách khác nhau để bạn có thể truy cập dữ liệu trong một dataset là gì?
- Làm thế nào bạn có thể thử dataset lịch sử giới hạn Ethereum của chúng tôi miễn phí?
No Comments