国产理论在线,亚洲欧美高清,综合伊人

一、簡單字段定義

1、定義 Schema 并生成 Parquet 文件

									import pandas as pd

									import pyarrow as pa

									import pyarrow.parquet as pq

									# 定義 Schema

									schema = pa.schema([

									    ('id', pa.int32()),

									    ('email', pa.string())

									])

									# 準(zhǔn)備數(shù)據(jù)

									ids = pa.array([1, 2], type = pa.int32())

									emails = pa.array(['[email protected]', '[email protected]'], pa.string())

									# 生成 Parquet 數(shù)據(jù)

									batch = pa.RecordBatch.from_arrays(

									    [ids, emails],

									    schema = schema

									)

									table = pa.Table.from_batches([batch])

									# 寫 Parquet 文件 plain.parquet

									pq.write_table(table, 'plain.parquet')

									import pandas as pd

									import pyarrow as pa

									import pyarrow . parquet as pq

									# 定義 Schema

									schema = pa . schema ( [

									     ( 'id' , pa . int32 ( ) ) ,

									     ( 'email' , pa . string ( ) )

									] )

									# 準(zhǔn)備數(shù)據(jù)

									ids = pa . array ( [ 1 , 2 ] , type = pa . int32 ( ) )

									emails = pa . array ( [ '[email protected]' , '[email protected]' ] , pa . string ( ) )

									# 生成 Parquet 數(shù)據(jù)

									batch = pa . RecordBatch . from_arrays (

									     [ ids , emails ] ,

									     schema = schema

									)

									table = pa . Table . from_batches ( [ batch ] )

									# 寫 Parquet 文件 plain.parquet

									pq . write_table ( table , 'plain.parquet' )

2、驗證 Parquet 數(shù)據(jù)文件

我們可以用工具 parquet-tools 來查看 plain.parquet 文件的數(shù)據(jù)和 Schema

1	`$ parquet-tools schema plain.parquet message schema { optional int32` `id; optional binary email (STRING); } $ parquet-tools cat` `--json plain.parquet {"id":1,"email":"[email protected]"} {"id":2,"email":"[email protected]"}`

沒問題，與我們期望的一致。也可以用 pyarrow 代碼來獲取其中的 Schema 和數(shù)據(jù)

				?

									schema = pq.read_schema('plain.parquet')

									print(schema)

									df = pd.read_parquet('plain.parquet')

									print(df.to_json())

									schema = pq . read_schema ( 'plain.parquet' )

									print ( schema )

									df = pd . read_parquet ( 'plain.parquet' )

									print ( df . to_json ( ) )

輸出為：

				?

									schema = pq.read_schema('plain.parquet')

									print(schema)

									df = pd.read_parquet('plain.parquet')

									print(df.to_json())

									schema = pq . read_schema ( 'plain.parquet' )

									print ( schema )

									df = pd . read_parquet ( 'plain.parquet' )

									print ( df . to_json ( ) )

二、含嵌套字段定義

下面的 Schema 定義加入一個嵌套對象，在 address 下分 email_address 和 post_address，Schema 定義及生成 Parquet 文件的代碼如下

									import pandas as pd

									import pyarrow as pa

									import pyarrow.parquet as pq

									# 內(nèi)部字段

									address_fields = [

									    ('email_address', pa.string()),

									    ('post_address', pa.string()),

									]

									# 定義 Parquet Schema，address 嵌套了 address_fields

									schema = pa.schema(j)

									# 準(zhǔn)備數(shù)據(jù)

									ids = pa.array([1, 2], type = pa.int32())

									addresses = pa.array(

									    [('[email protected]', 'city1'), ('[email protected]', 'city2')],

									    pa.struct(address_fields)

									)

									# 生成 Parquet 數(shù)據(jù)

									batch = pa.RecordBatch.from_arrays(

									    [ids, addresses],

									    schema = schema

									)

									table = pa.Table.from_batches([batch])

									# 寫 Parquet 數(shù)據(jù)到文件

									pq.write_table(table, 'nested.parquet')

									import pandas as pd

									import pyarrow as pa

									import pyarrow . parquet as pq

									# 內(nèi)部字段

									address_fields = [

									     ( 'email_address' , pa . string ( ) ) ,

									     ( 'post_address' , pa . string ( ) ) ,

									]

									# 定義 Parquet Schema，address 嵌套了 address_fields

									schema = pa . schema ( j )

									# 準(zhǔn)備數(shù)據(jù)

									ids = pa . array ( [ 1 , 2 ] , type = pa . int32 ( ) )

									addresses = pa . array (

									     [ ( '[email protected]' , 'city1' ) , ( '[email protected]' , 'city2' ) ] ,

									     pa . struct ( address_fields )

									)

									# 生成 Parquet 數(shù)據(jù)

									batch = pa . RecordBatch . from_arrays (

									     [ ids , addresses ] ,

									     schema = schema

									)

									table = pa . Table . from_batches ( [ batch ] )

									# 寫 Parquet 數(shù)據(jù)到文件

									pq . write_table ( table , 'nested.parquet' )

1、驗證 Parquet 數(shù)據(jù)文件

同樣用 parquet-tools 來查看下 nested.parquet 文件

$ parquet-tools schema nested.parquet message schema { optional int32 id

;      optional group address {          optional binary email_address (STRING);          optional binary post_address (STRING);      }  }  $ parquet

-tools cat --json nested.parquet {"id":1,"address":{"email_address":"[email protected]","post_address":"city1"}} {"id":2,"address":{"email_address":"[email protected]","post_address":"city2"}}

用 parquet-tools 看到的 Schama 并沒有 struct 的字樣，但體現(xiàn)了它 address 與下級屬性的嵌套關(guān)系。

用 pyarrow 代碼來讀取 nested.parquet 文件的 Schema 和數(shù)據(jù)是什么樣子

				?

									schema = pq.read_schema("nested.parquet")

									print(schema)

									df = pd.read_parquet('nested.parquet')

									print(df.to_json())

									schema = pq . read_schema ( "nested.parquet" )

									print ( schema )

									df = pd . read_parquet ( 'nested.parquet' )

									print ( df . to_json ( ) )

輸出：

									id: int32

									  -- field metadata --

									  PARQUET:field_id: '1'

									address: struct&lt;email_address: string, post_address: string&gt;

									  child 0, email_address: string

									    -- field metadata --

									    PARQUET:field_id: '3'

									  child 1, post_address: string

									    -- field metadata --

									    PARQUET:field_id: '4'

									  -- field metadata --

									  PARQUET:field_id: '2'

									{"id":{"0":1,"1":2},"address":{"0":{"email_address":"[email protected]","post_address":"city1"},"1":{"email_address":"[email protected]","post_address":"city2"}}}

									id : int32

									   -- field metadata --

									   PARQUET : field_id : '1'

									address : struct & lt ; email_address : string , post_address : string & gt ;

									   child 0 , email_address : string

									     -- field metadata --

									     PARQUET : field_id : '3'

									   child 1 , post_address : string

									     -- field metadata --

									     PARQUET : field_id : '4'

									   -- field metadata --

									   PARQUET : field_id : '2'

									{ "id" : { "0" : 1 , "1" : 2 } , "address" : { "0" : { "email_address" : "[email protected]" , "post_address" : "city1" } , "1" : { "email_address" : "[email protected]" , "post_address" : "city2" } } }

數(shù)據(jù)當(dāng)然是一樣的，有略微不同的是顯示的 Schema 中, address 標(biāo)識為 struct<email_address: string, post_address: string> , 明確的表明它是一個 struct 類型，而不是只展示嵌套層次。

到此這篇關(guān)于用 Python 定義 Schema 并生成 Parquet 文件詳情的文章就介紹到這了,更多相關(guān)用 Python 定義 Schema 并生成 Parquet 文件內(nèi)容請搜索服務(wù)器之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持服務(wù)器之家！

原文鏈接：https://www.tuicool.com/articles/mEfMZrM