Python中JSON秒變Dataframe的示例-創(chuàng)新互聯(lián)

小編給大家分享一下Python中JSON秒變Dataframe的示例，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

創(chuàng)新互聯(lián)建站是一家專業(yè)提供臺(tái)州企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站制作、做網(wǎng)站、HTML5、小程序制作等業(yè)務(wù)。10年已為臺(tái)州眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)絡(luò)公司優(yōu)惠進(jìn)行中。

調(diào)用API和文檔數(shù)據(jù)庫會(huì)返回嵌套的JSON對(duì)象，當(dāng)我們使用Python嘗試將嵌套結(jié)構(gòu)中的鍵轉(zhuǎn)換為列時(shí)，數(shù)據(jù)加載到pandas中往往會(huì)得到如下結(jié)果：

df = pd.DataFrame.from_records（results [“ issues”]，columns = [“ key”，“ fields”]）

說明：這里results是一個(gè)大的字典，issues是results其中的一個(gè)鍵，issues的值為一個(gè)嵌套JSON對(duì)象字典的列表，后面會(huì)看到JSON嵌套結(jié)構(gòu)。

問題在于API返回了嵌套的JSON結(jié)構(gòu)，而我們關(guān)心的鍵在對(duì)象中確處于不同級(jí)別。

嵌套的JSON結(jié)構(gòu)張成這樣的。

而我們想要的是下面這樣的。

下面以一個(gè)API返回的數(shù)據(jù)為例，API通常包含有關(guān)字段的元數(shù)據(jù)。假設(shè)下面這些是我們想要的字段。

key：JSON密鑰，在第一級(jí)的位置。
summary：第二級(jí)的“字段”對(duì)象。
status name：第三級(jí)位置。
statusCategory name：位于第4個(gè)嵌套級(jí)別。

如上，我們選擇要提取的字段在issues列表內(nèi)的JSON結(jié)構(gòu)中分別處于4個(gè)不同的嵌套級(jí)別，一環(huán)扣一環(huán)。

{
  "expand": "schema,names",
  "issues": [
    {
      "fields": {
        "issuetype": {
          "avatarId": 10300,
          "description": "",
          "id": "10005",
          "name": "New Feature",
          "subtask": False
        },
        "status": {
          "description": "A resolution has been taken, and it is awaiting verification by reporter. From here issues are either reopened, or are closed.",
          "id": "5",
          "name": "Resolved",
          "statusCategory": {
            "colorName": "green",
            "id": 3,
            "key": "done",
            "name": "Done",
          }
        },
        "summary": "Recovered data collection Defraglar $MFT problem"
      },
      "id": "11861",
      "key": "CAE-160",
    },
    {
      "fields": { 
... more issues],
  "maxResults": 5,
  "startAt": 0,
  "total": 160
}

一個(gè)不太好的解決方案

一種選擇是直接擼碼，寫一個(gè)查找特定字段的函數(shù)，但問題是必須對(duì)每個(gè)嵌套字段調(diào)用此函數(shù)，然后再調(diào)用.apply到DataFrame中的新列。

為獲取我們想要的幾個(gè)字段，首先我們提取fields鍵內(nèi)的對(duì)象至列：

df = (
    df["fields"]
    .apply(pd.Series)
    .merge(df, left_index=True, right_index = True)
)

從上表看出，只有summary是可用的，issuetype、status等仍然埋在嵌套對(duì)象中。

下面是提取issuetype中的name的一種方法。

# 提取issue type的name到一個(gè)新列叫"issue_type"
df_issue_type = (
    df["issuetype"]
    .apply(pd.Series)
    .rename(columns={"name": "issue_type_name"})["issue_type_name"]
)
df = df.assign(issue_type_name = df_issue_type)

像上面這樣，如果嵌套層級(jí)特別多，就需要自己手?jǐn)]一個(gè)遞歸來實(shí)現(xiàn)了，因?yàn)槊繉忧短锥夹枰{(diào)用一個(gè)像上面解析并添加到新列的方法。

對(duì)于編程基礎(chǔ)薄弱的朋友，手?jǐn)]一個(gè)其實(shí)還挺麻煩的，尤其是對(duì)于數(shù)據(jù)分析師，著急想用數(shù)據(jù)的時(shí)候，希望可以快速拿到結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析。

下面東哥分享一個(gè)pandas的內(nèi)置解決方案。

內(nèi)置的解決方案

pandas中有一個(gè)牛逼的內(nèi)置功能叫.json_normalize。

pandas的文檔中提到：將半結(jié)構(gòu)化JSON數(shù)據(jù)規(guī)范化為平面表。

前面方案的所有代碼，用這個(gè)內(nèi)置功能僅需要3行就可搞定。步驟很簡單，懂了下面幾個(gè)用法即可。

確定我們要想的字段，使用 . 符號(hào)連接嵌套對(duì)象。

將想要處理的嵌套列表（這里是results["issues"]）作為參數(shù)放進(jìn).json_normalize 中。

過濾我們定義的FIELDS列表。

FIELDS = ["key", "fields.summary", "fields.issuetype.name", "fields.status.name", "fields.status.statusCategory.name"]
df = pd.json_normalize(results["issues"])
df[FIELDS]

沒錯(cuò)，就這么簡單。

其它操作

記錄路徑

除了像上面那樣傳遞results["issues"]列表之外，我們還使用record_path參數(shù)在JSON對(duì)象中指定列表的路徑。

# 使用路徑而不是直接用results["issues"]
pd.json_normalize(results, record_path="issues")[FIELDS]

自定義分隔符

還可以使用sep參數(shù)自定義嵌套結(jié)構(gòu)連接的分隔符，比如下面將默認(rèn)的“.”替換“-”。

### 用 "-" 替換默認(rèn)的 "."
FIELDS = ["key", "fields-summary", "fields-issuetype-name", "fields-status-name", "fields-status-statusCategory-name"]
pd.json_normalize(results["issues"], sep = "-")[FIELDS]

控制遞歸

如果不想遞歸到每個(gè)子對(duì)象，可以使用max_level參數(shù)控制深度。在這種情況下，由于statusCategory.name字段位于JSON對(duì)象的第4級(jí)，因此不會(huì)包含在結(jié)果DataFrame中。

# 只深入到嵌套第二級(jí)
pd.json_normalize(results, record_path="issues", max_level = 2)

以上是“Python中JSON秒變Dataframe的示例”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對(duì)大家有所幫助，如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

當(dāng)前標(biāo)題：Python中JSON秒變Dataframe的示例-創(chuàng)新互聯(lián)
標(biāo)題鏈接：http://weahome.cn/article/ccjdih.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python中JSON秒變Dataframe的示例-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管