|
Post by nurrmohammad on Apr 2, 2024 22:47:34 GMT -5
丟棄不適用的數據,並提取有價值的數據。 資料準備 如前所述,讓我們完成選擇產品並建立其關聯資料集的步驟。您需要從線上資料集中下載以下名為attribute.csv的 csv 檔案。 為了幫助您入門,我準備了載入資料、選擇特定產品類別以及提取所選類別中的產品清單及其相關屬性所需的各個步驟。在此 Google Colab中尋找相關程式碼。 在此示範中,我選擇產生手套(服裝類別的產品)的描述。值得注意的是,可以透過運行相同的程式碼並更改一些參數來從資料集中選擇不同的產品。 載入屬性會傳回一組具有對應特徵和值的產品。請注意,每個產品都有一個唯一的product_uid,並且可以有一個或多個屬性(列名稱),每個屬性可以有一個值(列值)。 接下來的步驟包括一系列操作: 清理數據 選擇類別和特定產品 刪除包含高 丹麥 電話號碼 比例空屬性值的列 對連接的屬性資料框進行透視,以在單行上顯示產品的完整屬性集 下圖顯示了所選產品的列。請務必注意,涉及產品屬性的列特定於您選擇的產品。在本例中,這些列與用於描述手套的屬性相關。因此,這些列對於其他產品來說不會相同。 及時設計 與我之前給出的提示範例類似,上一步的數據必須轉換為句子。此步驟的目標是使用可用屬性來描述每個產品。每個產品都會有自己的提示。 在這種情況下,提示設計或提示工程包括在句子中組裝屬性及其值。您可以有一個腳本來迭代可用產品清單並為每個產品產生相應的提示。下圖提供了一些描述不同手套的提示範例。 使用 GPT-3 產生產品描述 測試 1:AI 使用預訓練模型產生描述(無需微調) 一旦用幾句話描述了一個產品,就可以呼叫GPT-3來回傳相關的補全。由於目的是產生產品描述,因此將呼叫關聯的端點「建立完成」。它是 GPT-3 API 提供的眾多其他端點之一。每次此端點收到帶有提示的格式正確的請求時,它都會返回完成。 雖然可以直接使用 GPT-3 中的預訓練模型來建立補全,但出於多種原因不建議這樣做。事實上,無論是屬性的正確性、寫作風格、語氣等,完成的品質肯定會低於預期。 根據以下測試的結果,很明顯,預先訓練的模型無法回到良好的完成結果。提醒您,完成是指為手套產生的自動化產品描述。 對於此測試,我們將最大令牌數設為 200,同時保留其餘參數的預設值。
|
|