2018阿里广告点击率预估模型---DIN，Tensorflow2.0代码实践( 二 ) _模型

# reviews2_df = pd.read_json('../raw_data/reviews_Electronics_5.json', lines=True)
# 序列化保存
with open('../raw_data/reviews.pkl', 'wb') as f:
pickle.dump(reviews_df, f, pickle.HIGHEST_PROTOCOL)
meta_df = to_df('../raw_data/meta_Electronics.json')
# 只保留review_df出现过的广告
meta_df = meta_df[meta_df['asin'].isin(reviews_df['asin'].unique())]
meta_df = meta_df.reset_index(drop=True)
with open('../raw_data/meta.pkl', 'wb') as f:
pickle.dump(meta_df, f, pickle.HIGHEST_PROTOCOL)

3、对和meta数据进行处理：
def build_map(df, col_name): """ 制作一个映射，键为列名，值为序列数字 :param df: reviews_df / meta_df :param col_name: 列名 :return: 字典，键 """ key = sorted(df[col_name].unique().tolist()) m = dict(zip(key, range(len(key)))) df[col_name] = df[col_name].map(lambda x: m[x]) return m, key # reviews reviews_df = pd.read_pickle('../raw_data/reviews.pkl') reviews_df = reviews_df[['reviewerID', 'asin', 'unixReviewTime']] # meta meta_df = pd.read_pickle('../raw_data/meta.pkl') meta_df = meta_df[['asin', 'categories']] # 类别只保留最后一个 meta_df['categories'] = meta_df['categories'].map(lambda x: x[-1][-1]) # meta_df文件的物品ID映射 asin_map, asin_key = build_map(meta_df, 'asin') # meta_df文件物品种类映射 cate_map, cate_key = build_map(meta_df, 'categories') # reviews_df文件的用户ID映射 revi_map, revi_key = build_map(reviews_df, 'reviewerID') # user_count: 192403 item_count: 63001 cate_count: 801 example_count: 1689188 user_count, item_count, cate_count, example_count = \ len(revi_map), len(asin_map), len(cate_map), reviews_df.shape[0] # print('user_count: %d\titem_count: %d\tcate_count: %d\texample_count: %d' % #(user_count, item_count, cate_count, example_count)) # 按物品id排序，并重置索引 meta_df = meta_df.sort_values('asin') meta_df = meta_df.reset_index(drop=True) # reviews_df文件物品id进行映射，并按照用户id、浏览时间进行排序，重置索引 reviews_df['asin'] = reviews_df['asin'].map(lambda x: asin_map[x]) reviews_df = reviews_df.sort_values(['reviewerID', 'unixReviewTime']) reviews_df = reviews_df.reset_index(drop=True) reviews_df = reviews_df[['reviewerID', 'asin', 'unixReviewTime']] # 各个物品对应的类别 cate_list = np.array(meta_df['categories'], dtype='int32') # 保存所需数据为pkl文件 with open('../raw_data/remap.pkl', 'wb') as f: pickle.dump(reviews_df, f, pickle.HIGHEST_PROTOCOL) pickle.dump(cate_list, f, pickle.HIGHEST_PROTOCOL) pickle.dump((user_count, item_count, cate_count, example_count), f, pickle.HIGHEST_PROTOCOL) pickle.dump((asin_key, cate_key, revi_key), f, pickle.HIGHEST_PROTOCOL)
4、构建数据集
with open('raw_data/remap.pkl', 'rb') as f: reviews_df = pickle.load(f) cate_list = pickle.load(f) user_count, item_count, cate_count, example_count = pickle.load(f) train_set, test_set = [], [] # 最大的序列长度 max_sl = 0 """ 生成训练集、测试集，每个用户所有浏览的物品（共n个）前n-1个为训练集（正样本），并生成相应的负样本，每个用户共有n-2个训练集（第1个无浏览历史），第n个作为测试集。


上一页
1
2
3
4
5
下一页
		  	









这4个国产羽绒服：从不打广告，靠实力碾压加拿大鹅、始祖鸟 世界十大羽绒服 

2018十大年度SUV新车全新比亚迪唐只能排第四第一名还没上市 探歌吉尼斯记录 

十大中国互联网上市公司：腾讯市值超阿里，拼多多追赶美团 中国十大网络公司 

2018年北京市民扑克大赛落幕 麻将大赛吉尼斯记录 

《恶俗》：你被精美的包装和令人心动的广告欺骗过么？ 中国十大恶俗广告 

在2018年贝壳粉十大品牌崭露头角的品牌会是谁家呢？ 世界十大贝壳粉品牌 

钱七虎、徐梦桃等获颁感动中国2022年度人物 感动中国十大人物2018颁奖词 

著名广告导演田春鹏：中国孩子最可悲的是和各种人比。#开封人 中国之最歌曲儿童 

挑战新藏线之二：天上阿里，看最极致的山，最极致的水 中国之最震撼视频 

奥迪广告导演彭杨军被扒，是个抄袭惯犯，已连夜清空微博 中国十大广告导演