2018阿里广告点击率预估模型---DIN，Tensorflow2.0代码实践 _模型

前言
最近看了2018年阿里在KDD上发表的论文《Deepfor Click- Rate 》，想复现下，看了文章给出的开源代码，发现环境是TF1.4的，并且注释太少，有些没大理解【还是太菜了】，因此准备参考原有代码使用TF2.0来对模型进行简单的复现。如果有些地方有些出入或者错误，请大佬们给我指出，感谢【因为现在没服务器，所以没像开源中跑完50个epoch】
数据分析
1、数据集为论文中的，下载并解压：
wget -c http://snap.stanford.edu/data/amazon/productGraph/categoryFiles/reviews_Electronics_5.json.gz gzip -d reviews_Electronics_5.json.gz wget -c http://snap.stanford.edu/data/amazon/productGraph/categoryFiles/meta_Electronics.json.gz gzip -d meta_Electronics.json.gz
其中5.json为用户的行为数据，为广告的元数据。
某单个样本如下：
{"reviewerID": "A2SUAM1J3GNN3B","asin": "0000013714","reviewerName": "J. McDonald","helpful": [2, 3],"reviewText": "I bought this for my husband who plays the piano.He is having a wonderful time playing these old hymns.The musicis at times hard to read because we think the book was published for singing from more than playing from.Great purchase though!","overall": 5.0,"summary": "Heavenly Highway Hymns","unixReviewTime": 1252800000,"reviewTime": "09 13, 2009"}
各字段分别为：
meta某样本如下：
{ "asin": "0000031852", "title": "Girls Ballet Tutu Zebra Hot Pink", "price": 3.17, "imUrl": "http://ecx.images-amazon.com/images/I/51fAmVkTbyL._SY300_.jpg", "related": { "also_bought": ["B00JHONN1S", "B002BZX8Z6", "B00D2K1M3O", "0000031909", "B00613WDTQ", "B00D0WDS9A", "B00D0GCI8S", "0000031895", "B003AVKOP2", "B003AVEU6G", "B003IEDM9Q", "B002R0FA24", "B00D23MC6W", "B00D2K0PA0", "B00538F5OK", "B00CEV86I6", "B002R0FABA", "B00D10CLVW", "B003AVNY6I", "B002GZGI4E", "B001T9NUFS", "B002R0F7FE", "B00E1YRI4C", "B008UBQZKU", "B00D103F8U", "B007R2RM8W"], "also_viewed": ["B002BZX8Z6", "B00JHONN1S", "B008F0SU0Y", "B00D23MC6W", "B00AFDOPDA", "B00E1YRI4C", "B002GZGI4E", "B003AVKOP2", "B00D9C1WBM", "B00CEV8366", "B00CEUX0D8", "B0079ME3KU", "B00CEUWY8K", "B004FOEEHC", "0000031895", "B00BC4GY9Y", "B003XRKA7A", "B00K18LKX2", "B00EM7KAG6", "B00AMQ17JA", "B00D9C32NI", "B002C3Y6WG", "B00JLL4L5Y", "B003AVNY6I", "B008UBQZKU", "B00D0WDS9A", "B00613WDTQ", "B00538F5OK", "B005C4Y4F6", "B004LHZ1NY", "B00CPHX76U", "B00CEUWUZC", "B00IJVASUE", "B00GOR07RE", "B00J2GTM0W", "B00JHNSNSM", "B003IEDM9Q", "B00CYBU84G", "B008VV8NSQ", "B00CYBULSO", "B00I2UHSZA", "B005F50FXC", "B007LCQI3S", "B00DP68AVW", "B009RXWNSI", "B003AVEU6G", "B00HSOJB9M", "B00EHAGZNA", "B0046W9T8C", "B00E79VW6Q", "B00D10CLVW", "B00B0AVO54", "B00E95LC8Q", "B00GOR92SO", "B007ZN5Y56", "B00AL2569W", "B00B608000", "B008F0SMUC", "B00BFXLZ8M"], "bought_together": ["B002BZX8Z6"] }, "salesRank": {"Toys & Games": 211836}, "brand": "Coxlures", "categories": [["Sports & Outdoors", "Other Sports", "Dance"]] }
各字段分别为：
2、首先将原生数据存储的json格式转化为数据流格式，方便读取：
def to_df(file_path): """ 转化为DataFrame结构 :param file_path: 文件路径 :return: """ with open(file_path, 'r') as fin: df = {} i = 0 for line in fin: df[i] = eval(line) i += 1 df = pd.DataFrame.from_dict(df, orient='index') return df reviews_df = to_df('../raw_data/reviews_Electronics_5.json') # 可以直接调用pandas的read_json方法，但会改变列的顺序


上一页
1
2
3
4
5
下一页
		  	









这4个国产羽绒服：从不打广告，靠实力碾压加拿大鹅、始祖鸟 世界十大羽绒服 

2018十大年度SUV新车全新比亚迪唐只能排第四第一名还没上市 探歌吉尼斯记录 

十大中国互联网上市公司：腾讯市值超阿里，拼多多追赶美团 中国十大网络公司 

2018年北京市民扑克大赛落幕 麻将大赛吉尼斯记录 

《恶俗》：你被精美的包装和令人心动的广告欺骗过么？ 中国十大恶俗广告 

在2018年贝壳粉十大品牌崭露头角的品牌会是谁家呢？ 世界十大贝壳粉品牌 

钱七虎、徐梦桃等获颁感动中国2022年度人物 感动中国十大人物2018颁奖词 

著名广告导演田春鹏：中国孩子最可悲的是和各种人比。#开封人 中国之最歌曲儿童 

挑战新藏线之二：天上阿里，看最极致的山，最极致的水 中国之最震撼视频 

奥迪广告导演彭杨军被扒，是个抄袭惯犯，已连夜清空微博 中国十大广告导演