我发现Gadio官方一共分了有20多个类,那如果一个一个配对的话就是。。。应该。。。反正很多就对了。所以最后想到了采取这种拖放的形式,直接把上面的标签拖下来放到位置就可以了。(这种形式也算还有了点交互)值得注意的是:如果您是移动端的话,需要长按标签,等到它变成了一个黑块的时候,再拖放即可。
也很简明,首先把2300多期Gadio按官方分类方法分成20多类,然后每个电台的所有文本求一个平均向量A,再把这一类里面的所有的文本求一个平均向量B。那么每期节目都有了一个代表自己特征的A,每个类别也有了一个代表性向量B。
剩下的就是用A和B之间排列组合比对就好了。用的依然是余弦距离,结果里出现的“距离”是数字越小表示相似度越高。
平均节目:是距离该类的平均向量距离最近的节目
离谱节目:是距离该类的平均向量距离最远的节目(注意这个是倒排的,最远的在最后)
好吧,此处危险,最冒犯的就是“最不Pro的Pro节目”了。(捂脸)不过其实因为距离平均值最远,其实只意味着“最不典型”,换句话说叫”出头鸟“,那么这个出头鸟到底是菜的出头还是锋芒难掩,还真不一定。
但是该说不说,红旗下的车轮《第四章》这期节目作为倒数第一,比倒数第二距离类型平均的距离整整翻了一倍!(而且之前的粗略聚类分析里,这个节目也总是自己孤独地被分成一类)如果真的不是程序出错了,我是真的太好奇这期节目里到底谈论了什么。。。有空一定要去听一听。
说到这,就不得不提到这个“平均”和“离谱”的叫法,非常精彩,不是我发明的,是一个B站Up,文末给各位贴上链接。他用这一路方法研究了近几年的流行音乐,然后得到了一个非常情理之中却意料之外的结果,值得一看。
然后就是很显眼的那么几个历史遗留标签,比如”会员专享“这个标签只有一期节目。。。还有就是历史原因分错类的,比如《魔兽世界故事》有好几个篇都是分到Pro里的(这个可以看上方的认亲环节结果)不知道这个事情有没有必要整理一下,虽然都是过去的节目了。。。
而且,关于这个还有一个点充分显示出了这种向量方法的鲁棒性,因为既有的平均向量也是包括了这些分类模糊的节目的,依然还是表现出了相当程度的合理性,还算不错。如果分类都纠正了或许效果会更好吧。(而且我发现早年间的Pro真的是非常的。。。“啥都有”,又冒犯了,捂脸)
还是回去研究聚类了。然后准备把站内文章也研究研究。
另外后面的更新时间不一定啦,感觉过年期间要开始集中搞一下这个建筑师的自动化案例研究工具。就这个(心心念念)↓
也是跑个题,这个 (希望)能自动帮助建筑师一键完成案例研究的工具年后准备来一波内测,诚邀有兴趣参加内测的同胞私信联系我!!(正事儿)
评论区
共 25 条评论热门最新