搜索
首页 其他

大数据分析宋词

1.怎么看待清华附小的学生用大数据分析苏轼的诗词

苏轼的好友张先,年逾80,娶一18岁美貌少女为妾。

苏轼遂作诗曰“十八新娘八十郎,苍苍白发对红妆。鸳鸯被里成双夜,一树梨花压海棠。”

梨花是白色的,而海棠鲜红娇嫩,暗指一个白发老者娶一少女为妻。其中“压”字用得巧妙暧昧

北宋著名词人张先,在80岁时娶了18岁的一个美女为妾。当时和他在论坛上常有诗词唱 和的著名词人苏轼和众多词友去拜访他,问老前辈得此美眷有什么感想,张先于是随口 念道:“我年八十卿十八,卿是红颜我白发。

与卿颠倒本同庚,只隔中间一花甲。” 风趣幽默的苏东坡当即和了一首打油诗: “十八新娘八十郎,苍苍白发对红妆。

鸳鸯被里成双夜,一树梨花压海棠。”。

2.怎么看待清华附小的学生用大数据分析苏轼的诗词

苏轼的好友张先,年逾80,娶一18岁美貌少女为妾。苏轼遂作诗曰“十八新娘八十郎,苍苍白发对红妆。鸳鸯被里成双夜,一树梨花压海棠。”梨花是白色的,而海棠鲜红娇嫩,暗指一个白发老者娶一少女为妻。其中“压”字用得巧妙暧昧。

北宋著名词人张先,在80岁时娶了18岁的一个美女为妾。当时和他在论坛上常有诗词唱

和的著名词人苏轼和众多词友去拜访他,问老前辈得此美眷有什么感想,张先于是随口

念道:“我年八十卿十八,卿是红颜我白发。与卿颠倒本同庚,只隔中间一花甲。”

风趣幽默的苏东坡当即和了一首打油诗:

“十八新娘八十郎,苍苍白发对红妆。

鸳鸯被里成双夜,一树梨花压海棠。”

3.利用统计学写宋词可能吗

随便输数字 就可“写宋词” 统计学研究生挖掘99个高频词汇编号码 武大博导说,这只是一个文字游戏 一位学习统计学的网友,利用所学将《全宋词》中出现的99个“高频词汇”统计出来,发在博客上。

没想到,这篇博文很快就被大量转载,并有网友利用这些高频词汇重新“写词”。圆周率、生日、身份证号码都可以组成一首形式上的“宋词”。

在江汉大学刚刚举办的“诗词吟诵暨诗歌大赛颁奖会”上,不少学生讨论这个话题。真的存在网友说的“自动写词机”吗?记者展开采访调查。

《全宋词》中的99个高频词汇 话题的“始作俑者”是一位学习统计学的研究生,网名“yixuan”,他在博客上发表一篇文章:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。”

宋词的句子都很短,最常见的词语一般是两三个字,这样可能的组合就更少了。比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。

“yixuan ”统计出99个《全宋词》中的高频词汇。排在前面的依次为“东风(1382次)、何处(1230次)、人间(1202次)、风流(857次) 、归去(812次、)春风(802次)、西风(779次)、归来(771次)、江南(765次)。

“yixuan ”的这篇博文一发出来,很快就被另外一家网站转载,大量网友被这个有趣的话题吸引,纷纷发帖评论。 高频词汇被演绎成“自动写词机” 在大量评论后面,一位名叫“达芬奇的鸡蛋”发现,利用这些“高频词汇”的代码,可以随意拼凑出一首首宋词来。

比如用“圆周率”的数字排序,结果就是:回首明月(一看就是抒情诗) 悠悠心事空 西湖何事寂寞中 风吹斜阳匆匆 芳草平生斜阳 风吹寂寞今日 一枝富贵年年 断肠长安不知 一时间,众多网友用自己的身份证号码、各种数字组合来“写宋词”。如网友“叶绿彘”的“作品”是:“东风何处?人间风流。

归去春风,西风归来。江南相思,梅花千里。

回首明月,多少如今?阑干年年万里,一笑黄昏当年……” 记者用多位同事的身份证号码、生日号码等,套用这些代码,果然也能产生出一首首有模有样的“宋词”。 原意不是为了“写词” 看 到帖子被大量转发,“yixuan ”在自己的博客上又写了一篇解释,他说,“自动写词机”并不是我的创意,也不是我的初衷。

“yixuan ”说:“我学的专业是统计和精算,平时会和各种类型的数据打交道,之前写那篇博文也是出于兴趣,想利用学到的专业知识来对一些实际问题进行分析。” 他说,很多人肯定都会提到“自动写词机”,就比如拿生日、QQ、物理常数等套用里面的排序来“写词”。

但我想说的是,这其实不是我的创意,也不是我写那篇博文的初衷。如果大家看过那篇转帖,就会发现大家开始“狂欢”是因为“达芬奇的鸡蛋”的创意,而词频统计本身并没有任何特殊之处。

事实上,大家可能听说过“文本挖掘”这个名词,它就是对文本数据进行分析,来得到有用的结论。文本挖掘是个很复杂的过程,牵涉到分词、词频统计、特征选择、聚类等等,如果大家对这一块内容有所了解的话,就会知道词频统计是一个很平凡的过程。

“yixuan”说:可能有些朋友觉得我得到宋词的词频是一件技术含量很高的活儿,但从技术层面上来讲,我做的那些东西也并无任何高级之处(当然需要有一些编程经验)。 只是一个文字游戏 这99个“高频”词汇真的有那么神奇?昨天,武汉大学文学院博导王兆鹏教授看了后评论说:“这只是一个文字游戏”。

王兆鹏说,汉语语言中,诗词的语序不需要确定性,同时汉语语言具有多义性。很多词语组合起来,都可以说得通。

比如我们说“吃饭”大家能听懂,但说“饭吃”,也能理解是怎么回事。 从严格意义上说,通过这99个编码做成的“词”,平仄完全不符合要求,也不符合词牌的要求。

但形式上挑不出什么毛病,也有一点词的味道。 王兆鹏说,宋词是一种文学艺术,讲究独创性和意境,读者通过读诗词能够看到里面的意境,这是艺术。

“如果写词这么容易,那谁都可以写词了。” 不过,王兆鹏也认为“yixuan ”的做法很有创意,“能从这么多词中总结出99个高频词汇,是需要花功夫的,也说明这个学生很努力,这是一个比较高级的文字游戏,虽然谈不上有什么文学意义。”

中南财经政法大学统计与数学学院博导李占风教授说,利用统计学原理确实可以在诗词等文学作品中,做一些研究工作,这位学生学以致用,值得表扬。

4.请简要说明“大数据”一词中“大”的含义

大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产[1]

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[2] 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

大指以下几点

容量大(Volume)

种类多(Variety)

速度快(Velocity)

可变性高(Variability)

复杂性高(Complexity)

价值大(value)

5.有什么分析起来很精彩的唐诗宋词

唐诗要看李白、杜甫、白居易等;宋词看两派,以苏轼为代表的”豪放派“和以李清照为代表的”婉约派”。

赤壁怀古(苏轼)大江东去浪淘尽,千古风流人物。故垒西边,人道是三国周郎赤壁。

乱石穿空,惊涛拍岸,卷起千堆雪。江山如画,一时多少豪杰。

遥想公瑾当年,小乔初嫁了,雄姿英发,羽扇纶巾,谈笑间,樯橹灰飞烟灭。故国神游,多情应笑我,早生华发,人生如梦,一樽还酹江月。

李清照的”冷冷清清凄凄常常戚戚,乍暖还寒时节,最难将息,三杯两盏浅酒,怎敌他晚来风急。雁过也,正伤心,却是旧时相识。”

作文大全
总结报告
演讲致辞
心得体会
领导讲话
党建材料
常用范文
应用文档
论文中心
推荐购买
范文 | 名句 | 成语 | 杂谈 | 词典 | 字典 | 拼音 | 谜语 | 拆字 | 造句 | 诗词上一句 | 诗词下一句 | 名字赏析 | 其他 | 天气诗词 | 热门搜索 Copyright © 湘ICP备17014254号-2