新浪博客

应重视语言文学数据库的建设和共享

2023-05-13 17:30阅读:

应重视语言文学数据库的建设和共享
金振邦

大数据是网络时代的全新媒介,正在全方位渗透进社会的各个领域,成为人们认知事物、解决现实问题的全新的理念、方法和路径。网络时代离开大数据,我们各项工作将寸步难行。尤其在高等教育领域,大数据正在拓展出全新学科视野。具有共享性质的数据库资源,对于我们的学习和实践,具有极其重要意义。这种全新传播媒介,正在引领世界发生翻天覆地的变化。
一、何谓语言文学数据库
数据库:第六媒介。数据库是指存储于特定介质上,一种比特化海量信息集合。数据库属于全新的第六媒介。传统传播媒介主要是指报刊、广播和影视。而网络是第四媒介,随后兴起的流媒体属于第五媒介,手机是典型代表。数据库人们称其为第六媒介。前三种属于传统原子媒介,后三种是比特化新媒介。六种媒介相互重叠、没有截然界线。数据库不仅改变信息传播方式,还将改变人们的生存方式,学习和研究方法。媒介本身就是内容,数据库集合了什么信息并不重要,而这种集合方式,就已包含着全新观念。
J.Martin的定义是:数据库是存储在一起的相关数据集合,它们是结构化的,为多种应用服务;数据的存储独立于使用它的程序;对数据库插入新数据,修改和检索原有数据均能按一种公用和可控方式进行。哈佛大学加里-金认为:这是一种革命,庞大的新数据来源所带来的量化转变将在学术界、企业界和政界中迅速蔓延开来。没有哪个领域不会受到影响。舍恩伯格《大数据时代》认为:大数据信息风暴正在变革我们的生活、工作和思维,开启了重大的时代转型。它将放弃对因果关系的渴求,而取而代之关注相关关系。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流方
式提出了全新挑战。大数据的核心就是预测,将为人类生活创造前所未有的可量化维度。它已成为了新发明和新服务的源泉在各个领域中,决策行为将日益基于海量数据和分析结果,而并非依靠经验和直觉。
我认为更重要的是,大数据新媒介彻底颠覆了传统思维模式,打开了俯瞰世界的认知窗户和浩瀚视野。它站在一个空前制高点上,来审视一个特定个体。传统思维路径总是从个别到一般、从点到面、从局部到宏观,而大数据思维则完全颠覆了这种传统思维方向和路径。它从一般去审视个别、从面去把握点、从宏观去了解局部,这就等于把大脑功能扩展到了网络世界所到之处,大脑简直就是全知全能、潜能无限。这种全新思维的巨大能量,已波及到了各个领域,正在大大加速社会的发展节奏,勾画出时代发展的光明前景。
语言文学数据库。语言文学的范畴极其浩瀚,几乎没有边界。语言文字是一个民族的文化根基,决定了民族的思维方式和认知模式。而文学则是运用文字塑造形象的艺术,是民族文化的灵魂。语言文字几乎可以渗透到人文科学和自然科学的所有领域。语言文学的学科领域和辐射影响极为浩瀚,其意义价值不可估量。任何人都需要语言文学的滋养,它是我们认知世界、与人沟通的重要媒介。语言文学数据库也可以称作汉语言文学专业数据库,除了语言和文学的理论和作品之外,甚至涉及哲学宗教、文化历史、艺术形态、语文教育、新闻传播、音乐影视等。语言文学的视野是任何人必备的人文素养,是一个人的终身根基和底蕴,也是其灵魂所在。
语言文学数据库是一个开放的、没有边界的、不断生长的、充满生命活力的大数据系统。目前建设的规模已经达到10T10000G)容量,远期规模应达到50T以上。语言文学数据库的使用范围,几乎覆盖了所有人群。它的服务对象,不仅包括中文专业的学习、教学和研究人员,还包括广大的中小学语文教师,以及其他热爱中国语言和文学的相关人士,甚至包括爱好者。其使用者涉及文、理、工、商、农、医、法等各类从业者和热爱中国语言文学的业余爱好者。
二、信息价值和传播功能
多学科信息价值。网络时代我们所面临的任何问题,都难以运用单一学科知识来进行处理。因此多学科视野是从事任何每一领域挑战的重要基础。南洋理工大学蔡崇仁认为,“未来一切最好的,例如学校、公司和创意,都不会有人为的划分。未来的特点是打破所有界限,通过多学科研习或经验,促进互补增效作用。”“多元化的事业选择——最专业的领域除外——带来了一个很重要的趋势:一个学生如何修读所选择的科目,比科目本身来得重要。我的意思是说,重要的不是课程内容,而是一个学生在研读课程内容的过程中,最终所获得的核心技能。”它包括思路清晰的读写能力、对数字应付自如、善于利用信息科技和应变能力。网络时代的核心技能还能用一句话加以聚焦,即对信息的处理能力。这是任何一个接受高等教育学生所应具有的基本素质。语言文学数据库的多学科信息,是保证核心技能施展的基础和平台。
跨时空传播功能。传统的原子传播媒介具有时间和空间特征,信息传播受到体积质量和时间流速的限制,从而决定了社会节奏的速度。而网络比特媒介只是一种状态,如01、里和外、上和下等,它把时空压缩为零,并超越了时空限制,信息可借助电子流动瞬间传播,大大加速了社会发展节奏。信息传播从来没有像今天那样如此地神速和快捷。手机传播功能的日新月异,是比特媒介巨大能量的象征。原子和比特媒介的特性,决定了传统社会和网络时代的本质差别。媒介的进步是社会发展的基本动力。现在各个领域的突飞猛进,都无法离开各种数据库的有力支撑。甚至可以说离开了数据库,我们都难以在这个现代化社会中生存。世界上巨大的信息流,我们可以轻而易举地把需要的数据,快速推送到电脑或手机界面。社会发展的快速节奏,常常让我们瞠目结舌、出人意料。我们甚至能把数据库移入电脑或上传云盘,随时随地调用需要的信息。信息的快速流动,给我们各个领域带来了勃勃生机和崭新面貌。
三、框架结构和网络版权
数据库框架结构。下面这张简略图表,可以大致展示出语言文学数据库信息的主要内容框架。如果需要,可以提供具体细目的超级链接。数据库的内容排列不是一种严格的逻辑分类,存在着一定的跨类和重叠,需要使用者各取所需、择取精华。我们只能采用硬盘拷贝设备的特殊技术手段来加以实现。

中文电子图书(161G
万圣书园(72G)
仲媒电子书(10G)pdf电子书(1万本)
国家地理杂志1.3T
经典文集250G
摄影艺术100G
中文工具书10G
学习资源
(20G)
中外文学(300G)
教学录像(100G
照片资料
10G
哲学宗教历史 100G
综合书库
(200G)
中外电影1T
音乐歌曲35G
前沿信息20G
社科经典300G
新媒介艺术
(10G)
游戏精粹(5G
外国电视剧1.5T
视觉世界110G
语文教育
古诗词朗诵80G
经典视频
14G
实用软件26G
Flash荟萃(9G
BBC纪录片(1.8T)
国外大学
开放课程35G
办公自动化25G
写作与阅读
20G
工具类资源36G
金振邦教学
科研资料
2T





















数据库网络版权。关于数据库的版权,目前学术界还存在不同的观点,我们应更新理念,遵循世界上多数认可的网络版权规则。新媒介带来了全新的版权观念,对传统的纸质版权是一种冲击和颠覆。从传播学的视野来看,书籍、论文和文学作品的版权,与传播介质的特性息息相关。对于原子纸质媒介的信息,世界各国都有成熟的版权规则,其中很重要的一点就是出版者和读者都需要付费购买。然而比特媒介的信息可以无限制复制,其阅读、存储和复制是否还能沿用原子世界的传统版权呢?目前部分网站下载资料和全文阅读都要收费,这对作品原作者和读者都是极不公平的。那些已经失去版权保护年限的作品来说,网络上的使用应不会存在问题。而对新作品的网络刊登和阅读,作者常常存在不同看法。数据库信息的传播似乎面临同样的问题。我认为应提倡作家和学者无偿奉献自己的作品,它们在网络上的的广泛传播,其潜在价值和影响范围难以想象,必将远远超越传统纸质媒介,这是后者所望尘莫及的。
如果个别作家或学者对于自己作品上网有异议的话,完全可以根据其要求撤下其作品。但他不能对大数据库的空间提供者或责任人发难。根据国际上互联网“避风港原则”,在发生著作权侵权案件时,网络服务提供商(ISP)只提供空间服务,并不制作网页内容,如果ISP被告知侵权,则有删除义务,否则就被视为侵权。如果侵权内容既不在ISP服务器上存储,又没有被告知哪些内容应删除,则ISP不承担侵权责任。后来这个原则也被应用在搜索引擎、网络存储、在线图书馆等方面。它具体包括两部分:通知+移除。但是,作为一个共享网络信息的作家和学者,他应该也有义务向网络无偿提供自己的作品和著作,而不是一味地从网络上获取。在网络上过分强调自己作品的版权利益,这种观念现在已经滞后于时代。
四、无偿共享和媒介技术
信息共享:网络新理念。创新、协调、绿色、开放、共享,是我们国家现代化建设的五大发展理念。而共享是其中之一,是网络时代的核心和基石。网络信息的免费、共享,是新媒介时代的必然趋势。这也是专业大数据库建设的基本原则和出发点。国内外大型专业数据库、博物馆、图书馆都纷纷免费开放、提供下载,就已经展示了共享理念的强大生命力。我在200811月刊登在东北师范大学校报上面的一篇文章,信息获取权:衡量社会改革的重要尺度,谈的就是信息共享问题。其中说到学术信息共享问题:过去教师进行教学和科研,学术资料的获取十分艰难。这项工作常受制于学校图书馆规模、期刊订阅数量,以及自己藏书多少。然而,随着网络媒介的延伸,专业信息的数量和体积,已不再成为衡量学术水平的尺度,教师的功能不再是单纯传播专业知识,而已转化为向学生提供教学咨询和治学方法。通过网络可以轻易搜索到所需要的专业资料。尤其是专业数据库这第六媒介的迅猛发展,人们大脑已延伸到世界上各个大学的图书馆和教学现场。不同层次的教育教学工作,开始提升到一个新的水平和层次。
媒介技术:助力共享潮。语言文学数据库的建设目的,是为了能够让每一个需要这类数据的人士实现共享,即把需要的信息存储到使用者的移动硬盘上。而绝不是仅仅为一个单位或一个人进行传统方式拷贝。为此,不能采用传统硬盘USB接口来进行复制,这样操作劳民伤财、有较大风险。硬盘拷贝内容可参考数据地图的具体信息,依据使用者特定需求进行定制,或通过网络数据库进行新资源下载,来满足大家特定需要。有需求者,可以进一步给大家提供每一部分具体信息内容的超文本链接。需求者可加作者微信号13843080174
拷贝的目标硬盘,应是不带硬盘盒的裸盘。可以是2.5寸或3.5寸规格,但必须是SATA接口,而不能是IDE接口。见下图:
应重视语言文学数据库的建设和共享


支持SATA接口 不支持IDE接口

硬盘拷贝的具体方法和步骤如下:从“语言文学大数据地图”中选择需要的1T-6T具体数据。有其他特殊需求的,则需要另行制作。拷贝者需要提供目标硬盘,它须等于或大于特定制作的数据母盘。目标硬盘的原有信息必须拷贝移除。硬盘拷贝时会对目标硬盘进行格式化。使用者如果需要1T以下的少量特定数据,可使用传统USB接口进行复制。1T以上的信息复制,则需要通过硬盘拷贝机来进行操作。我建议可以先进行2T4T硬盘拷贝,以后再扩大至6T8T容量的拷贝。运用硬盘拷贝机进行信息复制,一般经过学习和操作很容易上手,但数据的收集筛选和分类编辑具有一定的难度,它会涉及到数据库建设的理念、信息的分类和归类,以及对敏感资料的处理等。







我的更多文章

下载客户端阅读体验更佳

APP专享