这样,每个首字下的词频统计结果单独使用一个文本文件保存,文本文件中包括:本文件的行数,按行保存的词频统计结果。
每行长度固定,从1到12字节为关联字组第二到第七字,无字部分保留空格,第13到第25字节为词频数,第26到第30字节为保留部分,空格填充。
文本文件起始时16行,去掉行信息为15行,按楼下娱乐题中所述方法填充文件,当出现所介于值的所属行相邻时,进行分散,生成一个二倍行数的空文本文件,将当前文件按二倍行数分散写入。
暂时先这样吧。
楼下的诸位达人,文本模拟数据库的索引性能太差了,5555
娱乐题