Ignore:
Timestamp:
2019-12-18T21:38:44+13:00 (4 years ago)
Author:
ak19
Message:

With the bugfix from yesterday and the inclusion of http(s):mi.* type URLs in setting the Websites mongodb collection's urlContainsLangCodeInPath property, and updated/improved mongodb queries and their results I have now regenerated the latest geojson json data and maps.

File:
1 moved

Legend:

Unmodified
Added
Removed
  • other-projects/maori-lang-detection/mongodb-data/counts_allCrawledSites.json

    r33811 r33813  
     1/*
     2Num websites:
     3db.getCollection('Websites').find({}).count()
     4= 1445
     5
     6Num webpages
     7db.getCollection('Webpages').find({}).count()
     8= 117496
     9
     10Count of country codes for all sites:
     11db.Websites.aggregate([
     12   
     13    { $unwind: "$geoLocationCountryCode" },
     14    {
     15        $group: {
     16            _id: "$geoLocationCountryCode",
     17            count: { $sum: 1 }
     18        }
     19    },
     20    { $sort : { count : -1} }
     21]);
     22*/
     23
    124/* 1 */
    225{
    326    "_id" : "US",
    4     "count" : 686.0
     27    "count" : 696.0
    528}
    629
     
    831{
    932    "_id" : "UNKNOWN",
    10     "count" : 171.0
     33    "count" : 173.0
    1134}
    1235
    1336/* 3 */
    1437{
     38    "_id" : "CN",
     39    "count" : 125.0
     40}
     41
     42/* 4 */
     43{
    1544    "_id" : "NZ",
    16     "count" : 128.0
    17 }
    18 
    19 /* 4 */
    20 {
    21     "_id" : "CN",
    22     "count" : 124.0
     45    "count" : 115.0
    2346}
    2447
     
    4467{
    4568    "_id" : "NL",
    46     "count" : 31.0
     69    "count" : 32.0
    4770}
    4871
     
    5073{
    5174    "_id" : "CA",
    52     "count" : 21.0
     75    "count" : 19.0
    5376}
    5477
     
    6184/* 11 */
    6285{
     86    "_id" : "DK",
     87    "count" : 10.0
     88}
     89
     90/* 12 */
     91{
    6392    "_id" : "JP",
    6493    "count" : 10.0
    6594}
    6695
    67 /* 12 */
    68 {
    69     "_id" : "DK",
    70     "count" : 10.0
    71 }
    72 
    7396/* 13 */
    7497{
     
    79102/* 14 */
    80103{
     104    "_id" : "RU",
     105    "count" : 7.0
     106}
     107
     108/* 15 */
     109{
     110    "_id" : "HK",
     111    "count" : 7.0
     112}
     113
     114/* 16 */
     115{
    81116    "_id" : "CZ",
    82117    "count" : 7.0
    83118}
    84119
    85 /* 15 */
    86 {
    87     "_id" : "RU",
    88     "count" : 7.0
    89 }
    90 
    91 /* 16 */
    92 {
    93     "_id" : "HK",
    94     "count" : 7.0
    95 }
    96 
    97120/* 17 */
    98 {
    99     "_id" : "IT",
    100     "count" : 5.0
    101 }
    102 
    103 /* 18 */
    104 {
    105     "_id" : "SE",
    106     "count" : 5.0
    107 }
    108 
    109 /* 19 */
    110121{
    111122    "_id" : "UA",
     
    113124}
    114125
    115 /* 20 */
     126/* 18 */
    116127{
    117128    "_id" : "IE",
     
    119130}
    120131
     132/* 19 */
     133{
     134    "_id" : "SE",
     135    "count" : 4.0
     136}
     137
     138/* 20 */
     139{
     140    "_id" : "IT",
     141    "count" : 4.0
     142}
     143
    121144/* 21 */
    122145{
     146    "_id" : "RO",
     147    "count" : 3.0
     148}
     149
     150/* 22 */
     151{
     152    "_id" : "SG",
     153    "count" : 3.0
     154}
     155
     156/* 23 */
     157{
     158    "_id" : "AT",
     159    "count" : 3.0
     160}
     161
     162/* 24 */
     163{
     164    "_id" : "CH",
     165    "count" : 3.0
     166}
     167
     168/* 25 */
     169{
     170    "_id" : "IL",
     171    "count" : 3.0
     172}
     173
     174/* 26 */
     175{
    123176    "_id" : "IN",
    124177    "count" : 3.0
    125178}
    126179
    127 /* 22 */
    128 {
    129     "_id" : "CH",
    130     "count" : 3.0
    131 }
    132 
    133 /* 23 */
    134 {
    135     "_id" : "IL",
    136     "count" : 3.0
    137 }
    138 
    139 /* 24 */
    140 {
    141     "_id" : "AT",
    142     "count" : 3.0
    143 }
    144 
    145 /* 25 */
    146 {
    147     "_id" : "RO",
    148     "count" : 2.0
    149 }
    150 
    151 /* 26 */
     180/* 27 */
     181{
     182    "_id" : "PL",
     183    "count" : 2.0
     184}
     185
     186/* 28 */
     187{
     188    "_id" : "ZA",
     189    "count" : 2.0
     190}
     191
     192/* 29 */
     193{
     194    "_id" : "VG",
     195    "count" : 2.0
     196}
     197
     198/* 30 */
    152199{
    153200    "_id" : "CK",
     
    155202}
    156203
    157 /* 27 */
    158 {
    159     "_id" : "VG",
    160     "count" : 2.0
    161 }
    162 
    163 /* 28 */
    164 {
    165     "_id" : "ZA",
    166     "count" : 2.0
    167 }
    168 
    169 /* 29 */
    170 {
    171     "_id" : "PL",
    172     "count" : 2.0
    173 }
    174 
    175 /* 30 */
     204/* 31 */
     205{
     206    "_id" : "BG",
     207    "count" : 1.0
     208}
     209
     210/* 32 */
     211{
     212    "_id" : "PF",
     213    "count" : 1.0
     214}
     215
     216/* 33 */
     217{
     218    "_id" : "IO",
     219    "count" : 1.0
     220}
     221
     222/* 34 */
    176223{
    177224    "_id" : "GR",
     
    179226}
    180227
    181 /* 31 */
     228/* 35 */
     229{
     230    "_id" : "MX",
     231    "count" : 1.0
     232}
     233
     234/* 36 */
     235{
     236    "_id" : "TR",
     237    "count" : 1.0
     238}
     239
     240/* 37 */
     241{
     242    "_id" : "ME",
     243    "count" : 1.0
     244}
     245
     246/* 38 */
    182247{
    183248    "_id" : "FI",
     
    185250}
    186251
    187 /* 32 */
    188 {
    189     "_id" : "ME",
    190     "count" : 1.0
    191 }
    192 
    193 /* 33 */
     252/* 39 */
     253{
     254    "_id" : "EU",
     255    "count" : 1.0
     256}
     257
     258/* 40 */
     259{
     260    "_id" : "IR",
     261    "count" : 1.0
     262}
     263
     264/* 41 */
    194265{
    195266    "_id" : "PT",
    196267    "count" : 1.0
    197268}
    198 
    199 /* 34 */
    200 {
    201     "_id" : "IR",
    202     "count" : 1.0
    203 }
    204 
    205 /* 35 */
    206 {
    207     "_id" : "EU",
    208     "count" : 1.0
    209 }
    210 
    211 /* 36 */
    212 {
    213     "_id" : "TR",
    214     "count" : 1.0
    215 }
    216 
    217 /* 37 */
    218 {
    219     "_id" : "MX",
    220     "count" : 1.0
    221 }
    222 
    223 /* 38 */
    224 {
    225     "_id" : "IO",
    226     "count" : 1.0
    227 }
    228 
    229 /* 39 */
    230 {
    231     "_id" : "PF",
    232     "count" : 1.0
    233 }
    234 
    235 /* 40 */
    236 {
    237     "_id" : "BG",
    238     "count" : 1.0
    239 }
    240 
    241 /* 41 */
    242 {
    243     "_id" : "SG",
    244     "count" : 1.0
    245 }
Note: See TracChangeset for help on using the changeset viewer.