Beklenen (!) araştırma günlüğü geldi çattı.

En son araştırma günlüğümün üzerinden beş ay geçti. Beş ayda neyi başardın derseniz bir şey diyemem.

Beş ayda hiçbir projeyi bitiremedim. Ne bitirmesi, yol bile katedemedim. İnanılmaz değil mi? Uzaktan gerçekten inanılmaz gözüküyor. Bu "Araştırma Günlüğü" görünümlü "Bahane Günlüğü" yazısında bunun neden böyle olduğunu açıklayacağım.

*

Aslında cevap çok basit: her şeyin yöneticisi benim.

Yapacağım işle ilgili makaleleri ben araştırıp bulup okuyorum. Hoca bu 5 ayda toplam 5 tane falan makale atmıştır herhalde. Tersine bazen ben ona yeni ve ilginç olaylardan bahsederim de "Aaa bunları nereden öğreniyorsun yau." diye şaşırır.

Veri çekmek lazım olur, o da ben de. Veri çekmek için labın içinde bir platform var ama sadece tweet çekebiliyor ve nasıl çekiyor belli değil. Hoca Ukrayna'da çalışan fakirlere yaptırmış programı. Mail atıyorum adamlara cevap vermiyorlar.

Yeni proje önerisiyle geliyorum, hoca kafa sallıyor. İyi yap bakalım ilginçmiş.

Özetle neredeyse sınırsız özgürlük ama neredeyse sınırsız da sorumluluk var. Böyle olunca bir şeye odaklanıp hemen yapıp bitirme olayı diye bir şey olmuyor.

Sorumlulukların fazla olmasından daha önemli bir sorun da şu ki yaptığım projelerde her şeyin girişik olması. Bir problemi çözeceğim diye yola çıkıyorum ama o problem başka problem doğuruyor, o problem de yeni makaleler okumak gerektiriyor, yeni data toplamak gerektiriyor. Bitmiyor ki.
Yazının sonunda bunu örneklerle açıklayacağım.

Bir de üzerine kontratta yazana göre çalışma saatlerimin %20'sini almasını gerektiren ama %50'sini alan bir dersin asistanı oldum. Lanet.

Tüm bunların üzerine sorulacak soru: E sen nasıl barınıyorsun orada? Hoca olağanüstü bir sabır gösteriyor bir kere. 3.5 senedir burada olup paperı olmayan bir eleman var labta. Çocuk tırsıyor. İyi bari yalnız değilmişim.

Bir de olayları yanlış anlamışım. Makale öyle ha diyince basılmıyor. Bir proje yap, bas, öbürüne geç değilmiş olay. Henüz benimle benzer işi yapıp da tek başına paper çıkaran bir öğrenciye rastlamadım. Hatta birkaç kişi çalışıp çıkaramayanlar da var. İş garantisi olan, dolayısıyla acelesi olmayan hocalar genelde "Geç olsun güzel olsun." kafasında. Benimkisi gibi.

*

Eylül - Aradığınız State of the Art'a Ulaşılamıyor



Proje karmaşıklaştığı, aynı anda birkaç proje yaptığım ve her gün napıyorum diye rapor tutmadığım için bunu yazmak zorlaştı. Kısaca ve minimum teknik bilgiyle özetlemeye çalışacağım.

Önceki yazıları okumayan tembeller için özet: Twitter verisi kullanarak Twitter kullanıcılarını politik görüşüne göre sınıflandırmaya çabalıyor(d)um. Bunun için hocanın kendi önerdiği bir algoritmayı kullanıyorum ve bu algoritmanın ne kadar süper lan!1!!! olduğunu ispatlamaya çalışıyorum.

Bu projeye geçen sene eylülde başladım ve hala bitiremedim. En son yazın yaptığım sunumumda algoritmayı anlatıp sonuçları gösterdim. Postdoclar haklı olarak “Ama diğer algoritmalarla karşılaştırman lazım.” dediler. Yani "State of the Art" (son teknoloji) denilen ve aynı işi yapan son çıkan algoritmaları bulacağım, bunları kodlayacağım, sonuçları basıp kendi sonuçlarımla karşılaştıracağım ve bizimki alır artık state of the art diyeceğim. Ama o o kadar kolay değil işte.

İlk sıkıntı şuydu: bu algoritmaları yazmak çok zordu. Makaleyi yayımlayanlar maillere dönmüyorlardı, bildiğin kaçıp gitmişlerdi. Sorsan bunlar bilim yaptı. Hey Allah'ım... Ya da algoritmayı çalıştırmak için çok fazla ekstra veri gerekiyordu. Tabii kimse bu tip veriyi ulu orta paylaşmıyordu, maille paylaşacakları bile belli değildi. (Nitekim paylaşmayanlar da oldu.)

Ayrıca aynı işi yapan milyon tane algoritma vardı. Hangi birini seçecektim?

Yardımıma okuldaki başka bir araştırmacı yetişti. Adam da aynı yoldan geçmişti. O zor dediğim algoritmayı kendi yazmıştı, kodu da bana attı (gerçi çok kötü yazmış). Tekrar üretmesi vakit ve veri gerektiren algoritmaların da sonuçlarını direkt bana verdi. Elimde birden 4 tane algoritmanın sonuçları birikti. Hali hazır da kendi yazdıklarımla birlikte 6 oldu hatta, bir de bizimkisi 7. E bu yeter herhalde.

En zor kısma gelelim, nasıl anlayacağız hangi algoritmanın daha iyi olduğunu? "Ground truth" denilen doğruluğu varsayılan bilgi lazım. Trumpçı mı değil mi ona karar verdiğimiz A kişinin gerçekte neci olduğunu bilmemiz lazım.

Biz bu A kişisinin neci olduğuna retweet verisiyle karar veriyoruz. Hocaya diyorum bunlardan bağımsız ve başka bir veride (yani retweet olmayan veride) çalışan, sonuçlarına emin olduğumuz bir yöntemle test edelim. Örneğin "Trump çok yaşa!" cümlesini içeren tweetleri olanların hepsini bulan algoritmayı birinci seçelim. (Bu kadar basit değil tabii, ama yine de şimdi bakıyorum bu çok yanlış bir yöntem.) Hoca diyor ama bu dediğin de ayrı bir sınıflandırma algoritması. Hoca haklı.

Diyorum politikacıları kullanalım. Onların neci olduğu zaten belli. Olmaz yüz tane politikacının görüşleri tüm ülkeyi temsil etmez. Yine haklı.

O zaman crowdsourcing yapalım, internette örnek Twitter hesaplarını gösterelim insanlara soralım bunlar neci. Sorulara verilen cevapları hangi algoritma tutturursa onu birinci seçelim.
Hoca diyor olmaz beş yüz tane hesap ve onlara bakanların görüşlerine göre iş yapamayız.

E o zaman neye göre iş yapıcaz dümbük. Bunu dediğim günden beri işsizim, seneye Bilkent'te mastıra başlıyorum.

*

Hoca bana şu öğüdü verdi: iki algoritmanın anlaşmadığı veriye kendin bak, hangi algoritma iyi kendin bul. Ok.

Dolayısıyla ay sonu veri okumakla geçti.

Ekim - Bir Son Teslim Tarihini Daha Hiçbir Şey Teslim Etmeyerek Savuşturduk


Algoritma tamam, deneyleri yaptık, önceki algoritmalarla karşılaştırdık bunun için 200 tane gerizekalının "Trump ne kadar süper lan!!11!" içerikli tweetlerini okumam gerekti. Ama sonuçlar güzel, algoritma harbiden iyi.

Peki bu algoritma ne işe yarayacak? Dedim ben bu algoritmayla Twitter'daki trollerin gerçek tarafını buluyorum (harbiden de öyleydi) ve algoritma hızlı olduğundan anında yakalıyorum hepsini. (Troll olayını şu yazının başında açıklamıştım. İleride detaylı bir yazı yazacağım.) Bir de aslında herkesin neci olduğu daha ilk tweetten çıkıyor meydana, aslında algoritmaya bile gerek yok ahaha. Neyse. Sundum bunu hocaya. “Tamam yeterli bundan makale çıkar.” dedi. Yaz makale dedi.

Makaleyi yazarken bir şey fark ettim. Bizim algoritmanın işleyişi önceki algoritmalardan birine çok benziyordu. Ama sonuçlar çok farklıydı. Ama nasıl olur? Hazır kod kullanıp oluşturmuştum bu benzer algoritmanın sonuçlarını. (Bilenler için: scikit learn kütüphanesi, yani güvenilir olması gerek.) Algoritmayı kendim yazdım. Sonuçlar da neredeyse aynı çıktı. Çok güzeeeel...

Bu dediğim algoritma 2000 yılından kalma eski ve basit bir algoritmaydı ve çalışması için de fazla veri gerekmiyordu. Bunun oldukça sofistike gözüken ve fazla veri kullanan, bir sürü atıf almış bir algoritmayla aynı sonuçları vermesi benim gözümde büyük bir şakaydı.

Yazdığım makaleyi değiştirdim, eleştiri makalesine çevirmeye çalıştım. Bakın biz azıcık veriyle 2000'den kalma algoritmayla aynı sonuçları bulabiliyoruz. Ne gerek vardı o kadar uğraşmaya minvalinde bir yerler yazdım.

Reis baktı makaleye. “Bunda daha çok iş var." dedi.

"Öncelikle “ground truth”’un yok dedi.

Hocaya söylemeye çalıştım "Hocam artık bu bir sınıflandırma makalesi değil, benim yaptığım şey çok basit bir algoritmayla çok sofistike bir algoritmanın aynı sonuçları verdiğini gösterip diğer makaleleri eleştirmek." Ama anlatamadım. "Evladım niye eleştiriyorsun ne gerek var." falan dedi. Adam da haklı.

Ama hala algoritmaları hangi ground truth'a göre karşılaştıracağımız belli değil. O öyle kaldı. Haha.

Sonra “User classification” gibi sözler kullanmışsın, bunlar kanunlara aykırı olabilir dedi. Ya iyi de bu konuda çıkmış binlerce makale var yazarları hapiste mi bunların? Bu çıkışı hocaya yapamadım tabii, yemedi. (Ama sonra sordum hocam bunları herkesi yapmış biz niye yapamıyoruz, hoca İsviçre kanunları farklı dedi. Bunu unutmuşum tabii.) Ben senin projen için önce etik kuruluna bir danışmam lazım dedi.

Makalenin teslim tarihine bir hafta vardı. “Hocam öbür teslim tarihi 15 Ocakta. Çok var. Uğraşalım yazalım şunu.” falan dedim. “Yav acele etme yazdın mı güzel olsun dedi. Tamam dedim canıma minnet.

Şu önceki algoritmanın benzer sonuçlar vermesini anlattım. Algoritmayı da anlattım. (Bilmemesi de ilginç çünkü verdiği dersle de alakalı. Öğrettim, dersin müfredatına koydu asdas.)  "Evet benim algoritma buna çok benziyormuş. Ama bizde ekstradan bla bla var." dedi ama o an proje benim için bitti. Çünkü projenin bir devrim yapamayacağı artık aşikardı. Yeni bir şey bulmalıydım.

Bu arada makaleni de okudum, yazılı yorumlarımı göndereceğim dedi. Şubat ayına geldik hatırlatmama rağmen hala göndermedi...

Kasım - Ayın Analizi




Ben de astronomiye sardım ve ayın evrelerini analiz etmeye başladım. Bu kötü espiriden sonra koca ayda yaptığım tek şeyi açıklayayım: hocanın 5 ay önce verdiği veriyi analiz ettim.

*

Kasımda bu projeye üç haftalık bir ara verdim çünkü bıkmıştım artık deney yapmaktan. Bahanem de şuydu:

"Algoritmanın sonuçlarını Amerika verisi, Türkiye verisi ve İsviçre verisiyle test ettik. Fakat bu sofistike dediğim ve ekstra veri gerektiren algoritmayı Türkiye ve İsviçre verisinde test etmem lazım. En iyisi bunun için gereken veriyi çekeyim. Sonra algoritmayı da kendim yazayım, her ne kadar zor da olsa ve Python değil R'da yazılmış olsa da, sonra çalıştırayım ve bekleyeyim." Bu da epey zamanımı aldı ve şimdi bakıyorum da her şey çok gereksizdi.

Bunları yapıp labın sunucusuna atıp çalıştırıp sonuçları beklerken yeni bir şey yapayım dedim. İsviçre verisini aldım elime. 5 ay önce yapılan "TRT'ye vergi ödeyelim mi ödemeyelim mi?" referandumuydu ve sonucunda "Ödemeye devam edelim çünkü biz enayiyiz." sonucu çıktı. Şaka gibi arkadaş. Hoca "Twitter'da bunun muhabbeti döndü, kutuplaşma vardı, bunu analiz edelim enteresan olabilir." diye veriyi bana vermişti. Ama nasıl analiz edeceğim hakkında hiçbir fikrim yoktu o sıralar. Şimdi asistanlığını yaptığım derste gördüklerim ve okuduğum projelerden (ki dersin verilerinin arasına Troll tweetlerini sıkıştırarak kendi projemi öğrencilere yaptırmıştım, projemi outsource etmiştim bir nevi.) öğrendiklerimle en azından başlangıçta ne yapacağım konusunda bilgim vardı. Kolları sıvadım.

Malum burası İsviçre, üç dili var, veri de Almanca Fransızca karışık. Fransızca'yı çat pat anlıyoruz ama verinin %70'ini oluşturan Almanca'da bildiğim ih möhte şiş köfte. Önceden tweet okurken mal mal elle google translate'e yazıyordum. Geçen "mentorum" olarak atanan ve güvenlik konusunda çalışan hocayla yemek yedim. O bana benzer durumda olup tüm datayı çevirdiklerini söyledi. Çok iyi fikirdi. Google translate paralıydı ama hekırız evelallah. Bir yolunu bulduk.

Böylelikle google translate kullanarak tüm veriyi çevirdim. Hoca çok güldü buna, kendisi hem Almanca hem Fransızca konuşabilen biri olduğu için buna gerek görmemişti tabii.

Birkaç basit analiz yaptım, Gephi diye hazır bir network aracı kullanıp havalı grafikler çıkardım. Güzel oldu. Sundum. Hoca zorlayıcı sorular sordu ama genel olarak beğendi. Labtakiler de beğendik dediler ama bence dinlemediler ehehe.

Ama bu sunumda hoca çok önemli bir laf etti ve dolayısıyla sunum ve yaptığım iş bir anda önem kazandı. Hocaya dedim "Hocam bana birkaç İsviçre referandumu verisi daha verin ki referandum tahmini yapabileyim."

Hoca dedi. "Bu asla asıl hedef olmamalı. Bu sunumda gördük ki hazırlanılmış bir seçim kampanyası böyle oluyor. " Başka bir yerde de "Bu tip (kutuplaşma, protestolar vs.) konularda bir sürü varsayım var ama destekleyecek çok az veri ve çalışma var. Bizim işimiz bu varsayımları teste tabii tutmak." Adamın ağzından çıkan iki cümlecik hayat dersi oldu bana. (Zaten zar zor benim çalışmayla ilgili laf çıkıyor dolayısıyla her çıkan laf değerli oluyor..)

Aralık - Botlar, Troller, Yelekliler



15 Ocak’taki makale gönderimine bir buçuk ay var fakat iki hafta tatildeyim. Daha onun verisini toplayacağım da bunu çalıştıracağım da sonra algoritmaları karşılaştıracağım da, algoritma zaten hapı yutmuş da... Fark ettim ki yine yetiştiremeyeceğim. Ölü taklidi yapmaya başladım. Bu İsviçre verisi üzerine çıkardığım analizle ilgili kısa bir şey yayınlamayı düşünüyordum, onu çıtlattım. “Olmaz yayınlayamazsın. Ben senin araştırmanın İsviçre kanunlarına uygun olup olmadığını ha bilmiyorum bakmam lazım. Ama önce labtaki postdocun araştırmasını kontrol etmeliyim. Yakınlarda konferans felan yok değil mi?” dedi. Dedim "15 Ocakta var.” Tamam önemli değil dedi. Yırttım yine.

*

Paris’te olaylar patlak verince hoca dedi “Onun da verisini topladım, buna da bir bak. Bakalım derdi neymiş bu yeleklilerin.” dedi. He bir de bu çıktı başıma. Hoca dedi "Burada bazı Troll hesaplar var Rus hesaplarını falan retweetliyor. Ruslar bu olaya da el atmış. Çok ilginç." Yav bu Ruslardan kurtuluş yok mu lo."

Elimde şu an olan datasetler: Trumpçılar, troller, cumhurbaşkanı seçimleri, İsviçre referandumu ve şimdi bir de bu yelekliler. Kurban olduğum yaradan verdikçe veriyor. 

*

Bizim okulda mastır öğrencileri için sömestr projesi ve mastır projesi diye iki tane ders var. Bir labtan proje alıp onu yapıp laba sunup not alıyorsun. İkincisi bildiğin tez. Bu projelerin konularını hocalar da önerebilir doktoralar da. Bizim labta genelde doktoralar yazıyor. Sonra lab sayfasına atıyoruz. Maalesef bizim lab pek popüler değil, insanlar ne hocayı ne bizi tanıyor. Labın isminden ve web sayfasından bunun bir Data Science labı olduğu belli değil. Üstelik DLAB isimli Data Science labı, onun havai tişörtlü Stanfordlu hocası ve onun tiki lab sayfası bir çok öğrenciyi kapıyor. Bana adam kalmıyor. Öyle ki benim projeme başvuran ve uzun süre emailleştiğim bir öğrenci “Azimli kusura bakma ya, lisanstaki üniversitemde beraber çalıştığım hocayla ilintili bir projeyi almaya karar verdim. Senin asistanlığını sevdiğimden senin projene başvurmuştum ama maalesef vazgeçmek zorundayım.” dedi. Sonra öğrendim ki o da DLAB’e gitmiş.  (vay kalleş)

Labın websitesine iki tane proje koydum. İlki Türkçe veri üzerine analizdi. Türkçe veri için tabii Türkçe bilen biri lazımdı. Dolayısıyla her gördüğüm Türklere projeden bahsetmeye başladım. Hepsi çok eğlenceli gözüküyor dedi ama tabii kimse ben alıyorum projeyi diyip kendini teslim etmedi. İkinci proje Twitter’da politik aktivizm ile ilgiliydi. Bunu Sırbistanlı bir kız aldı. “Sırbistan verisi çekip onu da analiz edebilirsin İngilizce’ye ek olarak.” dedim. Hoşuna gitti. 

Bir de hoca “Haber değeri taşıyan tweet bulma” temalı bir proje önerdi. İsviçreli gazetecilerin işine yarayabilirmiş. Bunun için şansıma İsviçreli bir eleman Sırp kıza giden projeye başvurdu da ben de “böyle böyle bir şey var” dedim. Tamam güzel dedi. Çok parlak bir öğrenciye benzemiyordu ama en azından İsviçreli olduğundan konuyu biliyordu. 

Bir dahaki dönem bu iki projenin gözetmeniyim. Bakalım neler olacak. Projelerin detaylı açıklamalarını ve yaptıklarımızı sonraki yazıda yazacağım.

*

Bir gece kahvemi yudumlayıp Twitter'da aptal aptal gezinirken botlarla ilgili bir şey buldum. Olayı daha da eşeledim, görgü tanıklarıyla konuştum, bildiğin gazetecilik yaptım. Daha da ilginç şeyler keşfettim.

Ertesi gün lab toplantısında bulgularımdan bahsettim. Hoca çok şaşırdı ve durum ilgisini çekti. Labtaki postdoc da şaşırdı ve projeye dahil olmak istedi. Hatta başka bir hocanın labında benim konuyu çalışan bir postdoca mail attım, o da "Wow, That's really interesting!" diye cevap verdi. Noluyo lan.
Herkes şaşırdıkça ben daha çok şaşırıyordum. Çok Güzel Hareketler Bunlar'ın Oscar skeci var ya hani, Eser skeç yazamaz, arkadaşı ona dandik bir skeç verir, herkes bu dandik skeci çok sever bütün şukular Eser'e gider, en sonunda Eser oskar törenine çıkar anne ve babasına teşekkür eder. Skecin asıl yazarı eleman "Ya bu skeç bu kadar iyi miydi yaa?" diye şaşırır. Ben de aynı böyle oldum. Bu botlar bu kadar önemli mi ya? İşin komiği her şey bana göre kabak gibi ortadaydı, bunları görmek için doktora yapmaya gerek yoktu, ilkokulda boş zamanım bolken çözebilirdim bunları. Teknik hiçbir şey de yapmamıştım, her şey bir gazetecilik başarısıydı. Aha bir de botların Suudi Arabistan bağlantılı olduğunu tespit ettim. Daha da ilgilendiler :))
Aslında ne bulduğumu uzun uzun yazmıştım, güzel ve heyecanlı bir yazı olmuştu bunu çalışma bittikten sonra anlatmanın daha uygun olduğunu düşündüm. Özetle devamı sonraki yazıda, takipte kalın ve bloguma abone olmayı unutmayın :d

Böyle enteresan bir bulguyla yılı kapadım. Hocaya dedim şu yeleklileri analiz edip bulgularımı önümüzdeki seneye paylaşacağım. Seneye görüşürüz! Diye trolliyip tatile çıktım.

Ocak - Tatile Çıkmayın



Tatile çıktım ama tatilden bir türlü çıkamadım. Dört günde Yunanistan turu yaptım, dört gün de İstanbul Ankara Erciyes Ankara İstanbul şeklinde rota izledim. Efsane gezdim çok yoruldum ama kendimi de yenilemiş hissettim. Her şey çok güzeldi. Ta ki İstanbul'a dönüp aileme kavuşana kadar. Arkadaş dört gün boyunca ailecek gezip bir yerlere oturup yemek yiyip telefonumla oynamak bütün düzenimi bozdu. Tembelliğe o kadar alıştım ki iki hafta kendime gelemedim yemin ediyorum. Bir haftam taşınmaya gitti. Sonra bir de kayakta sakatlandım tam oldu.

Ocak ayının ilk üç haftasını kitap okuyarak geçirdim. Hayır Game of Thrones değil. Boğaziçi bilgisayar çıkışlı olup şu an NYTimes'ta köşe yazarı ve North Carolina da sosyoloji profesörü olan Zeynep Tüfekçi'nin "Twitter and Tear Gas" isimli kitabını okudum. Bu kitap tam da hocamın söylediği ve veriyle desteklenmeyen varsayımları içeriyordu ve benim elimde bu varsayımları destekleyecek veya çürütecek dolu veri vardı. Üç yüz küsür sayfalık kitabı bitirdim, fosforlu kalemle çizdiğim yerleri tekrar okuyup notlar çıkardım (bloga yazacağım uzun uzun, hatta bitti sayılır.) bunu yaparken bir daha okudum. EPFL'ye geldi kendisi konferansa, gittim tanıştım. Yalnız konferans ücretiyle bir tatil daha yapardım. En pahalı tanışmam oldu.

Bir de Machine Learning kitabını yarıladım, nöral ağlara gelince bıraktım, kıl kapıyorum nöral ağlara.

Neyse anca ocak sonuna doğru biraz Sarı Yelek analizi kastım. İşte yukarıda "problem problemi açıyor." derken neyi kastettiğimi açayım.

Analizi yapıyorum, en çok konuşan hesaplara bakıyorum, kardeş karşıma Pierre Eyfeloğlu ne bileyim Jean HacıNapolyonoğlu gibi kişiler çıkmıyor ki. Aptal saptal hesaplar var insan olmayan ne idüğü belirsiz.

Twitter'da sarıyelekler hakkında konuşup gerçekten sarı yelek olanlar kimler? Bu başlıbaşına bir proje?

Veya kimler insan? Bu da proje. (Twitter'da insan bulma projesi evet.)

İnsanların kaçı sarıyelek olayları patlamadan önce politikayla ilgileniyordu mesela? Bunun için hem adamları neyle ilgilendiğini tahmin etmek lazım hem de bunun için adamların eski tweetlerini çekmek lazım. VERİ LAZIM VERİ!!11!!

Sarı yelek üzerine konuşan bir çok kişinin hesabı 2017'nin başında alınmış yani Fransa seçimleri sırasında. Fransalı muhalifler bu hesapları alıp şimdi de sarıyeleğe salça olmuş olabilirler mi? Bunun için de adamların önceden LePenci mi yoksa Macroncu mu olduğunu bulmak lazım.

Bu böyle uzar gider. Anladınız siz. (Yazmaktan yoruldum evet.)

Ama en azından okuduğum kitap, her ne kadar tembellikten okumuş olsam da, bana epey bir fikir verdi. Yapmayı düşündüğüm "Protesto Analizi" temalı çalışmayı labtaki elemanlardan birine anlattım. "Bunu hoca mı önerdi sana? Çünkü benzerini önceden başkası yaptı iki sene önce." dedi.

Dedim eyvah.

Yapanın tezini okudum. Harbiden benim düşündüklerimi yapmıştı. Labtaki elemanla tekrar konuştum. "Yok ya aynısı değil, o çok spesifik problemlerde çalıştı. Seninki devrim olur." diye gazladı. "İnsanlar tezlerinde kuğul gözükmek için yaptıklarını bire bin katarak anlatıyorlar." dedi. O mezunun yazdığı ve tezine koyduğu makaleleri okudum. Adam haklıydı. Osuruktan makaleler yazıp yaptıklarını çok genele yayıp bunu gösterdik felan yazmış. Politik eylemleri tiplerine göre sınıflandırdık demiş, makaleye bakıyorsun #İklimDeğişikliği içeren tweetleri atan hesapları sınıflandırmış falan. Bir şey yok yani.

Tabii bir insanın tezini böyle eleştirmek zalimce ama iki sene sonra ben de yapacağım bunları. Şimdilik tadını çıkartayım eleştirmenin ehehe.

Şubat - Botlar Strayks Bek. 




Ocak sonunda enteresan bir şey oldu. Lab sayfasına attığım ve hiçbir Türk tarafından sallanmayan Türk verisi üzerine olan projeme Bilkent EE mezunu bir arkadaşım talip oldu. (Adam stajdaydı, varlığını unutmuşum.) Oh dedim buldum sonunda bot projesini yaptıracak biri. Dedim sen seçimleri falan boşver nasolsa hep AKP kazanıyor zaten. Gel şu yapalım. Olur dedi.

Bot projesi öyle kalmıştı. Bulgularım tüm Twitter'a ve geçmişe uyarlanabiliyor muydu bilmiyordum. Projenin hedefleri bile belli değildi. Açık açık adama da söyledim biz buna başlıyoruz ama ne olacak belli değil. Tamam dedi. Lab sayfasına projeyi yazmam gerekti, genel bir şeyler sallayıp yazdım. Adam kaydoldu ve okeyi dörtledik.

Şubatta en çok zaman ayırdığım iş bu oldu. Botları otomatik olarak yakalayan bir kod yazdım. Kolay olmadı. Ama çalışıyor. 5 günde 14000 bot yakaladım ki dünyada böyle bir bot dataseti yok. Şimdiden elimizde dataset paperı oldu ki bir de üzerine analiz kasarsak alacağımız atıfları gideceğimiz konferansları konferanslar için kalacağımız otellerdeki saunaları düşünemiyorum bile. Allah'ım Amerika mı...

Gerçekten çok heyecanlıyım, adama sürekli mesaj atıyorum kanka şuna da baksana, krdşmmmm bunu da yapsana. Abi bot sayısı 3000 oldu, 5000 oldu, enaa 14000 oldu. Adama en sonunda dedim beni istersen sessize al işin olmadığında bak. :D

*

Tam da burada kaldığımda yorum geldi "Abi yaz artık ya biz takipteyiz." diye. Yazayım dedim. Bu botlar konusunda detayları makale yazdıktan sonra vereceğim.

Başkasının Araştırma Günlüğü

Ben beceriksizliklerden beceriksizlik beğenirken labta enteresan şeylerden biri oldu.

Kapı komşum olan, benden bir sene önce başlamış ve henüz makale basamamış arkadaşım sonunda çalışmasını teslim etmeye karar verdi. Merak ettim baktım ne yazmış. "Bilimsel haberlerin (şu elma kanser yapıyor tipindeki haberler) doğruluğunu tahmin eden bir algoritma. Crowdsourcing ve uzman görüşüyle de desteklemiş. (Bayağı bildiğin üniversitede doktora yapan adamlara para vermiş şu makalelere bakın doğruluk payı var mı diye.) Çalışmasının en önemli katkısı sosyal medyayı yani Twitter'ı kullanması.

Ne yalan söyleyeyim, projeyi o kadar da beğenmedim. Devrim değildi. Gördüğüm en önemli eksiklik şuydu: sosyal medyayı kullanıyordu ama sosyal medyanın algoritma sonuçlarına ne kadar katkı yaptığı belli değildi. (Katkı yapan featureları sıralamıştı ama bu featureların çok azı "significant" idi. Anlamadıysanız boşverin, geçen sene bu cümleyi okusam ben de anlamam. Ama açıklamak da zor.) Yani yazdığı katkı da katkı yok demek gibiydi sanki. Bunu da söyledim. Ama tabii bir konferans için iyi yazılmıştı. Adam yazma konusunda benim kadar beceriksiz değildi.

Hocanın yorumu ise şu oldu: "Harika bir paper! Çok sevdim! İsviçre'den Yunanistan'a 12 puan!" Sonunu ben uydurdum ama bunu söyler gibi coşkuluydu. Hocayı hiç böyle görmemiştim.

Sonuç olarak benim kasımda teslim edemediğim sağlam konferansa teslim etti ve makale kabul aldı.

Benim kafamda araştırma şuydu, çalışmanı yaparsın, bir şeyler ıspatlarsın, sonra daha eğlenceli bir şeye geçersin.

Olan ise şu: hoca projeyi İsviçre devletinin Tubitak bütçesine önerdi. Basel'de yalan haber üzerine konferans verdi, en son bizim böyle projemiz var diye reklam verdi hatta. Proje onay aldı, hatta EPFL içinde onay olan iki bilgisayar projesinden biri oldu. Hocaya para aktı resmen.


Gelen paralarla projeye iki tane yazılım mühendisi almaya karar verdi hoca. Oha.

Arkadaşa tebrikler, para gifleri. ABBA Money şarkısı paylaşımları.

Bu proje bu kadar iyi miydi ya?

Adama diyorum abi senin mühendisleri azıcık da uccundan bize ver gurban olayım abeeyyy.

Tüm bunları kıskandığım için yazmıyorum. Tersine oldukça sevindim ben de. Bu arkadaş labtaki en sevdiğim adamdı çünkü. Ve her dara düştüğümde kapısını çalıyordum.

Arkadaşa dedim "Bir sürü yatırım yaptılar projeye. Sorumluluklar yüklendi. Başka projeye de geçemezsin artık, tezin bu oldu." dedi "Zaten geçmek istemiyorum." Anladım ki öyle bir proje yap sonra at kurtul olmayabiliyormuş olay.

Tüm bu olanlar benim de umudumu arttırdı çünkü bu dönem yazıp öğrencilere proje olarak havale ettiğim projelerin de gelecek vaadettiğine inanıyorum.

Gelsin stajerler, doktoralar, yazılım mühendisleri :P Şimdiden C.V. göndermeye başlayın!!! (Para beni çok değiştirdı evet. Olmayan para.)

Kapanış

(Yok bir yere gitmiyorum)

Hala ilk projeyi bitirememem ilginç ama fark ettim ki aslında işler “Bir projeyi bitir öbürüne başla.” değil de, “Twitter temalı projeler yap, bunları yaparken de Twitter temalı araştırmaların uzmanı ol. Zaten olayı çözdüğünde paperlar leblebi gibi basılacak.” (inşallah) Dolayısıyla benim öyle şu projeyi bitireyim de başkasına geçeyim de kasmama gerek yokmuş. Kimsenin de acelesi yok zaten.

Geçen seneye dönme şansım olsaydı bir yandan hocanın dediklerini yapar, bir yandan da meseleyi farklı boyutlardan ele alarak ve bu boyutlarla ilgili okuma yaparak öğrenmeye çalışırdım.

Anlaşılmadı açayım:

Neydi benim proje? Ağır trumpçıları bulmak?

Data ne? Nasıl toplandı? Data farklı toplansaydı metot yine işe yarar mıydı? (Hocanın başka bir eski öğrencisinin tezi sadece bu üç cümle üzerineydi !!)

Sınıflandırma algoritması ne? Nasıl çalışıyor? (Ben sadece buna odaklanarak tuzağa düştüm!)

Ground Truth ne? Trumpçı dediklerimiz gerçekten Trumpçı mı ? (En büyük sıkıntı)

Sınıflandırma algoritmasının avantajları ne? (Bunu yapmayı çok erteledim, halbuki her makalede yapılan bir şey.)

Sınıflandırdığımız şey ne? Bot mu troll mü yoksa gerçekten insan mı? (Bu apayrı bir proje işte, bot projesiyle buna da bir giriş yaptık.)

Sınıflandırmak ne işimize yaradı? (Bu da Sırp öğrenciye verdiğim aktivizm projesiyle ilgili, ileride anlatırım.)

Daha dolu şey var ama yazmaya üşendim.

Özetle bir şey yapmadım evet ama çok şey yapabilirim de. Yapmayabilirim de. Göreceğiz.

*

Benim son beş ayım bu şekildeydi. Umarım beğenmişsinizdir son beş ayımı. (:D)